Anthropic发布了Claude2,基础能力提升方面我让Claude2自己总结了以下:
(相关资料图)
在律师资格考试多项选择题部分的得分提高到%,比Claude 的73%略高。
可以通过美国医疗执照考试的多项选择部分。
编程能力提升,在Codex Human Level Python编码测试中的得分达到%,而Claude 为56%。
在数学问题解答上也有提升,在GSM8K小学数学问题集上的得分为88%,比Claude 高出个百分点。
在给出“无害”的响应方面表现提升了两倍。
可以生成更多文本,最长支持100000Tokens,可以处理大约万字的篇幅,并可以生成4000个标记,约合3125个单词。
在特定文本处理任务上表现更好,如以JSON、XML、YAML和Markdown格式生成格式正确的输出。
对多步骤指令的理解更强。
更自我意识,可以更好地处理其局限性。
推理和自我意识方面的提升。
简要测评了几个方面。
一、多模态
最多一次性可以上传5个文件,每个文件10M以下,支持PDF、TXT、python、jpeg等多种格式的文件
二、推理能力
我是使用通过引导来要求大模型反馈json格式的文本再基于json的内容生成prompt。在上无法完成此种推理任务,只能在GPT-4上完成。但是在Claude2可以达到GPT-4的推理结果。
三、代码编写能力
这里没有详细进行测试,只是提供了之前GPT编写的代码让Claude2进行分析和提出优化建议,简单的让Claude2给出具体的优化代码。个人感觉代码编写能力优于GPT-4。
吐槽一下,claude2这里果然是C里C气的,果断夹带私货,推荐我用BERT
四、文本处理
通过上传PDF文件要求Claude2进行总结,然后随机对内容进行提问,Claude2的回答完全符合文本内容。
进一步要求优化,Claude2的回答也中规中矩,没有创新,但是对细节提出了细化、优化,符合我的预期。
五、存在的问题
偶尔仍会出现中英文混杂的情况。
目前登录、注册需要美国或英国IP,其他地区无法登录。(坏还是昂撒匪帮坏啊)
数据库截至时间不明,暂且估计是2023年6月?
六、登录地址
再次提醒:需要美国或英国IP