Anthropic发布Claude2且可以免费使用!

哔哩哔哩   2023-07-12 03:16:39

Anthropic发布了Claude2,基础能力提升方面我让Claude2自己总结了以下:


(相关资料图)

在律师资格考试多项选择题部分的得分提高到%,比Claude 的73%略高。

可以通过美国医疗执照考试的多项选择部分。

编程能力提升,在Codex Human Level Python编码测试中的得分达到%,而Claude 为56%。

在数学问题解答上也有提升,在GSM8K小学数学问题集上的得分为88%,比Claude 高出个百分点。

在给出“无害”的响应方面表现提升了两倍。

可以生成更多文本,最长支持100000Tokens,可以处理大约万字的篇幅,并可以生成4000个标记,约合3125个单词。

在特定文本处理任务上表现更好,如以JSON、XML、YAML和Markdown格式生成格式正确的输出。

对多步骤指令的理解更强。

更自我意识,可以更好地处理其局限性。

推理和自我意识方面的提升。

简要测评了几个方面。

一、多模态

最多一次性可以上传5个文件,每个文件10M以下,支持PDF、TXT、python、jpeg等多种格式的文件

二、推理能力

我是使用通过引导来要求大模型反馈json格式的文本再基于json的内容生成prompt。在上无法完成此种推理任务,只能在GPT-4上完成。但是在Claude2可以达到GPT-4的推理结果。

三、代码编写能力

这里没有详细进行测试,只是提供了之前GPT编写的代码让Claude2进行分析和提出优化建议,简单的让Claude2给出具体的优化代码。个人感觉代码编写能力优于GPT-4。

吐槽一下,claude2这里果然是C里C气的,果断夹带私货,推荐我用BERT

四、文本处理

通过上传PDF文件要求Claude2进行总结,然后随机对内容进行提问,Claude2的回答完全符合文本内容。

进一步要求优化,Claude2的回答也中规中矩,没有创新,但是对细节提出了细化、优化,符合我的预期。

五、存在的问题

偶尔仍会出现中英文混杂的情况。

目前登录、注册需要美国或英国IP,其他地区无法登录。(坏还是昂撒匪帮坏啊)

数据库截至时间不明,暂且估计是2023年6月?

六、登录地址

  再次提醒:需要美国或英国IP

猜你喜欢

[ 最近更新 ]