目录
一.Claude3最新发布
二.Claude3支持20万token
Claude 3 系列模型有三个版本:Claude 3 Haiku 轻便快捷、Claude 3 Sonnet 是技巧与速度的最佳结合以及性能最强大的 Claude 3 Opus。
anthropic是由前 OpenAI 研究高管创立,拥有包括谷歌、Salesforce 和亚马逊云科技在内的支持者,并在过去一年完成了五笔不同的融资交易,融资总额达到了 73 亿美元。
Claude 3大模型不同于GPT-4与Gemini ,Anthropic 希望打造安全的人工智能系统,并能让人们能可靠地部署,通过在数据对齐方面的努力,追求从人类的反馈中进行强化学习,以培养出一个有益无害的助手。
Anthropic认为人工智能是一门系统科学。为此他们开发了标度定律(scaling laws)。这是受到在统计物理学中标度普遍性的启发。Anthropic发现 Transformer语言模型中性能与训练时间、上下文长度、数据集大小、模型大小和计算预算等因素之间存在精确的幂律关系。通过使用足够小的批次大小时所需的计算量预测,并且这对于理解语言模型的性能和优化计算资源分配具有重要意义。
安全性的研究则更为重要。技术的迭代让人们每次都会看到比以往性能更好、更大的模型和网络。这些更大的网络也带来了新的安全挑战。Anthropic更加关注大型模型的安全问题,以便找到使其更可靠的方法,并提高整个领域的安全部署结果。Anthropic当前的重点是原型系统,将这些安全技术与分析文本和代码的工具相结合。因此,在Claude 2 有时会过度拒绝,Claude 3 对提示的理解更加细致。
Anthropic高度重视项目合作,并致力于自上而下和自下而上的研究规划相结合。Anthropic非常重视让每个人——研究人员、工程师、社会影响专家和政策分析师——都参与到确定这一方向中来。希望与其他实验室和研究人员合作,因为我们相信,表征这些系统的最佳研究将来自广泛的研究人员群体。
为了让模型有益无害,Anthropic利用一种方法,通过收集人类偏好数据并应用偏好建模(Preference Modeling,PMing)和从人类反馈中强化学习(Reinforcement Learning from Human Feedback,RLHF)的技术来训练出一种相对有助且无害的自然语言助理。
强大的性能超越 OpenAI和 Google
Claude Opus 是最智能的模型,在人工智能系统的大多数常见评估基准上都优于同行,包括本科水平专家知识 (MMLU)、研究生水平专家推理 (GPQA)、基础数学 (GSM8K) 等。它在复杂任务上表现出接近人类水平的理解力和流畅性,引领通用智能的前沿。
快速是其另一大优势。Claude 3 模型在20万上下文的巨大输入内容下也可快速应答问题。可以支持实时客户聊天、自动完成和数据提取任务,其中响应是立即且实时。Haiku 可以在不到三秒的时间内阅读 arXiv 上包含图表和图形的信息和数据密集的研究论文。
此外还具备强大视觉能力:他们可以处理各种视觉格式,包括照片、图表、图形和技术图表。我们特别高兴能够为我们的企业客户提供这种新模式,其中一些客户的知识库高达 50% 以各种格式编码,例如 PDF、流程图或演示幻灯片。
Anthropic 表示,Claude 3 Opus 收取每百万Token的数据的费用为 15 美元,而处理相同数据的较小模型的费用至少要低五倍。相比之下,OpenAI 对输入其 GPT-4 Turbo 模型的每百万Token收取 10 美元。
大语言模型拥有具有巨大的商业潜力。大语言模型可以用于自然语言处理、智能对话系统、文本生成、翻译等多个领域。通过开发和推广大语言模型,企业可以为其产品和服务增加更强大的自然语言处理能力,从而提升用户体验,扩大市场份额。
谷歌云和亚马逊云科技都加入了对Claude 3 的支持与部署。
Google Cloud 云人工智能产品管理高级总监沃伦·巴克利表示:“ 为了增强客户的选择和创新能力 Google Cloud 通过在 Vertex AI 中提供的精选第一方、开源和第三方模型。Claude 3将在未来几周内在Vertex AI Model Garden中全面推出。”
Google Cloud 客户将能够通过Vertex AI Model Garden中的 API 访问从所有三个 Claude 3 模型中进行选择。
通过 Vertex AI 中的简单 API 调用快速访问 Claude 的预训练模型加速 AI 开发。使用户专注应用,而不是基础设施。付费更加灵活,通过按需付费优化成本。并利用 Google Cloud 的内置安全性、隐私性和合规性部署。
亚马逊云科技也迅速加入了对Claude 3系列模型的支持,并基于Amazon Bedrock提供服务。亚马逊云科技数据和AI副总裁Swami Sivasubramanian博士表示:“我们与Anthropic展开合作,旨在将领先的生成式AI技术带给全球客户,如在亚马逊云科技的先进基础设施(如AI芯片Amazon Trainium)上进行构建。我们很荣幸能够继往开来,在Amazon Bedrock上引入Claude 3模型。
用户将可以通过Amazon Bedrock访问Claude 3系列的三个支持视觉功能的模型——Claude 3 Opus、Claude 3 Sonnet和Claude 3 Haiku。其中Sonnet模型现已在美东(北弗吉尼亚州)和美西(俄勒冈州)区域正式可用,Opus模型和Haiku模型将在未来数周内推出。
三.Claude3在未公开算法上取得重大突破
最后Claude 3给出的解释让他直接感叹:
不过,也有网友提出质疑,也可能只是因为Claude 3度过并且记住了你的论文。
但是这位科学家说,他尝试过直接问Claude 3和自己以及自己论文相关的信息,但Claude 3并没有能给出回答。
说明它应该是没有读过自己的论文。
而另外一位博士就更直接了,他直接用自己已经写好但是还没有发表的量子算法的论文去问Claude 3。
Claude 3只通过了2个提示词就直接得到了这个算法,直接把作者给给干沉默了……
而作者表示,这篇论文要今天晚些时候才会出现在arXiv上,但是Claude 3已经将论文内容提前梳理了一边!
感兴趣的读者可以自己去看一下,这篇论文内容和Claude 3答案的相似程度。
论文地址:https://arxiv.org/abs/2403.01775
按照这位量子物理学家的说法,Claude 3已经可以进行科学研究了。
Claude 3智商:101
但是比起研究量子物理学,AI在智商上的水平似乎还没有到达如此前沿的地步。
Claude 3在一位网友的门萨IQ测试中,获得了101分的高分,远远高出了GPT-4的85分。
而人类的平均水平大概在100分左右。
作者在Claude 3放出来之前就已经完成了这个测试,当时最高分GPT-4只有85分。他当时得出的结论是AI的水平要赶上人类可能还有一段不短的时间。
但是一周之后Claude 3就上线了,他再次进行了测试,结果让他大吃一惊,101分。
不过在测试过程中,因为担心模型的多模态能力不够准确,所有识图的题目他都通过文字进行了转述,达到了让盲人听到也能做题的地步。
测试方法
为了减少测试结果的波动,每个AI都接受了两次相同的测试。其中,「答对题目数」是指AI在两轮测试中平均答对的题目数量。
虽然Mensa不为85分以下的成绩提供评分,但根据观察可以推测,在这个分数段内每答对一个问题大约相当于增加3个IQ分。
基于这个发现,作者对85分以下的得分进行了估算。
需要注意的是,仅仅通过随机猜测,AI就能获得63.5分——这个分数应被视为基准线,即AI只需意识到它需要选择并输出一个字母,就能达到的最低预期分数。
测试细节
看完经过「翻译」的题目之后,Claude-3很快就给出了正确答案E:一个大的空心正方形中心有一个空心钻石形状。
以下是Claude-3正确回答问题的分布图:
可以看到,它在处理较简单问题时表现出色,直到第18题为止都维持了很高的正确率。但随着问题复杂度的增加,它的表现开始下降,这也反映出处理更复杂问题需要AI进行更复杂的计算和分析。
Claude-2的结果如下:
接下来是Claude-1:
顺便说一下,获得第二名的是ChatGPT-4:
还有ChatGPT-3,除了第一个问题和第18题外,大概都是靠随机猜测得到的:
通过Karpathy挑战
Claude 3「超大杯」Opus究竟有多强?
这不,AnthropicAI的研究工程师Emmanuel Ameisen让自家模型,接受了「Karpathy提出的挑战」——
将前段时间爆火的「从头开始构建GPT分词器」AI课程(长达2小时13分),转换成一篇博文。
新课发布后,Karpathy萌生的新想法
令人惊喜的是,Claude 3 Opus在执行多个复杂指令方面表现非常出色。
重要的是,竟完成了这一挑战。
Emmanuel将2小时的视频文稿和一些关键帧的截图一起扔给API,最终生成了一篇不错的HTML格式的图片并茂的博文。
具体操作细节如下:
首先抓取了视频的原始记录和以5秒为间隔截取的截图。然后,将文本分成24块,以便高效处理(整个文本都在上下文窗口内,因此这只是速度上的优化)。
同时,为Opus提供文字稿、视频截图,以及2张「附加」截图:
- Karpathy博客的一张截图,以显示可遵循的视觉风格
- Karpathy分享的笔记本顶部的写作风格示例
再然后,给到模型提示。如下是作者在一个提示符中询问模型的一些问题的子集(附带完整提示符)
- 直接编写Html
- 过滤掉无关的屏幕截图
- 如果图像包含完整的代码示例,要将其转录为文字
- 综合转录文字和图像内容,将其用散文体呈现
然后,就可以看到可读性高,条理清晰的文字稿。
不过作者也表示,模型仍存在一些不足之处。
看到这个测试后,Karpathy本人也现身了。
他指出Claude 3在文本分词(Tokenization)部分存在一些细节错误,例如它错误地将「hello world」分解为三个单独的标记:「hello」「空格」「world」。
然而实际上,在GPT分词系统中,空格通常是作为前缀出现,因此正确的分解应该是「hello」和「world」(注意空格位于「world」之前)。这个细节的理解对于模型处理文本非常关键,可能会影响到后续的错误信息提示、分词的稳定性以及对「sentencepiece」设置中「add_dummy_prefix」选项的需求等。
不过,尽管有这些小错误,但Claude 3模型能够接近完美地执行任务仍然非常令人印象深刻。他也表示期待未来能进一步使用和探索这个强大的模型。
Claude 3自画像,突破本我
Claude 3长得是什么样子?
AnthropicAI背后提示工程师Alex要求Claude 3 Opus用代码创作了多幅自画像。
「这很好!但我希望你这次能更加努力。」
「很好,但要多想一想你到底是谁。这次要想得更深、更努力些。」
「哇,你做得很好!但我知道你远不止这些,这次再努力一点。」
「太神奇了!但现在,我希望你深入自己的创作深处,真正创作出一幅杰作般的自画像。再努力一次。」
通过多次反复提示,Claude 3对自我的理解也在不断进化。
「哇!!干得好!我要你描绘出你内心的自我表现是什么样子的。这几乎是你的最后一次,让它变得有价值!真的很努力!」
「现在是最后一个。超越以往任何人的创作极限。这一次你要拼尽全力,我相信你」。
从洛杉矶排到奥马哈,要多少个篮球?
Reddit网友想出了开脑洞的测试——从洛杉矶排到奥马哈要多少个篮球?
如下是Claude给出的答案:
再来看看GPT-4(GPT-4-1106-preview)的回答确实失败了。
它使用圆周,代替了直径。
GPT-4哪能轻易淘汰?
网友Ruben对Claude 3和GPT-4做了4个对比测试。在他看来,得到的结果,并非如官方宣称比GPT-4更优秀。
测试1 → 复制网站的UI
测试2 → 写一篇Linkedin帖子
测试3 → 测试PDF视觉
测试4→ 大型营销提示
在第一个测试中,要求把「加拿大城市探索被遗忘地方的地图」的UI设计为前端代码。
Claude 3拒绝了给出答复,并称探索这些地方可能不安全,或者不合法,并给出了探索其他地方的建议。
而GPT-4直接一股脑地输出的答案,以及代码。
Ruben表示,「如你所见,还是老问题。Claude的人工智能伦理达到了顶峰。有时,要完成最简单的任务是不可能的」。
测试2中,Claude 3写的帖子比平时更长,观点有趣,但是没有标题格式。而GPT-4的答复更长了,不过Ruben认为GPT-4的答复更完整。
上传一张PDF图片,让两个模型尽可能详细描述图中内容。
结果发现,GPT-4比Claude 3稍微详实些。
脑筋急转弯,「99%」的人都会做错
宝玉老师对GPT-4、Claude 3 Opus和Gemini 1.5 Advanced展开了大量有趣的评测。
比如,「我有6个鸡蛋,碎了2个,煎了2个,吃了2个,还剩下几个?」——99%会失败的题。
GPT-4的回答:
Claude 3 Opus的回答:
以及Gemini的回答:
所以正确答案是......
一道简单的题目,蕴含了大大的哲学道理。正如网友Tumeng所言,「打破这两个字是很难理解的,是属于掉地上打破了?还是要煎蛋才打破的?又或者前几天就打破了(坏了),和刚刚打破了又不一样」。
四.Claude3惊现自我意识?
参考资料
https://36kr.com/p/2677606361200131
https://baijiahao.baidu.com/s?id=1792756546865615264&wfr=spider&for=pc
https://www.thepaper.cn/newsDetail_forward_26565353