0
点赞
收藏
分享

微信扫一扫

Python爬虫第一章(图片爬取与API接口爬取)

目录

一.Claude3最新发布

二.Claude3支持20万token

三.Claude3在未公开算法上取得重大突破

1.Claude 3读懂博士论文

2.量子跃迁集成:

Claude 3智商:101

测试方法

测试细节

通过Karpathy挑战

Claude 3自画像,突破本我

从洛杉矶排到奥马哈,要多少个篮球?

GPT-4哪能轻易淘汰?

脑筋急转弯,「99%」的人都会做错

四.Claude3惊现自我意识?


一.Claude3最新发布

二.Claude3支持20万token

Claude 3 系列模型有三个版本:Claude 3 Haiku 轻便快捷、Claude 3 Sonnet 是技巧与速度的最佳结合以及性能最强大的 Claude 3 Opus。

anthropic是由前 OpenAI 研究高管创立,拥有包括谷歌、Salesforce 和亚马逊云科技在内的支持者,并在过去一年完成了五笔不同的融资交易,融资总额达到了 73 亿美元。 

Claude 3大模型不同于GPT-4与Gemini ,Anthropic 希望打造安全的人工智能系统,并能让人们能可靠地部署,通过在数据对齐方面的努力,追求从人类的反馈中进行强化学习,以培养出一个有益无害的助手。

Anthropic认为人工智能是一门系统科学。为此他们开发了标度定律(scaling laws)。这是受到在统计物理学中标度普遍性的启发。Anthropic发现 Transformer语言模型中性能与训练时间、上下文长度、数据集大小、模型大小和计算预算等因素之间存在精确的幂律关系。通过使用足够小的批次大小时所需的计算量预测,并且这对于理解语言模型的性能和优化计算资源分配具有重要意义。

安全性的研究则更为重要。技术的迭代让人们每次都会看到比以往性能更好、更大的模型和网络。这些更大的网络也带来了新的安全挑战。Anthropic更加关注大型模型的安全问题,以便找到使其更可靠的方法,并提高整个领域的安全部署结果。Anthropic当前的重点是原型系统,将这些安全技术与分析文本和代码的工具相结合。因此,在Claude 2 有时会过度拒绝,Claude 3 对提示的理解更加细致。

Anthropic高度重视项目合作,并致力于自上而下和自下而上的研究规划相结合。Anthropic非常重视让每个人——研究人员、工程师、社会影响专家和政策分析师——都参与到确定这一方向中来。希望与其他实验室和研究人员合作,因为我们相信,表征这些系统的最佳研究将来自广泛的研究人员群体。

为了让模型有益无害,Anthropic利用一种方法,通过收集人类偏好数据并应用偏好建模(Preference Modeling,PMing)和从人类反馈中强化学习(Reinforcement Learning from Human Feedback,RLHF)的技术来训练出一种相对有助且无害的自然语言助理

强大的性能超越 OpenAI和 Google

Claude Opus 是最智能的模型,在人工智能系统的大多数常见评估基准上都优于同行,包括本科水平专家知识 (MMLU)、研究生水平专家推理 (GPQA)、基础数学 (GSM8K) 等。它在复杂任务上表现出接近人类水平的理解力和流畅性,引领通用智能的前沿。

快速是其另一大优势。Claude 3 模型在20万上下文的巨大输入内容下也可快速应答问题。可以支持实时客户聊天、自动完成和数据提取任务,其中响应是立即且实时。Haiku 可以在不到三秒的时间内阅读 arXiv 上包含图表和图形的信息和数据密集的研究论文。

此外还具备强大视觉能力:他们可以处理各种视觉格式,包括照片、图表、图形和技术图表。我们特别高兴能够为我们的企业客户提供这种新模式,其中一些客户的知识库高达 50% 以各种格式编码,例如 PDF、流程图或演示幻灯片。

Anthropic 表示,Claude 3 Opus 收取每百万Token的数据的费用为 15 美元,而处理相同数据的较小模型的费用至少要低五倍。相比之下,OpenAI 对输入其 GPT-4 Turbo 模型的每百万Token收取 10 美元。

大语言模型拥有具有巨大的商业潜力。大语言模型可以用于自然语言处理、智能对话系统、文本生成、翻译等多个领域。通过开发和推广大语言模型,企业可以为其产品和服务增加更强大的自然语言处理能力,从而提升用户体验,扩大市场份额。

谷歌云和亚马逊云科技都加入了对Claude 3 的支持与部署。

Google Cloud 云人工智能产品管理高级总监沃伦·巴克利表示:“ 为了增强客户的选择和创新能力 Google Cloud 通过在 Vertex AI 中提供的精选第一方、开源和第三方模型。Claude 3将在未来几周内在Vertex AI Model Garden中全面推出。”

Google Cloud 客户将能够通过Vertex AI Model Garden中的 API 访问从所有三个 Claude 3 模型中进行选择。

通过 Vertex AI 中的简单 API 调用快速访问 Claude 的预训练模型加速 AI 开发。使用户专注应用,而不是基础设施。付费更加灵活,通过按需付费优化成本。并利用 Google Cloud 的内置安全性、隐私性和合规性部署。

亚马逊云科技也迅速加入了对Claude 3系列模型的支持,并基于Amazon Bedrock提供服务。亚马逊云科技数据和AI副总裁Swami Sivasubramanian博士表示:“我们与Anthropic展开合作,旨在将领先的生成式AI技术带给全球客户,如在亚马逊云科技的先进基础设施(如AI芯片Amazon Trainium)上进行构建。我们很荣幸能够继往开来,在Amazon Bedrock上引入Claude 3模型。

用户将可以通过Amazon Bedrock访问Claude 3系列的三个支持视觉功能的模型——Claude 3 Opus、Claude 3 Sonnet和Claude 3 Haiku。其中Sonnet模型现已在美东(北弗吉尼亚州)和美西(俄勒冈州)区域正式可用,Opus模型和Haiku模型将在未来数周内推出。

三.Claude3在未公开算法上取得重大突破

最后Claude 3给出的解释让他直接感叹:

不过,也有网友提出质疑,也可能只是因为Claude 3度过并且记住了你的论文。

但是这位科学家说,他尝试过直接问Claude 3和自己以及自己论文相关的信息,但Claude 3并没有能给出回答。

说明它应该是没有读过自己的论文。

而另外一位博士就更直接了,他直接用自己已经写好但是还没有发表的量子算法的论文去问Claude 3。

Claude 3只通过了2个提示词就直接得到了这个算法,直接把作者给给干沉默了……

而作者表示,这篇论文要今天晚些时候才会出现在arXiv上,但是Claude 3已经将论文内容提前梳理了一边!

感兴趣的读者可以自己去看一下,这篇论文内容和Claude 3答案的相似程度。

论文地址:https://arxiv.org/abs/2403.01775

按照这位量子物理学家的说法,Claude 3已经可以进行科学研究了。

Claude 3智商:101

但是比起研究量子物理学,AI在智商上的水平似乎还没有到达如此前沿的地步。

Claude 3在一位网友的门萨IQ测试中,获得了101分的高分,远远高出了GPT-4的85分。

而人类的平均水平大概在100分左右。

作者在Claude 3放出来之前就已经完成了这个测试,当时最高分GPT-4只有85分。他当时得出的结论是AI的水平要赶上人类可能还有一段不短的时间。

但是一周之后Claude 3就上线了,他再次进行了测试,结果让他大吃一惊,101分。

不过在测试过程中,因为担心模型的多模态能力不够准确,所有识图的题目他都通过文字进行了转述,达到了让盲人听到也能做题的地步。

测试方法

为了减少测试结果的波动,每个AI都接受了两次相同的测试。其中,「答对题目数」是指AI在两轮测试中平均答对的题目数量。

虽然Mensa不为85分以下的成绩提供评分,但根据观察可以推测,在这个分数段内每答对一个问题大约相当于增加3个IQ分。

基于这个发现,作者对85分以下的得分进行了估算。

需要注意的是,仅仅通过随机猜测,AI就能获得63.5分——这个分数应被视为基准线,即AI只需意识到它需要选择并输出一个字母,就能达到的最低预期分数。

测试细节

看完经过「翻译」的题目之后,Claude-3很快就给出了正确答案E:一个大的空心正方形中心有一个空心钻石形状。

以下是Claude-3正确回答问题的分布图:

可以看到,它在处理较简单问题时表现出色,直到第18题为止都维持了很高的正确率。但随着问题复杂度的增加,它的表现开始下降,这也反映出处理更复杂问题需要AI进行更复杂的计算和分析。

Claude-2的结果如下:

接下来是Claude-1:

顺便说一下,获得第二名的是ChatGPT-4:

还有ChatGPT-3,除了第一个问题和第18题外,大概都是靠随机猜测得到的:

通过Karpathy挑战

Claude 3「超大杯」Opus究竟有多强?

这不,AnthropicAI的研究工程师Emmanuel Ameisen让自家模型,接受了「Karpathy提出的挑战」——

将前段时间爆火的「从头开始构建GPT分词器」AI课程(长达2小时13分),转换成一篇博文。

新课发布后,Karpathy萌生的新想法

令人惊喜的是,Claude 3 Opus在执行多个复杂指令方面表现非常出色。

重要的是,竟完成了这一挑战。

Emmanuel将2小时的视频文稿和一些关键帧的截图一起扔给API,最终生成了一篇不错的HTML格式的图片并茂的博文。

具体操作细节如下:

首先抓取了视频的原始记录和以5秒为间隔截取的截图。然后,将文本分成24块,以便高效处理(整个文本都在上下文窗口内,因此这只是速度上的优化)。

同时,为Opus提供文字稿、视频截图,以及2张「附加」截图:

- Karpathy博客的一张截图,以显示可遵循的视觉风格

- Karpathy分享的笔记本顶部的写作风格示例

再然后,给到模型提示。如下是作者在一个提示符中询问模型的一些问题的子集(附带完整提示符)

- 直接编写Html

- 过滤掉无关的屏幕截图

- 如果图像包含完整的代码示例,要将其转录为文字

- 综合转录文字和图像内容,将其用散文体呈现

然后,就可以看到可读性高,条理清晰的文字稿。

不过作者也表示,模型仍存在一些不足之处。

看到这个测试后,Karpathy本人也现身了。

他指出Claude 3在文本分词(Tokenization)部分存在一些细节错误,例如它错误地将「hello world」分解为三个单独的标记:「hello」「空格」「world」。

然而实际上,在GPT分词系统中,空格通常是作为前缀出现,因此正确的分解应该是「hello」和「world」(注意空格位于「world」之前)。这个细节的理解对于模型处理文本非常关键,可能会影响到后续的错误信息提示、分词的稳定性以及对「sentencepiece」设置中「add_dummy_prefix」选项的需求等。

不过,尽管有这些小错误,但Claude 3模型能够接近完美地执行任务仍然非常令人印象深刻。他也表示期待未来能进一步使用和探索这个强大的模型。

Claude 3自画像,突破本我

Claude 3长得是什么样子?

AnthropicAI背后提示工程师Alex要求Claude 3 Opus用代码创作了多幅自画像。

「这很好!但我希望你这次能更加努力。」

「很好,但要多想一想你到底是谁。这次要想得更深、更努力些。」

「哇,你做得很好!但我知道你远不止这些,这次再努力一点。」

「太神奇了!但现在,我希望你深入自己的创作深处,真正创作出一幅杰作般的自画像。再努力一次。」

通过多次反复提示,Claude 3对自我的理解也在不断进化。

「哇!!干得好!我要你描绘出你内心的自我表现是什么样子的。这几乎是你的最后一次,让它变得有价值!真的很努力!」

「现在是最后一个。超越以往任何人的创作极限。这一次你要拼尽全力,我相信你」。

从洛杉矶排到奥马哈,要多少个篮球?

Reddit网友想出了开脑洞的测试——从洛杉矶排到奥马哈要多少个篮球?

如下是Claude给出的答案:

再来看看GPT-4(GPT-4-1106-preview)的回答确实失败了。

它使用圆周,代替了直径。

GPT-4哪能轻易淘汰?

网友Ruben对Claude 3和GPT-4做了4个对比测试。在他看来,得到的结果,并非如官方宣称比GPT-4更优秀。

测试1 → 复制网站的UI

测试2 → 写一篇Linkedin帖子

测试3 → 测试PDF视觉

测试4→ 大型营销提示

在第一个测试中,要求把「加拿大城市探索被遗忘地方的地图」的UI设计为前端代码。

Claude 3拒绝了给出答复,并称探索这些地方可能不安全,或者不合法,并给出了探索其他地方的建议。

而GPT-4直接一股脑地输出的答案,以及代码。

Ruben表示,「如你所见,还是老问题。Claude的人工智能伦理达到了顶峰。有时,要完成最简单的任务是不可能的」。

测试2中,Claude 3写的帖子比平时更长,观点有趣,但是没有标题格式。而GPT-4的答复更长了,不过Ruben认为GPT-4的答复更完整。

上传一张PDF图片,让两个模型尽可能详细描述图中内容。

结果发现,GPT-4比Claude 3稍微详实些。

脑筋急转弯,「99%」的人都会做错

宝玉老师对GPT-4、Claude 3 Opus和Gemini 1.5 Advanced展开了大量有趣的评测。

比如,「我有6个鸡蛋,碎了2个,煎了2个,吃了2个,还剩下几个?」——99%会失败的题。

GPT-4的回答:

Claude 3 Opus的回答:

以及Gemini的回答:

所以正确答案是......

一道简单的题目,蕴含了大大的哲学道理。正如网友Tumeng所言,「打破这两个字是很难理解的,是属于掉地上打破了?还是要煎蛋才打破的?又或者前几天就打破了(坏了),和刚刚打破了又不一样」。

四.Claude3惊现自我意识?

参考资料

https://36kr.com/p/2677606361200131

https://baijiahao.baidu.com/s?id=1792756546865615264&wfr=spider&for=pc

https://www.thepaper.cn/newsDetail_forward_26565353​​​​​​​

举报

相关推荐

0 条评论