xinai

淫人阁 OpenAI震憾发布里程碑式模子，代号o1：更强了，也更贵了

发布日期：2024-09-16 18:28 点击次数：77

淫人阁 OpenAI震憾发布里程碑式模子，代号o1：更强了，也更贵了

文 | 虞景霖淫人阁

剪辑 | 苏建勋邓咏仪

传说已久、拖了又拖的 OpenAI 模子名堂"草莓"，终于现身了。

北京时刻 9 月 13 日凌晨，Open AI 雅致发布了其首款具有推明智商的模子，代号为 OpenAI o1，包括无所不可的年老 o1-preview，和效果惊东说念主的小弟 o1-mini。

OpenAI 的磋议负责东说念主 Jerry Tework 向 The Verge 显现：" o1 使用了一种全新的优化算法和为其量身定制的新检修数据集。"也因此模子的定名并未延续 GPT 系列，而是"被定名为 o1，以暗意‘将计数器重置回 1 ’。"

o1 的立异性真义也正在于此——这代表了大模子智商在推理这条说念路上的东说念主新最先，而不是简便地算作 GPT 系列的延续。

开头：OpenAI

传说已久的 o1 照旧上线，就在 X 激励粗造酌量：挑剔区网友歌功颂德，AI 圈网红 Jim Fan 依旧现身宣传。

况且 Jim Fan 还暗意，o1 的发布里程碑真义在于，它考证了此前所说的"两条弧线协同职责"表面，展示了检修狡计和测试狡计若何共同影响模子的最终性能。

传统的模子检修强调在检修时干预深广狡计资源。而 o1 模子代表了一种新的 AI 模子树立范式。它强调了测试时狡计（或推理时狡计）的进军性—— o1 通过增多在测试 / 推理时的狡计资源显赫提高了模子性能。

开头：X

翁雨澄肛交

"放假中"的总裁 Brockman，相似现身打 Call 开头：X

淌若说此前的模子是用"直观"修起问题，那么 o1 给出的则是三想尔后行后的修起，这一改革来自于背后的"链式想考"（Chain-of-thought）机制。

用 OpenAI 磋议掌握 Mark Chen 的话说即是："模子在学习我方想考，而不是试图效法东说念主类的想维花式。"

简便来说，o1 在给出修起前会在"脑子"里进行一场里面临话，还会使用"让我想想""我在筹商"等短语来展示想考经由。

模拟想考经由："我很趣味""我正在想考""好的，让我望望" 开头：OpenAI

o1 的阐明究竟若何？用数据来语言：

数学方面，在 2024 年好意思国数学邀请赛（AIME）中，GPT-4o 的平均正确率为 12%（15 说念题科罚 1.8 题），o1 在初次尝试的平均正确率就达到了 74%。通过使用集体有操办和高等评分战略，o1 的正确率最高可达 93%。这一收货不仅让 o1 踏进全好意思前 500 名优秀学生之列，还卓越了好意思国数学奥林匹克竞赛的入选分数线。

GPQA Diamond 是一项专诚评估化学、物理和生物等畛域专科常识的测试。o1 不仅完成了这项测试，还超越了领有超越了部分领有相干畛域博士学位的东说念主类巨匠，标明 AI 在特定专科畛域的智商已经达到了一个新高度。

编程方面，o1 在外洋信息学奥林匹克竞赛（IOI）中也阐明超卓，在和东说念主类参赛者换取的条款下，o1 得回了 213 分的高分，位列参赛者的前 50%。当扬弃进一步放宽（每个问题的提交次数从 50 提高到 10000 次），o1 取得了 362.14 的高分，超越了金牌的得回门槛。

在模拟 Codeforces 平台的竞争性编程比赛中，o1 得回了 1807 的高分，超越了 93% 的东说念主类竞争者，这一收货远远卓越了 GPT-4o（Elo 评分为 808，仅卓越 11% 的东说念主类竞争者）。

简便来说，o1 是一个相配善于想考、推理的大模子。况且，其运作机制与基于 scaling law 的大模子不同，这让它无谓基于深广的狡计破钞来擢升性能，而是一个格外垂直的模子。

尽管 o1 模子展现出了超卓的智商，但仍然存在一些值得细致的局限性。

当先，在处理速率方面，o1 可能不如其他模子赶快。

Thomson Reuters 的副总裁 Pablo Arredondo：" o1 巧合需要卓越 10 秒身手修起一个问题，这在某些需要快速反应的场景中可能会成为一个问题。"

其次，相较于 GPT-4o，o1 在功能上还有一些欠缺——现在无法浏览网页，也不可处理文献和图像。

此外，o1 不是一个多模态模子，这意味着它无法贯通图像或音频输入。

在模子输出的质方位面，OpenAI 承认 o1 存在一些挑战。把柄工夫论文中的反馈，o1 似乎比 GPT-4o 更容易产生"幻觉"，即生成看似合理但骨子上并不准确的信息。同期，o1 似乎不如 GPT-4o 那样继续承认我方不知说念谜底，这可能会在某些情况下导致误导性的输出。

OpenAI 官方极端提议将 o1 用于科罚以下畛域的复杂问题：科学、编码、数学和相干畛域。

即日起，ChatGPT Plus 和 Team 用户不错看望 o1-preview 和 o1-mini；企业用户和 Edu 用户将于下周得回看望权限。OpenAI 计算为扫数 ChatGPT 免用度户提供 o1-mini 的看望权限，但尚未细则雅致发布日历。

关于 API 看望，合乎 API 使用品级 5（已经支付 1000 好意思元况且卓越 30 天）的树立者不错使用 API 中的两个模子进行原型想象，现时的速率扬弃为 20 次肯求 / 分钟。此外，现时的 API 版块还不救济一些高等功能，如函数调用、流式处理和系统音尘救济等。

在订价方面，在 API 中，o1-preview 中每 100 万个 token 的输入价钱为 15 好意思元，输出价钱为 60 好意思元，较 GPT-4o 朝上 3-4 倍。

� � � � 扫码加入「智涌 AI 交流群」� � � �

开头：公众号【智能浮现】淫人阁

热点资讯

	淫人阁三个鸡蛋上舞蹈的阎锡山，差点真的跳在日本的鸡蛋上，成了汉奸…
	黑丝做爱【诗家】李山甫…
	淫人阁《黄雀》大春之死最无辜, 导演安排荫庇深意, 激发不雅众深想_小…
	擦玻璃裸舞好意思国制造业其实并不弱，只是不大，而且回流也不难…
	泰國人妖黎珮琳：论宫崎骏告别之作《你想活出怎样的东谈主生》导演立场…