正好配资网 OpenAI放大招！发布最强水平大模型，解决博士生级别科学问题

发布日期：2024-10-22 13:45 点击次数：60

传言中有高级推理能力、此前被称为"草莓项目"的OpenAI新项目于北京时间9月13日凌晨推出了。

OpenAI在官网介绍，一个新的推理（reasoning）模型系列将开始提供，这个系列模型将用于解决困难问题，这些模型将在做出反应前花更多时间思考，可以通过复杂的过程进行推理，解决比以往更难的科学、编码和数据问题。OpenAI此次在ChatGPT和API接口渠道上先推出该系列的预览版本OpenAI o1-preview。

"对复杂的推理任务而言，这是一个重大进步，代表人工智能能力的一个崭新水平。因此我们将‘计数器’重置为1，新系列命名为OpenAI o1。"OpenAI表示。OpenAI CEO Sam Altman（萨姆·奥尔特曼）也在社交平台上表示，该新模型是一个新范式的开始，即AI能够进行通用复杂推理。

OpenAI o1包括三个型号，除o1-preview 之外还将有o1和o1-mini。其中o1-mini是一种更快、更便宜的推理模型且适用于需要推理但不需广泛世界知识的应用，o1-mini还比o1-preview便宜80%。

技术方面，OpenAI介绍，新系列模型经过训练，学会完善自身思维过程并尝试不同策略，能认识到自己的错误。新系列模型更新后的性能类似于博士生在物理、化学、生物学中完成具挑战性的基准任务。新系列模型还在数据和编码方面表现出色，在国际数学奥林匹克竞赛（IMO）的资格考试中得分83%，对比之下GPT-4o仅正确解决了13%的问题。新系列模型还在竞争性编程问题Codeforces比赛中排名前89%。

在技术研究相关文章中，OpenAI介绍，公司用大规模强化学习算法"教会"模型在数据高效训练时用思维链进行高效思考。随着强化学习增加和思考时间增加，o1的性能不断提高。类似于人类在回答困难问题之前思考很长时间，o1也尝试在解决问题时使用思维链，该模型通过强化学习学会磨练思维链并改进策略，学会在当前方法不起作用时尝试不同方法，这提高了模型推理能力。

"作为早期模型，它还难以使ChatGPT变得更加有用，例如通过浏览网页获取信息或上传文件和图像。对于很多常见案例，GPT-4o短期内能力还是更好。"OpenAI表示。不过该系列新模型增强的推理功能可能对解决科学、编码、数学和类似领域的复杂问题更有效，例如，医疗保健研究人员可用它来注释细胞测序数据，物理学家用它生成量子光学所需的复杂数学公式，开发人员可用它构建和执行多步骤工作流程。量子物理学者Mario Krenn就展示了GPT-4o不能回答但o1-preview正确完成计算的复杂量子物理问题。

OpenAI研究人员Noam Brown在社交平台上提到OpenAI o1系列的更多细节，他表示，o1系列经过强化学习训练，在通过自己的思维链做出反应前会思考，思考时间越长，推理任务表现越好。"这为大模型缩放（scaling）开辟了新维度，我们不再受预训练的瓶颈限制，现在也可以扩展推理计算了。" Noam Brown表示，但o1模型并不总是比GPT-4o好，有时人们不值得长时间等待o1响应，在个人写作和编辑文本时人们可能会偏好GPT-4o，在计算机编程、数据分析和数学计算领域则可能会偏好OpenAI o1。

Noam Brown透露，OpenAI o1在回答前会思考几秒，但OpenAI的目标是让未来的版本思考几个小时、几天甚至几周，虽然推理成本会更高，但人们有可能也会获得更多，例如在研发新抗癌药等方面，人工智能可以不仅仅是聊天机器人。

不过，不是所有用户都能立马用上新系列模型。据OpenAI介绍，ChatGPT Plus用户和Team用户最早可以在几个小时内体验到新模型。o1-preview限制为每周30条消息，o1-mini限制为每周50条消息。而从下周开始，ChatGPT的企业用户和教育（Edu）用户也可以访问这两种模型。该系列模型的API访问权限首先给Tier 5级用户。此外，OpenAI还计划将向所有ChatGPT免费用户提供o1-mini访问权限。后续，OpenAI还计划增加浏览、文件和图片上传等功能，且在OpenAI o1系列之外继续开发和发布GPT系列中的其他模型。

在安全方面，OpenAI则透露，新模型的思维链推理为确保对齐和安全提供了新的机会，隐藏的思维链为监控模型提供了独特的机会，使人能"读取模型思想"并理解其思维过程。此外，公司最近与美国和英国的人工智能安全研究所达成协议，开始将相关协议付诸实施，包括允许各机构尽早使用该模型的研究版本，这有助于建立一个在公开发布之前和之后对未来模型进行研究、评估和测试的流程。

举报第一财经广告合作，请点击这里此内容为第一财经原创，著作权归第一财经所有。未经第一财经书面授权，不得以任何方式加以使用，包括转载、摘编、复制或建立镜像。第一财经保留追究侵权者法律责任的权利。如需获得授权请联系第一财经版权部：021-22002972或021-22002335；banquan@yicai.com。文章作者

郑栩彤

相关阅读大模型，何时迎来大转折？

“真正的变革是，什么时间点有一个模型可以把错误率降低到个位数。”

09-04 15:46 MiniMax加入视频生成混战，大模型的尽头是做视频？

大模型有很多非共识，但视频生成或许是今年各大模型厂商的共识。

09-01 19:00 AI周报 |英伟达、苹果与微软或联手投资 OpenAI；米哈游创始人建议普通游戏开发者转行

OpenAI或最快今秋推出推理AI产品“草莓”；谷歌研究人员发布游戏生成引擎GameNGen。

09-01 11:02 OpenAI称已更改员工离职流程，公司保护员工披露消息的权利

OpenA还称，公司I正在制定分级级别，以帮助该公司和利益相关者对AI进展实施分类和跟踪。

07-23 21:35 AI周报| 大模型测不出9.11和9.9哪个大；OpenAI发布轻量化模型GPT-4o mini

《人工智能法案》将于8月1日在整个欧盟范围内生效；七大模型参加“高考”后分数出炉：理科只能上二本正好配资网。

07-21 10:49 一财最热点击关闭

上一篇：炒股杠杆股票配资平台鲍威尔重磅演讲今晚来袭！高盛：市场期待着这些惊喜

下一篇：线上炒股配资平台港铁公司签署有关洪水桥站的洪水桥项目协议