当你给 o1 或 o3-mini 一个复杂的提示时,它不会立即尝试生成响应,而是将你要求它做的事情分解为多个更简单的步骤。然后,它会逐步完成这个思路链,然后创建输出。它在这个过程中投入的时间和精力取决于你使用的模型以及你指示它使用的推理努力。
在OpenAI 博客上 o1 的介绍文章中,您可以看到一些示例,说明 o1-preview 模型如何使用 CoT 推理来分析复杂问题,例如解码密文、解决填字游戏以及正确回答数学、化学和英语问题。它们值得一看——它们会让您更好地了解这些模型的工作原理。(或者,如果您是 ChatGPT Plus 订阅者,请试用一下。)
GPT-4o 与 OpenAI o1-preview 的比较,每个都给出了一个要解码的密码
不幸的是,OpenAI决定不向用户展示这些思路。相反,你会得到一个由人工智能生成的要点摘要。它对于理解模型如何解决不同的问题仍然有用,但它不会给你提供它试图做什么的那么多细节。
虽然我总是乐于争辩说,使用“思考”这样的拟人化词来描述人工智能正在做的事情有些牵强,但它确实抓住了这样一个事实:新模型需要时间来处理你的提示,然后才能直接回复你。研究表明,CoT可以可靠地提高人工智能模型的准确性,因此,使用它的推理模型在复杂挑战中的表现明显优于 GPT-4o 等典型模型也就不足为奇了。
GPT-4o 在不提供思路的情况下解码密码
OpenAI o1-preview 解码密码并展示其思路链推理
通过使用强化学习(模型因正确完成任务而获得奖励),OpenAI 训练这些模型尝试多种方法,识别和纠正错误,并花时间解决复杂问题以找到好的答案。
OpenAI 发现,推理模型的性能会随着训练时间和在给出答案 卡塔尔电报数据库 之前允许推理的时间而提高。这意味着它们可以使用的计算资源越多,它们的性能就越好。这就是为什么 o1 pro 模式比 o1 更好,以及为什么 o3-mini 有三个不同版本。这也解释了为什么这些模型的运行成本要高得多。
探索更多将 AI 添加到工作流程中的方法。
立即探索
除了推理能力之外,OpenAI o1 和 o3 的功能似乎与其他现代 LLM 非常相似。OpenAI 尚未发布有关其架构、参数数量或其他变化的任何有意义的细节,但这正是我们现在对主要 AI 公司的期望。尽管名字如此,但 OpenAI 实际上并没有生产开放式 AI 模型。
GPT-4o 与 OpenAI o1 和 o3-mini
在需要逻辑推理的任务上,OpenAI o1 和 OpenAI o3-mini 明显优于 GPT-4o(以及几乎所有其他 AI 模型)。在需要一些逻辑的典型 AI 基准测试中,GPT-4o 表现非常出色,例如 MMLU,但 OpenAI o1 的得分仍然更高。