全部标签

推理模型

首个 OpenAI 免费推理模型 o3-mini 发布！DeepSeek 让奥特曼反思：不开源我们错了

文章详细介绍了 OpenAI 发布的最新推理模型 o3-mini 系列，这是 OpenAI 首次向用户免费推出的推理模型，包括 low、medium 和 high 三个版本。o3-mini 在响应速度、数学、科学和编码能力等方面表现出色，尤其在高推理强度下超越了前代产品 o1-mini，同时降低了重大错误率。在与 DeepSeek 的竞争中，o3-mini 性能更强，但性价比仍逊一筹。文章还引用了…
AI 前线
- 0
- 0
勇敢牛牛1月3日
从 o1-mini 到 DeepSeek-R1，万字长文带你读懂推理模型的历史与技术

文章详细梳理了推理模型从 OpenAI 的 o1-mini 到 DeepSeek-R1 的发展历程，并深入探讨了其背后的技术原理。首先介绍了推理模型与标准 LLM 的区别，强调了长思维链在推理过程中的重要作用。接着，文章深入分析了如何通过强化学习训练推理模型，特别是利用可验证奖励进行训练的方法。此外，还探讨了推理时间策略，如思维链和解码技术，以及并行解码和自我优化等方法。文章重点介绍了 DeepS…
AI 前线
- 0
- 0
勇敢牛牛25年12月31日
谷歌终于登顶一次了！最强推理模型 Gemini 2.5 Pro 实测体验，真的有点东西

文章对谷歌最新发布的 Gemini 2.5 Pro 模型进行了全面评测。该模型在多项基准测试，如 Humanity's Last Exam 等中表现出色，尤其在推理能力方面超越了 OpenAI 的 o3-mini。编程能力也得到显著提升，在 SWE-bench 和 Aider Polyglot 测试中均名列前茅。此外，Gemini 2.5 Pro 在 Chatbot Arena 榜单上以…
AI 前线
- 0
- 0
勇敢牛牛25年12月24日
200B 参数击败满血 DeepSeek-R1，字节豆包推理模型 Seed-Thinking-v1.5 要来了

字节跳动豆包团队发布了新的推理模型 Seed-Thinking-v1.5，该模型拥有 200B 总参数，采用 MoE 架构，每次激活 20B 参数。在 AIME 2024、Codeforces 和 GPQA 等基准测试中，Seed-Thinking-v1.5 均表现出色，甚至超越了 671B 参数的 DeepSeek-R1。该模型在数据构建、强化学习框架和基础设施方面进行了优化，包括构建 Beyo…
AI 前线
- 0
- 0
勇敢牛牛25年12月24日
Sebastian Raschka：关于 DeepSeek R1 和推理模型，我有几点看法

本文由著名 AI 研究者 Sebastian Raschka 撰写，全面解析了构建和改进推理模型的四种主要方法，包括推理时间扩展、纯强化学习 (RL)、监督微调加强化学习 (SFT + RL) 以及纯监督微调 (SFT) 和蒸馏。文章以 DeepSeek R1 为例，详细分析了其训练流程、开源特性和效率优势，并对比了不同方法的优劣。此外，文章还讨论了在有限预算下开发推理模型的可能性，介绍了 Sky…
AI 前线
- 0
- 0
勇敢牛牛25年12月24日
在 GPT-5.1 中塑造模型行为 —— OpenAI 播客 Ep. 11

本期 OpenAI 播客节目邀请了 Christina Kim（后训练研究主管）和 Laurentia Romaniuk（模型行为产品经理），讨论 GPT-5.1 的开发和目标。一个关键亮点是转变为使推理模型成为 ChatGPT 中所有用户的默认设置，使模型能够在响应之前进行“思考”（类似于丹尼尔·卡尼曼的系统 1 和系统 2 思维）。对话深入探讨了定义和塑造“模型个性”的挑战，强调它涵盖了整个用…
AI 前线
- 0
- 0
勇敢牛牛25年12月24日
刚刚，OpenAI 正式发布 o3-pro！奥特曼激动更新博客：温和的奇点｜机器之心

文章报道了 OpenAI 最新推理模型 o3-pro 的发布。该模型已对 Pro、Team 用户开放，并公布了基准测试结果，显示其在科学、教育、编程等领域相较于 o3 有显著性能提升和更高的可靠性，尤其擅长数理和编程。文章详细列出了 o3-pro 的 API 定价（较高）以及 o3 模型同步下调的价格（较低），并提及模型支持文本图像输入、200k 上下文窗口等技术细节。此外，文章引用了部分用户对 …
AI 前线
- 0
- 0
勇敢牛牛25年12月24日
迈向推理时代：900+篇参考文献揭示长链思维的前世今生，最全综述来了

本文深入探讨了长链思维（Long CoT）在推理大模型（LLMs）中的作用。首先，文章对比了长链思维与短链思维的本质区别，提出了新的推理范式分类框架，强调长链思维在深度推理、广泛探索和可行性反思上的优势。其次，文章详细分析了长链思维的六大核心推理现象，如推理边界、过度思考和顿悟时刻等，并探讨了其对模型推理效率和答案质量的影响。接着，文章全面整理了当前主流的长链思维优化策略，包括强化学习、检索增强生…
AI 前线
- 0
- 0
勇敢牛牛25年12月24日
成本不到 150 元！李飞飞等 26 分钟训出个推理模型，媲美 o1 和 R1，秘诀：用蒸馏

李飞飞团队联合斯坦福大学、华盛顿大学等机构，通过蒸馏技术，以极低的成本(约 150 元)训练出一个名为 s1 的推理模型，该模型在数学和编程能力上表现媲美 DeepSeek-R1 和 OpenAI o1。团队使用阿里通义的 Qwen2.5-32B-Instruct 作为基础模型，通过蒸馏谷歌 DeepMind 的 Gemini 2.0 Flash Thinking 实验版得到 s1。为训练 s1，…
AI 前线
- 0
- 0
勇敢牛牛25年12月24日
DeepSeek R1 之后，重新理解推理模型

文章对 DeepSeek R1 推理模型进行了全面解读，明确了推理模型的定义，即擅长解决需要复杂、多步骤生成的问题。分析了推理模型的优缺点，强调其在复杂任务上的优势，以及在简单任务上的低效。详细介绍了 DeepSeek R1 的三个变体:R1-Zero (纯 RL 训练)、R1 (SFT+RL 训练) 和 R1-Distill (蒸馏模型)，并对比了它们的技术特点和性能差异，强调了 R1 在纯 R…
AI 前线
- 0
- 0
勇敢牛牛25年12月23日
让 OpenAI 只领先 5 天，百川发布推理新模型，掀翻医疗垂域开源天花板

文章详细介绍了百川智能最新发布的开源医疗推理大模型 Baichuan-M2-32B。该模型在 OpenAI 的 HealthBench 及 HealthBench Hard 评测集上，表现超越了包括 OpenAI 刚刚发布的 gpt-oss-120b 在内的多数顶尖开源与闭源模型，尤其在中国临床诊疗场景中展现出显著的本土化优势。文章强调了 Baichuan-M2 的低部署门槛，支持 RTX4090…
AI 前线
- 0
- 0
勇敢牛牛25年12月23日
阿里千问 3 推理模型重磅更新，比肩 Gemini-2.5 pro、o4-mini

文章详细介绍了阿里巴巴近期在开源大模型领域的重大进展。最新推出的千问 3 推理模型，其通用能力和深度思考能力实现巨大飞跃，支持 256K 上下文长度，并在知识、逻辑推理、编程、数学、人类偏好对齐等多项核心能力上，达到甚至超越 Gemini-2.5 pro、o4-mini 等顶尖闭源模型，被誉为全球最强开源推理模型。此外，阿里还开源了 Qwen3-235B-A22B-Instruct-2507 基础…
AI 前线
- 0
- 0
勇敢牛牛25年12月23日
OpenAI 发布最强推理模型 o3 和 o4-mini：图像深度思考首秀，还能自主调用工具

OpenAI 发布了两款新的推理模型 o3 和 o4-mini。o3 是目前最强大的推理模型，擅长编程、数学、科学和视觉理解等领域，在 Codeforces、SWE-bench 和 MMMU 等多项基准测试中创下新纪录，尤其擅长生物学、数学和工程领域。o4-mini 则更小巧高效，专为快速、低成本的应用场景优化，在非 STEM 任务上的表现超越了 o3-mini。这两款模型都具有自主工具调用能力，…
AI 前线
- 0
- 0
勇敢牛牛25年12月23日
刚刚，OpenAI 发布最强推理模型 o3！图像深度思考首秀，开源编程智能体已揽 5k+star

OpenAI 发布了最新的 o 系列模型 o3 和 o4-mini，这些模型在推理能力上有了显著提升，能够在响应之前进行更长时间的思考。o3 被认为是 OpenAI 迄今为止最智能的模型，尤其擅长多模态理解，能够像智能体一样使用和组合 ChatGPT 中的各种工具，包括互联网搜索、Python 分析、视觉输入推理和图像生成。o3 在 Codeforces、SWE-bench 等基准测试中取得了 S…
AI 前线
- 0
- 0
勇敢牛牛25年12月23日
通义千问推理模型 QwQ-32B，开源！

文章宣布通义千问开源了 QwQ-32B 推理模型。该模型在多个基准测试中表现出色，尤其在数学和编程能力上与 DeepSeek-R1 相当，在指令遵循和工具调用方面甚至超越了 DeepSeek-R1。文章介绍了该模型通过两轮大规模强化学习，分别针对数学和编程任务以及通用能力进行优化的过程。此外，QwQ-32B 还集成了与智能体 Agent 相关的能力，使其能够在使用工具的同时进行批判性思考。目前，该…
AI 前线
- 0
- 0
拼凑梦境25年12月22日