-
首个 OpenAI 免费推理模型 o3-mini 发布!DeepSeek 让奥特曼反思:不开源我们错了
文章详细介绍了 OpenAI 发布的最新推理模型 o3-mini 系列,这是 OpenAI 首次向用户免费推出的推理模型,包括 low、medium 和 high 三个版本。o3-mini 在响应速度、数学、科学和编码能力等方面表现出色,尤其在高推理强度下超越了前代产品 o1-mini,同时降低了重大错误率。在与 DeepSeek 的竞争中,o3-mini 性能更强,但性价比仍逊一筹。文章还引用了…- 0
- 0
-
从 o1-mini 到 DeepSeek-R1,万字长文带你读懂推理模型的历史与技术
文章详细梳理了推理模型从 OpenAI 的 o1-mini 到 DeepSeek-R1 的发展历程,并深入探讨了其背后的技术原理。首先介绍了推理模型与标准 LLM 的区别,强调了长思维链在推理过程中的重要作用。接着,文章深入分析了如何通过强化学习训练推理模型,特别是利用可验证奖励进行训练的方法。此外,还探讨了推理时间策略,如思维链和解码技术,以及并行解码和自我优化等方法。文章重点介绍了 DeepS…- 0
- 0
-
谷歌终于登顶一次了!最强推理模型 Gemini 2.5 Pro 实测体验,真的有点东西
文章对谷歌最新发布的 Gemini 2.5 Pro 模型进行了全面评测。该模型在多项基准测试,如 Humanity's Last Exam 等中表现出色,尤其在推理能力方面超越了 OpenAI 的 o3-mini。编程能力也得到显著提升,在 SWE-bench 和 Aider Polyglot 测试中均名列前茅。此外,Gemini 2.5 Pro 在 Chatbot Arena 榜单上以…- 0
- 0
-
200B 参数击败满血 DeepSeek-R1,字节豆包推理模型 Seed-Thinking-v1.5 要来了
字节跳动豆包团队发布了新的推理模型 Seed-Thinking-v1.5,该模型拥有 200B 总参数,采用 MoE 架构,每次激活 20B 参数。在 AIME 2024、Codeforces 和 GPQA 等基准测试中,Seed-Thinking-v1.5 均表现出色,甚至超越了 671B 参数的 DeepSeek-R1。该模型在数据构建、强化学习框架和基础设施方面进行了优化,包括构建 Beyo…- 0
- 0
-
Sebastian Raschka:关于 DeepSeek R1 和推理模型,我有几点看法
本文由著名 AI 研究者 Sebastian Raschka 撰写,全面解析了构建和改进推理模型的四种主要方法,包括推理时间扩展、纯强化学习 (RL)、监督微调加强化学习 (SFT + RL) 以及纯监督微调 (SFT) 和蒸馏。文章以 DeepSeek R1 为例,详细分析了其训练流程、开源特性和效率优势,并对比了不同方法的优劣。此外,文章还讨论了在有限预算下开发推理模型的可能性,介绍了 Sky…- 0
- 0
-
在 GPT-5.1 中塑造模型行为 —— OpenAI 播客 Ep. 11
本期 OpenAI 播客节目邀请了 Christina Kim(后训练研究主管)和 Laurentia Romaniuk(模型行为产品经理),讨论 GPT-5.1 的开发和目标。一个关键亮点是转变为使推理模型成为 ChatGPT 中所有用户的默认设置,使模型能够在响应之前进行“思考”(类似于丹尼尔·卡尼曼的系统 1 和系统 2 思维)。对话深入探讨了定义和塑造“模型个性”的挑战,强调它涵盖了整个用…- 0
- 0
-
刚刚,OpenAI 正式发布 o3-pro!奥特曼激动更新博客:温和的奇点 | 机器之心
文章报道了 OpenAI 最新推理模型 o3-pro 的发布。该模型已对 Pro、Team 用户开放,并公布了基准测试结果,显示其在科学、教育、编程等领域相较于 o3 有显著性能提升和更高的可靠性,尤其擅长数理和编程。文章详细列出了 o3-pro 的 API 定价(较高)以及 o3 模型同步下调的价格(较低),并提及模型支持文本图像输入、200k 上下文窗口等技术细节。此外,文章引用了部分用户对 …- 0
- 0
-
迈向推理时代:900+篇参考文献揭示长链思维的前世今生,最全综述来了
本文深入探讨了长链思维(Long CoT)在推理大模型(LLMs)中的作用。首先,文章对比了长链思维与短链思维的本质区别,提出了新的推理范式分类框架,强调长链思维在深度推理、广泛探索和可行性反思上的优势。其次,文章详细分析了长链思维的六大核心推理现象,如推理边界、过度思考和顿悟时刻等,并探讨了其对模型推理效率和答案质量的影响。接着,文章全面整理了当前主流的长链思维优化策略,包括强化学习、检索增强生…- 0
- 0
-
成本不到 150 元!李飞飞等 26 分钟训出个推理模型,媲美 o1 和 R1,秘诀:用蒸馏
李飞飞团队联合斯坦福大学、华盛顿大学等机构,通过蒸馏技术,以极低的成本(约 150 元)训练出一个名为 s1 的推理模型,该模型在数学和编程能力上表现媲美 DeepSeek-R1 和 OpenAI o1。团队使用阿里通义的 Qwen2.5-32B-Instruct 作为基础模型,通过蒸馏谷歌 DeepMind 的 Gemini 2.0 Flash Thinking 实验版得到 s1。为训练 s1,…- 0
- 0
-
DeepSeek R1 之后,重新理解推理模型
文章对 DeepSeek R1 推理模型进行了全面解读,明确了推理模型的定义,即擅长解决需要复杂、多步骤生成的问题。分析了推理模型的优缺点,强调其在复杂任务上的优势,以及在简单任务上的低效。详细介绍了 DeepSeek R1 的三个变体:R1-Zero (纯 RL 训练)、R1 (SFT+RL 训练) 和 R1-Distill (蒸馏模型),并对比了它们的技术特点和性能差异,强调了 R1 在纯 R…- 0
- 0
-
让 OpenAI 只领先 5 天,百川发布推理新模型,掀翻医疗垂域开源天花板
文章详细介绍了百川智能最新发布的开源医疗推理大模型 Baichuan-M2-32B。该模型在 OpenAI 的 HealthBench 及 HealthBench Hard 评测集上,表现超越了包括 OpenAI 刚刚发布的 gpt-oss-120b 在内的多数顶尖开源与闭源模型,尤其在中国临床诊疗场景中展现出显著的本土化优势。文章强调了 Baichuan-M2 的低部署门槛,支持 RTX4090…- 0
- 0
-
阿里千问 3 推理模型重磅更新,比肩 Gemini-2.5 pro、o4-mini
文章详细介绍了阿里巴巴近期在开源大模型领域的重大进展。最新推出的千问 3 推理模型,其通用能力和深度思考能力实现巨大飞跃,支持 256K 上下文长度,并在知识、逻辑推理、编程、数学、人类偏好对齐等多项核心能力上,达到甚至超越 Gemini-2.5 pro、o4-mini 等顶尖闭源模型,被誉为全球最强开源推理模型。此外,阿里还开源了 Qwen3-235B-A22B-Instruct-2507 基础…- 0
- 0
-
OpenAI 发布最强推理模型 o3 和 o4-mini:图像深度思考首秀,还能自主调用工具
OpenAI 发布了两款新的推理模型 o3 和 o4-mini。o3 是目前最强大的推理模型,擅长编程、数学、科学和视觉理解等领域,在 Codeforces、SWE-bench 和 MMMU 等多项基准测试中创下新纪录,尤其擅长生物学、数学和工程领域。o4-mini 则更小巧高效,专为快速、低成本的应用场景优化,在非 STEM 任务上的表现超越了 o3-mini。这两款模型都具有自主工具调用能力,…- 0
- 0
-
刚刚,OpenAI 发布最强推理模型 o3!图像深度思考首秀,开源编程智能体已揽 5k+star
OpenAI 发布了最新的 o 系列模型 o3 和 o4-mini,这些模型在推理能力上有了显著提升,能够在响应之前进行更长时间的思考。o3 被认为是 OpenAI 迄今为止最智能的模型,尤其擅长多模态理解,能够像智能体一样使用和组合 ChatGPT 中的各种工具,包括互联网搜索、Python 分析、视觉输入推理和图像生成。o3 在 Codeforces、SWE-bench 等基准测试中取得了 S…- 0
- 0
-
通义千问推理模型 QwQ-32B,开源!
文章宣布通义千问开源了 QwQ-32B 推理模型。该模型在多个基准测试中表现出色,尤其在数学和编程能力上与 DeepSeek-R1 相当,在指令遵循和工具调用方面甚至超越了 DeepSeek-R1。文章介绍了该模型通过两轮大规模强化学习,分别针对数学和编程任务以及通用能力进行优化的过程。此外,QwQ-32B 还集成了与智能体 Agent 相关的能力,使其能够在使用工具的同时进行批判性思考。目前,该…- 0
- 0
推理模型
❯
个人中心
购物车
优惠劵
今日签到
有新私信
私信列表
搜索
扫码打开当前页
返回顶部
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
-
✈优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!











