-
DeepSeek V3.2 正式版:强化 Agent 能力,融入思考推理
DeepSeek 正式发布了两款具有里程碑意义的大语言模型:DeepSeek-V3.2 和 DeepSeek-V3.2-Speciale。DeepSeek-V3.2 旨在平衡卓越推理能力与高效输出长度,特别适用于日常问答和通用 Agent 任务,在公开推理 Benchmark 中已达到 GPT-5 水平,且相比同类模型显著降低了计算开销和用户等待时间。DeepSeek-V3.2-Speciale …- 0
- 0
-
OpenAI 还怎么玩?谷歌凌晨炸场!Pro 级智商跌成“白菜价”,网友惊呼:六边形战士
文章详细介绍了谷歌最新发布的 Gemini 3 Flash 大模型,强调其在推理能力上匹敌旗舰模型 Gemini 3 Pro,同时拥有更快的响应速度和显著降低的成本。通过在 GPQA 博士级推理、多模态理解和编码智能体等多项基准测试中取得“屠榜”表现,Flash 版模型展现了“小而强”的进化。文章还深入探讨了其核心技术原理,如“思考层级”参数和上下文缓存,以实现性能与成本的平衡。它在复杂视频分析、…- 0
- 0
-
万字长文|大语言模型结构化输出(Structured Output)的技术原理和实现
文章全面而深入地探讨了大语言模型(LLM)结构化输出的技术演进、核心方法与未来趋势。首先阐明了结构化输出对于解决 LLM 自由文本的非确定性、幻觉及机器解析难题的根本价值,并将其定位为模型工程与传统软件工程的关键交互接口。随后,文章沿着技术从“软”到“硬”的演进路线,详细介绍了模式引导生成(Prompt 工程)、验证与修复框架(如 Guardrails)、约束解码(包括黑盒 LLM 的 Sketc…- 0
- 0
-
比女皇报告还炸裂!67 页 AI 深度调研刷屏,全球 LLM 大决战真正开始
硅谷财富管理巨头 Iconiq Capital(管理着包括扎克伯格在内的顶级客户 800 亿美元资产)发布了一份长达 67 页的《2025 年 AI 现状报告》。报告基于对 300 家 AI 公司高管的访谈和数据分析,聚焦 AI 落地的七大真问题:企业 AI 选型(OpenAI 领先)、AI 支出(数据存储处理成最大支出项)、开发工具地图、产品阶段支出、智能体(90%高增长公司部署)、定价模式(重…- 0
- 0
-
Gemini 2.5:我们的思维模型系列更新
本文详细介绍了 Google Gemini 2.5 模型系列的最新更新。文章宣布 Gemini 2.5 Pro 和 Gemini 2.5 Flash 已全面可用且稳定,并指出与最近的预览版相比没有变化。新模型 Gemini 2.5 Flash-Lite 以预览版形式推出,提供最低延迟和成本,专为分类和摘要等高吞吐量任务设计。文章解释了将 Gemini 2.5 模型视为具有可调思维预算的“思维模型”…- 0
- 0
-
和杨植麟时隔一年的独家对话:“站在无限的开端”
文章是张小珺对月之暗面创始人杨植麟的独家访谈。杨植麟分享了在 Kimi K2 模型发布后,对大模型领域“无限攀登”的哲学思考,引用《无穷的开始》强调问题解决与知识拓展的循环。他指出过去一年大模型最重要的范式级变化是长思考推理模型和基于多轮交互的 Agent 模型。K2 模型的关键技术创新在于通过 Muon 优化器提升 token efficiency,并在 Agentic 能力上寻求突破,以解决泛…- 0
- 0
-
GLM-4.7 上线并开源:更强的编码
文章详细介绍了智谱 AI 新发布的 GLM-4.7 大模型,该模型在编程能力、长程任务规划与工具协同方面取得了显著提升。特别是,GLM-4.7 在多语言编码、前端代码生成质量以及工具调用能力上表现出色,并在 SWE-bench-Verified、LiveCodeBench V6 等主流基准测试中达到开源 SOTA,甚至超越了 GPT-5.2 和 Claude Sonnet 4.5。文章还介绍了 G…- 0
- 0
-
辛顿 WAIC 演讲全文:大模型能“永生”,需确保它不会“消灭”人类
文章详细记录了图灵奖得主杰弗里·辛顿在 WAIC 大会上的演讲内容。他首先从历史角度回顾了 AI 的发展路径,并指出今天的大语言模型在本质上与人类理解语言的方式相同,都通过将词映射为高维特征并进行灵活组合来完成语义建模。辛顿强调,计算机科学的“软件-硬件分离”原则赋予了数字智能“知识永生”的潜力,使其能以远超人类口耳相传数十亿倍的速度进行高效复制和传播,极大地加速了知识的扩散。然而,这种“数字永生…- 0
- 0
-
大模型的 2025:6 个关键洞察,来自 OpenAI 创始人、AI 大神“AK”
文章详细解读了 Andrej Karpathy 对 2025 年大语言模型发展的六个核心洞察。它指出,RLVR (可验证奖励强化学习) 已成为提升模型能力的新引擎,推动 AI 训练哲学从“概率模仿”转向“逻辑推理”。同时,卡帕西提出了“召唤幽灵”与“进化动物”之辩,解释了 AI 智能表现出的锯齿状特性。文章还探讨了 Cursor 这类大语言模型应用如何为垂直领域整合 AI 能力,以及本地化智能体的…- 0
- 0
-
Kimi 大模型训推混部的稳定性与资源优化实战
文章深入剖析了月之暗面在 Kimi 大模型训推混部集群中的工程实践。面对大规模资源下的高故障率、低资源利用率和潮汐效应等挑战,月之暗面构建了全链路监控系统(如 Varys 情报总管),实现了连续异步 Checkpoint 机制以提升稳定性。为提高资源效率,文章介绍了动态云开发资源申请、任意级目录用量统计、异步模型评估和跨机房模型分发等方案,并详细阐述了训推多级潮汐系统。此外,文章还针对强化学习中训…- 0
- 0
-
快手 AutoThink 大模型 KAT-V1 正式开源,40B 性能逼近 R1-0528,200B 性能飞跃
快手正式开源了 KAT-V1 自动思考大模型,包含 40B 和仍在训练中的 200B 两个版本。该模型的核心创新在于其“自动思考”(AutoThink)模式,能根据问题复杂度自主决定是否进行深度推理,有效解决了现有大模型普遍存在的“过度思考”问题,从而提升了响应速度并降低了计算成本。文章详细介绍了 KAT-V1 背后的多项技术创新,包括长短思考混合训练范式、基于 GRPO 优化的 Step-SRP…- 0
- 0
-
关于 2025 WAIC 的一些思考
文章作者基于对 2025 年上海世界人工智能大会(WAIC)的线上直播见闻和线下活动感受,分享了对 AI 行业的思考。线上部分,作者提及 AI 在生物、医疗、机器人、密码学等领域的应用进展,并讨论了 AI 智能“演化”与“涌现”的概念。作者指出 AI 的本质是“电力转智力”,并强调数学、推理和编程是 AI 时代的关键能力。线下部分,文章简要介绍了大模型可解释性、动态超声等前沿研究,并引用了对当前大…- 0
- 0
-
“刷分”秘诀把旧游戏玩坏了,大模型被推入现实试炼场
文章指出当前 AI 领域存在大模型在 HumanEval、MMLU 等基准测试中表现优异,但在实际应用中却频繁“死机”的矛盾现象,微软 CEO 纳德拉称之为“Benchmark hacking”。这一现实与测评的脱节,促使行业重新审视 AI 的进步标准。文章引用 OpenAI 研究员姚顺雨《AI 下半场》的核心观点,认为 AI 的焦点正从“解决问题”迁移到“定义问题”,评估本身比训练更稀缺、更重要…- 0
- 0
-
硬核拆解!从 GPT-2 到 gpt-oss,揭秘大模型进化关键密码
文章深度解析了 OpenAI 最新开源的 gpt-oss(120B/20B)大语言模型,并追溯了其从 GPT-2 以来的架构演进。作者 Sebastian Raschka 博士详细阐述了多项关键技术变革,包括移除 Dropout、采用 RoPE 位置编码、Swish/SwiGLU 激活函数及 GLU 结构、引入 MoE 稀疏专家模型、使用 GQA 分组查询注意力、以及 RMSNorm 替代 Lay…- 0
- 0
-
美团正式发布并开源 LongCat-Flash-Chat,动态计算开启高效 AI 时代
文章介绍了美团最新发布并开源的 LongCat-Flash-Chat 大模型。该模型采用创新的混合专家(MoE)架构,总参数 560B,每个 Token 动态激活少量参数(平均 27B),实现了计算效率与性能的双重优化。文章详细阐述了其“零计算专家”机制、跨层通道并行计算、训练稳定性策略等技术亮点。性能评估显示,LongCat-Flash-Chat 在通用知识(如 MMLU、CEval)、智能体任…- 0
- 0
-
DeepSeek-V3.2|技术报告解读
本文对《DeepSeek-V3.2: Pushing the Frontier of Open Large Language Models》技术报告进行了详尽解读。文章指出,DeepSeek-V3.2 在推理能力上已追平 GPT-5-High,其高算力版本 Speciale 在数学和编程领域接近 Gemini-3.0-Pro。实现这些突破的关键在于三项核心技术:首先,**DeepSeek 稀疏注意…- 0
- 0
-
127: 与真格戴雨森 25 AI 中场复盘:OpenAI 的 IMO 金牌、Kimi K2 翻盘、Agent 普及和抢人大战
本期《晚点聊》深入探讨了 2025 年 AI 领域的复盘与展望。嘉宾戴雨森与主播程曼祺首先讨论了 OpenAI 新模型在国际数学奥林匹克竞赛中达到金牌水平的重大意义,指出这是通用大语言模型在复杂数学推理和新知识发现上的“登月时刻”,其泛化意义超越了围棋和编程领域的“李世石时刻”。接着,节目分析了 AI 应用普及的趋势,特别是 AI Agent 形态的初步共识与广泛应用,以及多模态内容生成技术的成熟…- 0
- 0
-
迎战软件 3.0 时代:新范式、新挑战、新工程
文章详细阐述了软件范式从流程驱动的 Software 1.0、数据驱动的 Software 2.0,演进至当前以大语言模型为核心、意图驱动的 Software 3.0。作者强调这三种形态的软件将长期并存并融合,如何在组织内协同管理是未来挑战。文章深入分析了 Software 3.0 时代面临的三大核心挑战:一是大模型正在成为新一代的“认知操作系统”,重塑开发者的角色和基础设施;二是知识的工程化应用…- 0
- 0
-
王兴一鸣惊人!美团首个开源大模型追平 DeepSeek-V3.1
文章详细介绍了美团首个开源大模型 Longcat-Flash-Chat 的发布及其卓越性能。该模型是一个 560B 的 MoE 模型,在 Agent 工具调用、指令遵循和编程能力等多个基准测试中表现出色,部分超越了 DeepSeek-V3.1 和 Qwen3 MoE-2507,甚至与闭源的 Claude4 Sonnet 不相上下。相较于 DeepSeek-V3.1(671B/A37B)和 Kimi…- 0
- 0
-
YC AI 创业营第一天,Andrej Karpathy 的演讲刷屏了
本文汇总了 YC AI 创业营第一天多位重量级嘉宾的演讲精华,重点编译了 Andrej Karpathy 关于“软件 3.0:提示词即软件”的观点,分析了当下 AI(特别是大模型)类似计算机早期、公用事业、晶圆厂和操作系统的多重属性,探讨了大模型在“锯齿状智能”和“顺行性遗忘症”等心理学特性上的局限性及潜在解决方案(如系统提示学习和记忆功能),并强调了 AI 产品设计中“自主性调节滑块”的重要性及…- 0
- 0
-
20 万张 GPU!马斯克掏出「地表最强」大模型 Grok-3,排行榜登顶,复仇 OpenAI
文章报道了马斯克旗下 xAI 公司最新发布的旗舰大模型 Grok-3。Grok-3 系列包含轻量版 Grok 3 mini,强调快速响应。Grok-3 在 Math、Science 和 Coding 等多项基准测试中,大幅超越 Gemini-2 Pro、DeepSeek-V3、Claude 3.5 Sonnet 和 GPT-4o 等模型,并在大模型竞技场 Chatbot Arena 中登顶。Gro…- 0
- 0
大模型
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
-
✈优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!






