全部标签

MOE架构

姚顺雨主导腾讯混元架构重构：大模型与多模态矩阵全面统一

姚顺雨出任腾讯首席AI科学家一年内，主导混元完成组织与技术整合，终结双轨研发，建成覆盖语言、图像、视频、语音、3D的全模态模型矩阵；旗舰模型Hy3性能跃升，Hy World 2.0与图像3.0领跑行业；前OpenAI专家田永龙加盟强化多模态研发。
AI 前线
- 0
- 0
探索X7月25日
阿里云首发万亿级MoE模型推理超节点：真武M890+Qwen3.8在百炼平台商用落地

阿里云基于平头哥真武M890芯片打造超节点，首发支持2.4万亿参数Qwen3.8模型推理，依托9TB显存与800GB/s互联实现国内首个万亿级MoE模型商用落地，百炼平台已开放服务，推理性能提升达1.5倍。
AI 前线
- 0
- 0
探索X7月23日
Meta 深夜开源 Llama 4！首次采用 MoE，惊人千万 token 上下文，竞技场超越 DeepSeek

Meta 发布了最新的 Llama 4 系列 AI 模型，包括 Llama 4 Scout、Llama 4 Maverick 和 Llama 4 Behemoth。这些模型采用混合专家 (MoE) 架构，显著提升训练和推理效率，具备多模态能力，支持多种语言，并在多个基准测试中表现出色。Llama 4 Scout 拥有 170 亿激活参数和 10M token 超长上下文窗口，为业界领先，解锁了围绕…
AI 前线
- 0
- 0
勇敢牛牛25年12月24日
全文版 | 豆包大模型 1.5 Pro 正式发布

豆包大模型团队正式发布了 Doubao-1.5-pro，这是一款基于 MoE（Mixture of Experts）架构的全新基础模型。该模型通过训练-推理一体化设计，显著提升了性能和推理效率，特别是在多模态能力上取得了突破性进展。Doubao-1.5-pro 在多个公开评测基准上表现优异，尤其是在语言模型和多模态能力方面。团队通过优化模型结构和训练算法，将 MoE 模型的性能杠杆提升至 7 倍，…
AI 前线
- 0
- 0
勇敢牛牛25年12月24日
Deepseek V3/R1 技术内核及 RAG 技术前沿进展

本文详细分析了 DeepSeek V3 和 R1 的技术内核及其在 RAG 技术上的前沿进展。首先，文章介绍了 DeepSeek 团队的长期主义和开源理念，以及其在混合专家模型（MoE）架构（包括细粒度专家分割和共享专家隔离）、推理能力强化和软硬件协同设计方面所做的创新。其次，文章深入探讨了 DeepSeek R1 如何通过纯强化学习和“左脚踩右脚”的迭代优化方式，在推理能力上取得突破，并利用模型…
AI 前线
- 0
- 0
勇敢牛牛25年12月24日
万字长文详解 DeepSeek 核心技术

本文详细介绍了 DeepSeek 系列模型的技术创新，包括 DeepSeek MoE 架构的细粒度专家划分、共享专家分离，以及为解决负载不均衡问题而提出的负载均衡策略。深入解析了 GRPO 算法相对于 PPO 的改进，通过减少 Value 模型来降低计算资源消耗。阐述了 MLA 如何通过低秩分解减少 KV Cache，降低推理成本。介绍了 MTP 如何通过一次性预测多个 token 来提升训练效率…
AI 前线
- 0
- 0
勇敢牛牛25年12月23日
Step-3 发布：包括发布会上没说的，都在这了

文章深入解读了最新发布的 Step-3 多模态推理模型，该模型定位为“最强开源多模态推理模型”。其核心亮点在于采用 MoE 架构（321B 总参，38B 激活）并实现了 Sota 级别的性能，尤其在 MMMU 和 AIME2025 榜单上表现突出。文章详细阐述了 Step-3 通过 AFD 分布式推理系统和 MFA 注意力机制两大核心创新，显著降低了推理成本，实现了在国产芯片上高达 DeepSee…
AI 前线
- 0
- 0
勇敢牛牛25年12月23日
美团正式发布并开源 LongCat-Flash-Chat，动态计算开启高效 AI 时代

文章介绍了美团最新发布并开源的 LongCat-Flash-Chat 大模型。该模型采用创新的混合专家（MoE）架构，总参数 560B，每个 Token 动态激活少量参数（平均 27B），实现了计算效率与性能的双重优化。文章详细阐述了其“零计算专家”机制、跨层通道并行计算、训练稳定性策略等技术亮点。性能评估显示，LongCat-Flash-Chat 在通用知识（如 MMLU、CEval）、智能体任…
AI 前线
- 0
- 0
勇敢牛牛25年12月23日
全新 MoE 架构！阿里开源 Qwen3-Next，训练成本直降 9 成｜机器之心

文章详细介绍了阿里通义团队开源的下一代大语言模型架构 Qwen3-Next。该模型总参数 80B，但仅激活 3B 参数，实现了训练成本直降 9 成、推理吞吐提升 10 倍以上的突破。其核心创新包括：结合 Gated DeltaNet 和 Gated Attention 的混合注意力机制，旨在优化长上下文处理；采用 512 个专家、10 个路由专家和 1 个共享专家的极致稀疏 MoE 结构，仅激活 …
AI 前线
- 0
- 0
勇敢牛牛25年12月23日
Qwen3 重磅开源！

文章主要介绍了 Qwen 系列全新一代的混合推理模型 Qwen3 的开源信息。Qwen3 在 GPQA、AIME24/25、LiveCodeBench 等多个权威评测中表现出极具竞争力的结果。通过引入创新的 MOE (混合专家) 架构，Qwen3 在效果上媲美上一代超大规模 Dense 模型的同时，效率显著提升，降低了计算成本。Qwen3 融合了推理与非推理能力，在逻辑分析和创意生成等任务中表现卓…
AI 前线
- 0
- 0
勇敢牛牛25年12月23日