-
Meta 深夜开源 Llama 4!首次采用 MoE,惊人千万 token 上下文,竞技场超越 DeepSeek
Meta 发布了最新的 Llama 4 系列 AI 模型,包括 Llama 4 Scout、Llama 4 Maverick 和 Llama 4 Behemoth。这些模型采用混合专家 (MoE) 架构,显著提升训练和推理效率,具备多模态能力,支持多种语言,并在多个基准测试中表现出色。Llama 4 Scout 拥有 170 亿激活参数和 10M token 超长上下文窗口,为业界领先,解锁了围绕…- 0
- 0
-
全文版 | 豆包大模型 1.5 Pro 正式发布
豆包大模型团队正式发布了 Doubao-1.5-pro,这是一款基于 MoE(Mixture of Experts)架构的全新基础模型。该模型通过训练-推理一体化设计,显著提升了性能和推理效率,特别是在多模态能力上取得了突破性进展。Doubao-1.5-pro 在多个公开评测基准上表现优异,尤其是在语言模型和多模态能力方面。团队通过优化模型结构和训练算法,将 MoE 模型的性能杠杆提升至 7 倍,…- 0
- 0
-
Deepseek V3/R1 技术内核 及 RAG 技术前沿进展
本文详细分析了 DeepSeek V3 和 R1 的技术内核及其在 RAG 技术上的前沿进展。首先,文章介绍了 DeepSeek 团队的长期主义和开源理念,以及其在混合专家模型(MoE)架构(包括细粒度专家分割和共享专家隔离)、推理能力强化和软硬件协同设计方面所做的创新。其次,文章深入探讨了 DeepSeek R1 如何通过纯强化学习和“左脚踩右脚”的迭代优化方式,在推理能力上取得突破,并利用模型…- 0
- 0
-
万字长文详解 DeepSeek 核心技术
本文详细介绍了 DeepSeek 系列模型的技术创新,包括 DeepSeek MoE 架构的细粒度专家划分、共享专家分离,以及为解决负载不均衡问题而提出的负载均衡策略。深入解析了 GRPO 算法相对于 PPO 的改进,通过减少 Value 模型来降低计算资源消耗。阐述了 MLA 如何通过低秩分解减少 KV Cache,降低推理成本。介绍了 MTP 如何通过一次性预测多个 token 来提升训练效率…- 0
- 0
-
Step-3 发布:包括发布会上没说的,都在这了
文章深入解读了最新发布的 Step-3 多模态推理模型,该模型定位为“最强开源多模态推理模型”。其核心亮点在于采用 MoE 架构(321B 总参,38B 激活)并实现了 Sota 级别的性能,尤其在 MMMU 和 AIME2025 榜单上表现突出。文章详细阐述了 Step-3 通过 AFD 分布式推理系统和 MFA 注意力机制两大核心创新,显著降低了推理成本,实现了在国产芯片上高达 DeepSee…- 0
- 0
-
美团正式发布并开源 LongCat-Flash-Chat,动态计算开启高效 AI 时代
文章介绍了美团最新发布并开源的 LongCat-Flash-Chat 大模型。该模型采用创新的混合专家(MoE)架构,总参数 560B,每个 Token 动态激活少量参数(平均 27B),实现了计算效率与性能的双重优化。文章详细阐述了其“零计算专家”机制、跨层通道并行计算、训练稳定性策略等技术亮点。性能评估显示,LongCat-Flash-Chat 在通用知识(如 MMLU、CEval)、智能体任…- 0
- 0
-
全新 MoE 架构!阿里开源 Qwen3-Next,训练成本直降 9 成 | 机器之心
文章详细介绍了阿里通义团队开源的下一代大语言模型架构 Qwen3-Next。该模型总参数 80B,但仅激活 3B 参数,实现了训练成本直降 9 成、推理吞吐提升 10 倍以上的突破。其核心创新包括:结合 Gated DeltaNet 和 Gated Attention 的混合注意力机制,旨在优化长上下文处理;采用 512 个专家、10 个路由专家和 1 个共享专家的极致稀疏 MoE 结构,仅激活 …- 0
- 0
-
Qwen3 重磅开源!
文章主要介绍了 Qwen 系列全新一代的混合推理模型 Qwen3 的开源信息。Qwen3 在 GPQA、AIME24/25、LiveCodeBench 等多个权威评测中表现出极具竞争力的结果。通过引入创新的 MOE (混合专家) 架构,Qwen3 在效果上媲美上一代超大规模 Dense 模型的同时,效率显著提升,降低了计算成本。Qwen3 融合了推理与非推理能力,在逻辑分析和创意生成等任务中表现卓…- 0
- 0
MOE架构
❯
个人中心
购物车
优惠劵
今日签到
有新私信
私信列表
搜索
扫码打开当前页
返回顶部
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
-
✈优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!






