全部标签

模型架构

一文读懂｜DeepSeek 除夕发布新模型，多模态大一统的革命来了？

文章深入解读了 DeepSeek 最新发布的开源多模态模型 Janus-Pro。该模型创新性地采用双编码器架构，分别负责图像理解和生成，突破了传统大一统模型的性能瓶颈。文章详细分析了 Janus-Pro 的架构设计和**三阶段创新训练方法**，包括锁参数训练适配器、弃用 ImageNet 拥抱真实数据、以及优化数据配比等关键策略。评测结果显示，Janus-Pro-7B 在多模态理解和图像生成基准测…
AI 前线
- 0
- 0
勇敢牛牛1月3日
DeepSeek-V3 是怎么训练的｜深度拆解

DeepSeek-V3 是一款高性能、低成本的开源大模型，在多项基准测试中表现优异，特别是在高级数学推理能力上大幅超越其他模型。其架构创新包括 Multi-head Latent Attention、DeepSeekMoE 和无额外损耗的负载均衡策略，显著提升了模型性能和效率。通过 DualPipe 流水线并行、通信优化、内存管理和 FP8 低精度训练等工程优化，DeepSeek-V3 显著提升了…
AI 前线
- 0
- 0
勇敢牛牛25年12月24日
Perplexity 如何打造 AI 领域的 Google

本文深入分析了 Perplexity AI 如何设计其“AI 领域的 Google”，以提供直接、引用的答案，而不是链接列表。它强调了 Perplexity 将实时网络搜索与强大的 AI 相结合，以克服传统 LLM 的幻觉和信息过时等局限性。其技术核心是精心实现的检索增强生成（RAG）流程，包括查询意图解析、实时网络检索、片段提取、带引用的综合答案生成以及对话优化。一个关键的架构优势是其与模型无关…
AI 前线
- 0
- 0
勇敢牛牛25年12月24日
DeepSeek R1 之后，AI 创业、AI 投资会发生什么变化？

文章深入剖析了 DeepSeek R1 发布后对 AI 领域产生的多方面影响。DeepSeek 通过创新的模型架构和训练效率，以远低于传统方式的成本实现了先进的性能，挑战了依赖巨额算力和数据构建竞争壁垒的传统 AI 开发和投资逻辑，并引发了对 Scaling Law 的重新思考。文章分析了 DeepSeek 对闭源模型提供商、开源社区、基础设施及硬件厂商以及应用开发者和初创公司的不同影响，包括估…
AI 前线
- 0
- 0
勇敢牛牛25年12月24日
实测！Qwen 下一代基础架构突袭！秒解 AIME 数学竞赛题，提速 10 倍+性价比提升 10 倍

文章详细介绍了阿里通义千问团队发布的 Qwen3-Next 模型架构，作为 Qwen3.5 的抢先预览版，其核心目标是大幅提升模型性价比和性能。Qwen3-Next-80B-A3B-Base 模型在训练成本上仅为前代的十分之一，长上下文推理吞吐量提升十倍以上。技术创新包括混合注意力机制（引入 Gated DeltaNet）、高稀疏度 MoE 结构、稳定性优化（Zero-Centered RMSNo…
AI 前线
- 0
- 0
勇敢牛牛25年12月23日
Grok 代码模型来了：限时免费用，速度超级快｜机器之心

文章详细介绍了马斯克 xAI 公司最新推出的代码模型 Grok Code Fast 1。该模型被定位为 Grok 4 的代码版本，核心目标是为 AI 自动执行编程任务（即“agentic 编程”）提供极速且经济的解决方案，旨在弥补现有大语言模型在智能体编码工作流中的不足。xAI 强调，Grok Code Fast 1 采用全新的模型架构从零开始训练，并精心构建了包含丰富编程内容的预训练语料库，同时…
AI 前线
- 0
- 0
勇敢牛牛25年12月23日

❯

个人中心

购物车

优惠劵

今日签到

有新私信私信列表

搜索

幸运之星正在降临...

点击领取今天的签到奖励！

恭喜！您今天获得了{{mission.data.mission.credit}}积分

今日签到

连续签到

{{item.credit}}

连续{{item.count}}天

查看所有

我的优惠劵

_✈_优惠劵

使用时效：无法使用

使用时效：
之前

使用时效：永久有效

优惠劵ID：
×

限制以下商品使用：限制以下商品分类使用：不限制使用：

[{{ct.name}}]

所有商品和商品类型均可使用

没有优惠劵可用!

购物车

×

删除

购物车空空如也!

清空购物车前往结算

您有新的私信

没有新私信

写新私信查看全部

{{userData.name}}已认证

模型架构

一文读懂｜DeepSeek 除夕发布新模型，多模态大一统的革命来了？

DeepSeek-V3 是怎么训练的｜深度拆解

Perplexity 如何打造 AI 领域的 Google

DeepSeek R1 之后，AI 创业、AI 投资会发生什么变化？

实测！Qwen 下一代基础架构突袭！秒解 AIME 数学竞赛题，提速 10 倍+性价比提升 10 倍

Grok 代码模型来了：限时免费用，速度超级快 ｜ 机器之心

Grok 代码模型来了：限时免费用，速度超级快｜机器之心