-
从 DeepSeek-V3 到 Kimi K2:八种现代 LLM 架构大比较
本文对八种现代 LLM 架构进行了深入比较,包括 DeepSeek V3/R1、OLMo 2、Gemma 3、Mistral Small 3.1、Llama 4、Qwen3、SmolLM3 和 Kimi K2。文章指出,尽管 LLM 核心架构仍基于 Transformer,但通过引入多头潜在注意力(MLA)、混合专家(MoE)、后归一化(Post-Norm)、QK-Norm、滑动窗口注意力以及无位…- 0
- 0
-
美团视频生成模型来了!一出手就是开源 SOTA
文章详细介绍了美团最新开源的视频生成模型 LongCat-Video,该模型参数为 13.6B,支持文生视频、图生视频及核心的视频延长功能,能稳定生成长达数分钟的视频且无质量下降。LongCat-Video 在开源模型中表现顶尖,部分核心能力可与谷歌闭源模型 Veo3 媲美,尤其在物理世界理解和常识性维度上具有领先优势。技术上,模型基于 Diffusion Transformer 框架,通过将所有…- 0
- 0
-
一场关于 DeepSeek 的高质量闭门会:比技术更重要的是愿景
本文总结了一场由拾象组织的关于 DeepSeek 的闭门讨论会,与会者包括顶尖 AI 研究员、投资人和从业者。会议旨在探讨 DeepSeek-R1 以始料未及的速度引发全球 AI 社区狂热现象背后的技术细节、组织文化及其在 AI 领域产生的深远影响。讨论内容涵盖了 DeepSeek 的创始人梁文锋的技术洞察力、DeepSeek 的技术特点如高效的 reasoning 模型和数据蒸馏技术、算力情况、…- 0
- 0
-
信息过载时代,如何真正「懂」LLM?从 MIT 分享的 50 个面试题开始 | 机器之心
文章基于 MIT CSAIL 工程师 Hao Hoang 整理的 50 个大语言模型(LLM)面试问题,为**专业人士和 AI 爱好者**提供了系统性学习和理解 LLM 的结构化框架。内容涵盖 LLM 的核心架构、训练与微调方法、文本生成与推理技术、数学原理、高级模型以及面临的挑战与伦理问题。通过问答形式,文章清晰地解释了 tokenization、注意力机制、PEFT、RAG、CoT 等关键概念…- 0
- 0
-
淘宝直播数字人:音视频&算法工程技术
本文详细介绍了淘宝直播数字人技术的工程实现与商业应用。文章从数字人核心技术(LLM 文案生成、TTS 语音合成、形象驱动等)出发,通过'一个字节的旅行'形象化解析直播链路中的数据流转过程,深入剖析了音视频工程与 AI 技术的结合方式,包括架构设计和成本优化策略。通过服务上千家商家的实际案例,展示了数字人直播在解决商家痛点和公益助农方面的商业价值,并分享了快速迭代、种子用户培养等…- 0
- 0
AI技术
❯
个人中心
购物车
优惠劵
今日签到
有新私信
私信列表
搜索
扫码打开当前页
返回顶部
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
-
✈优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!




