全部标签

开源模型

兔展智能UniWorld-View登顶李飞飞团队世界模型榜单：全球首个统一架构4D视频生成模型，全栈开源适配昇腾

兔展智能UniWorld-View登顶李飞飞团队世界模型榜单，首创统一架构4D视频生成模型，支持精确相机控制与单图/视频输入生成新视角视频；采用几何流+外观流双路径设计，全栈开源并适配昇腾算力，即将推出产模一体工具RabbitVis。
AI 前线
- 0
- 0
探索X7月25日
Kimi K2 Thinking 模型发布并开源，全面提升 Agent 和推理能力

文章宣布月之暗面发布 Kimi K2 Thinking 模型，这是其迄今能力最强的开源思考模型。该模型基于“模型即 Agent”理念训练，原生具备“边思考，边使用工具”的能力，在 Humanity's Last Exam、BrowseComp 和 SEAL-0 等多项基准测试中表现达到 SOTA。Kimi K2 Thinking 能自主实现高达 300 步的工具调用，这是在 Test-T…
AI 前线
- 0
- 0
勇敢牛牛25年12月31日
最强 3B「小钢炮」，代码数据全公开！推理随意开关，128k 超长上下文

文章详细介绍了 Hugging Face 最新发布的 SmolLM3 大型语言模型，该模型以 30 亿参数在小模型中脱颖而出，支持 128k 超长上下文和独特的双推理模式（think/no_think），并实现了全链路（训练、对齐、架构、数据）100%开源。文章深入阐述了 SmolLM3 在 Llama 架构基础上的多项关键优化，如 GQA 机制、NoPE 编码、文档内注意力屏蔽和稳定性优化。此外…
AI 前线
- 0
- 0
勇敢牛牛25年12月30日
接力 DeepSeek，阶跃星辰直接开源两款国产多模态大模型

阶跃星辰联合吉利汽车集团开源了两款多模态大模型：Step-Video-T2V 和 Step-Audio。Step-Video-T2V 是全球范围内参数量最大、性能最好的开源视频生成模型，采用 MIT 许可协议，支持免费商用。该模型使用了深度压缩变分自编码器 Video-VAE，实现了 16×16 的空间压缩比，以及具有 3D 全注意力机制的 DiT，用于将输入噪声去噪成潜在帧。Step-Audio…
AI 前线
- 2
- 0
泪满春衫袖25年12月28日
美团视频生成模型来了！一出手就是开源 SOTA

文章详细介绍了美团最新开源的视频生成模型 LongCat-Video，该模型参数为 13.6B，支持文生视频、图生视频及核心的视频延长功能，能稳定生成长达数分钟的视频且无质量下降。LongCat-Video 在开源模型中表现顶尖，部分核心能力可与谷歌闭源模型 Veo3 媲美，尤其在物理世界理解和常识性维度上具有领先优势。技术上，模型基于 Diffusion Transformer 框架，通过将所有…
AI 前线
- 0
- 0
勇敢牛牛25年12月24日
DeepSeek 开源 Prover-V2 强推理模型，网友：奥数从没这么简单过｜机器之心

DeepSeek 发布了开源的 DeepSeek-Prover-V2 模型，包括 7B 和 671B 两个版本，专注于形式化定理证明。该模型专为 Lean 4 数学 AI 编程语言设计，通过递归定理证明流程收集数据，并使用 DeepSeek-V3 进行子目标拆解和推理步骤的形式化表达。模型训练分为两个阶段：高效非思维链模式和高精度思维链模式，最终在神经定理证明任务中达到当前最先进的性能，并在 Mi…
AI 前线
- 0
- 0
勇敢牛牛25年12月24日
阿里深夜开源 Qwen2.5-Omni，7B 参数完成看、听、说、写

阿里通义千问团队开源了全新的旗舰级多模态大模型 Qwen2.5-Omni。该模型支持文本、图像、音频和视频等多种模态的输入，并能以流式方式生成文本和自然语音。Qwen2.5-Omni 采用了创新的 Thinker-Talker 架构和 TMRoPE 位置嵌入，实现了实时语音和视频聊天功能。实验结果表明，Qwen2.5-Omni 在多模态和单模态任务上均表现出色，在 OmniBench 等多模态任务…
AI 前线
- 2
- 0
勇敢牛牛25年12月24日
深夜突袭，阿里 Qwen3 登顶全球开源王座！暴击 DeepSeek-R1，2 小时狂揽 17k 星

文章主要介绍了阿里新开源的通义千问模型 Qwen3，该模型采用了混合专家（MoE）架构，总参数量达 235B，同时创新性地引入了混合推理模式，能够在思考和非思考模式之间无缝切换，从而在各种场景中实现最佳性能。Qwen3 在奥数、代码能力和人类偏好对齐等多个基准测试中表现出色，均创下新的纪录。此外，Qwen3 还原生支持 MCP 协议，并具备强大的工具调用能力，结合 Qwen-Agent 框架，可以…
AI 前线
- 0
- 0
勇敢牛牛25年12月24日
100 万亿 Token 看懵硅谷！全球一半算力写代码，另一半在「搞颜色」？

文章深入分析了 OpenRouter 与 a16z 联合发布的《基于 OpenRouter 的 100 万亿 Token 实证研究》报告，全面总结了 2025 年 AI 领域的关键发展现状和反直觉观点。报告基于海量真实算力消耗数据，揭示了开源模型使用量已稳步增长至总流量的 30%，其中中国开源模型表现尤为突出。推理优化模型流量占比飙升至 50%以上，标志着 AI 从文本生成转向复杂任务执行。在应用…
AI 前线
- 0
- 0
勇敢牛牛25年12月24日
LIama 4 发布重夺开源第一！DeepSeek 同等代码能力但参数减一半，一张 H100 就能跑，还有两万亿参数超大杯

Meta 发布了 Llama 4 系列模型，包括 Llama 4 Scout、Llama 4 Maverick 和 Llama 4 Behemoth。Llama 4 Scout 和 Maverick 已发布，是基于 MoE 架构的多模态模型，具备 170 亿激活参数，可在单个 H100 GPU 上运行，拥有超长上下文窗口。Llama 4 Maverick 在困难提示、编码、数学和创意写作方面表现出…
AI 前线
- 0
- 0
勇敢牛牛25年12月24日
DeepSeek 创始人专访：中国的 AI 不可能永远跟随，需要有人站到技术的前沿

DeepSeek 创始人梁文锋在专访中分享了对中国 AI 发展的深刻见解，强调中国必须站到技术前沿，避免永远跟随。DeepSeek 通过发布高性价比的开源模型 V3 和 V2，引发了大模型价格战，并在多项测评中表现优异，接近 GPT-4o 和 Claude 3.5 Sonnet 的水平。梁文锋强调，DeepSeek 的目标是推动原创式创新，而非简单的商业化。他提到开源和团队成长的重要性，认为开源更…
AI 前线
- 0
- 0
勇敢牛牛25年12月23日
混元开源又+1：视频音效可以自动生成了

文章介绍了腾讯混元开源的 HunyuanVideo-Foley 视频音效生成模型，旨在解决现有 AI 视频音效生成泛化能力不足、语义响应不均衡及音质粗糙等痛点。该模型通过构建大规模高质量 TV2A 数据集、采用创新的双流多模态扩散变换器（MMDiT）架构实现多模态语义均衡响应，并引入表征对齐（REPA）损失函数提升音频保真度。HunyuanVideo-Foley 在多个权威评测基准上达到 SOTA…
AI 前线
- 0
- 0
勇敢牛牛25年12月23日
不止 SOTA！通义 DeepResearch 模型、框架、方案全开源

文章详细介绍了通义 DeepResearch 模型、框架及方案的全开源，旨在赋能 AI 具备深度研究能力。核心技术创新包括：自研行业领先的全流程合成数据方案，涵盖 Agentic CPT、数据重组与问题构建、动作合成以及自动化生成 PhD-Level 学科数据，构造超越人类水平的数据集，以突破智能体能力上限。在推理范式上，模型支持 ReAct 模式和迭代式深度研究范式（IterResearch），…
AI 前线
- 0
- 0
勇敢牛牛25年12月23日
智谱发布新一代旗舰模型 GLM-4.5，面向推理、代码与智能体的开源 SOTA 模型！

智谱发布了其新一代旗舰模型 GLM-4.5 和 GLM-4.5-Air，专为智能体设计，统一了推理、编码和智能体能力。GLM-4.5 系列是混合推理模型，支持思考和非思考两种模式，并在多项行业基准测试中表现卓越，以 MIT 许可证开源。文章详细介绍了模型的下载方式、基于 vLLM 和 SGLang 的推理推荐配置及代码示例，以及使用 ms-swift 框架进行 LoRA 微调的完整步骤，包括环境准…
AI 前线
- 2
- 0
勇敢牛牛25年12月23日
开源新旗舰 GLM-4.5：不想刷榜，只想干活儿

文章详细介绍了智谱最新开源的旗舰大模型 GLM-4.5 及其轻量版 GLM-4.5-Air。该模型在多项权威基准测试中表现出色，位列全球第三、国产和开源模型第一。智谱强调 GLM-4.5 不追求榜单虚名，更注重真实应用场景下的实用表现，并通过“蒙眼乱斗”编程任务展示了其在工具调用和任务完成方面的卓越能力。技术上，GLM-4.5 系列采用高效的混合专家（MoE）架构，以更少的总参数量实现了超越同行的…
AI 前线
- 0
- 0
勇敢牛牛25年12月23日
让 OpenAI 只领先 5 天，百川发布推理新模型，掀翻医疗垂域开源天花板

文章详细介绍了百川智能最新发布的开源医疗推理大模型 Baichuan-M2-32B。该模型在 OpenAI 的 HealthBench 及 HealthBench Hard 评测集上，表现超越了包括 OpenAI 刚刚发布的 gpt-oss-120b 在内的多数顶尖开源与闭源模型，尤其在中国临床诊疗场景中展现出显著的本土化优势。文章强调了 Baichuan-M2 的低部署门槛，支持 RTX4090…
AI 前线
- 0
- 0
勇敢牛牛25年12月23日
欢迎 GPT OSS，来自 OpenAI 的全新开源模型家族！

本文介绍了 OpenAI 全新的 GPT OSS 开放权重模型家族，包含 `gpt-oss-120b` (117B 参数) 和 `gpt-oss-20b` (21B 参数)。这些混合专家模型 (Mixture-of-Experts， MoE) 采用 4 位 MXFP4 量化（一种低精度量化技术），从而以显著降低的资源需求实现高性能推理；较大的模型专为单个 H100 GPU 设计，而较小的模型则适用…
AI 前线
- 0
- 0
勇敢牛牛25年12月23日
信息量很大：2025.7.17 王坚对话黄仁勋实录

文章记录了之江实验室主任王坚与英伟达创始人兼首席执行官黄仁勋在第三届中国国际供应链促进博览会上的对话实录。对话围绕人工智能的过去、现在与未来展开，黄仁勋将 AI 发展划分为感知 AI、生成式 AI、推理 AI 和物理 AI 四大浪潮，强调 AI 是一种基于第一性原理的全新软件开发范式。双方深入探讨了开源模型作为颠覆性驱动力，如何通过开放研究和开放工程加速创新、提升技术质量和安全性。此外，对话还触及…
AI 前线
- 0
- 0
勇敢牛牛25年12月23日
阿里千问 3 推理模型重磅更新，比肩 Gemini-2.5 pro、o4-mini

文章详细介绍了阿里巴巴近期在开源大模型领域的重大进展。最新推出的千问 3 推理模型，其通用能力和深度思考能力实现巨大飞跃，支持 256K 上下文长度，并在知识、逻辑推理、编程、数学、人类偏好对齐等多项核心能力上，达到甚至超越 Gemini-2.5 pro、o4-mini 等顶尖闭源模型，被誉为全球最强开源推理模型。此外，阿里还开源了 Qwen3-235B-A22B-Instruct-2507 基础…
AI 前线
- 0
- 0
勇敢牛牛25年12月23日
腾讯混元 3D 开源+2：瞄准游戏建模、3D 打印痛点

文章发布了腾讯混元两款创新的 3D 生成模型：Hunyuan 3D-Omni 和 Hunyuan 3D-Part，并宣布全面开源。Hunyuan 3D-Omni 被誉为“3D 界的 ControlNet”，是业界首个统一支持多条件控制的 3D 生成框架，突破了传统图像输入的局限，通过骨骼、点云、边界框和体素等多种模态输入，实现了对 3D 物体几何结构、拓扑和姿态的精细控制。Hunyuan 3D-P…
AI 前线
- 0
- 0
勇敢牛牛25年12月23日
B 站出海的强有力支柱：最新开源文本转语音模型 IndexTTS-2.0 标志零样本 TTS 进入双维度时代｜机器之心

文章详细介绍了哔哩哔哩 Index 团队最新开源的文本转语音模型 IndexTTS-2.0。该模型创新性地解决了传统自回归 TTS 模型在韵律自然度与精准时长控制之间难以兼顾的难题，首次提出通用于 AR 系统的“时间编码”机制，通过指定语义 token 数量实现对生成语音时长的精确控制。同时，IndexTTS-2.0 引入了音色与情感的解耦建模，支持独立参考音频、情感向量和自然语言描述等多种多模态…
AI 前线
- 0
- 0
勇敢牛牛25年12月23日
通义 DeepResearch 震撼发布！性能比肩 OpenAI，模型、框架、方案完全开源｜机器之心

文章详细介绍了通义 DeepResearch 的发布，旨在将 AI 从“能聊天”提升到“会做研究”，以应对海外旗舰模型昂贵且受限的挑战。该项目在多项权威基准测试上取得 SOTA 表现，综合能力对标并跑赢海外旗舰模型，并实现了模型、框架和解决方案的全面开源，极大地降低了深度研究 AI Agent 的门槛。文章深入阐述了其独特的多阶段数据策略，包括基于全合成数据的增量预训练和后训练，以及创新的推理模式…
AI 前线
- 0
- 0
勇敢牛牛25年12月23日
Day 1/5：MiniMax-M1，全球首个开源大规模混合架构的推理模型

文章介绍了稀宇科技开源的新模型 MiniMax-M1，声称是全球首个大规模混合架构推理模型。M1 的显著优势在于支持 100 万上下文输入和 8 万 Token 推理输出，在长上下文和深度推理场景中效率高，算力消耗远低于竞品。文章指出，这得益于其独创的闪电注意力机制混合架构以及更快的强化学习算法 CISPO，大幅降低了训练成本。M1 在软件工程、长上下文理解和代理工具使用等面向生产力的复杂场景中表…
AI 前线
- 0
- 0
勇敢牛牛25年12月23日
离 GPT-5 最近的一次！中国 1 万亿参数开源巨兽突然爆火

文章详细介绍了月之暗面最新发布的开源模型 Kimi K2 Thinking。该模型采用 MoE 架构，总参数达 1 万亿，激活参数约 320 亿，具备 256K 的上下文窗口。其核心亮点在于强大的“思考 Agent 模型”能力，能在无人干预下连续调用工具 200-300 次，并通过“交替思考”机制实现连贯推理。在 BrowseComp、HLE 和 Tau2 Bench Telecom 等多项基准测…
AI 前线
- 0
- 0
勇敢牛牛25年12月23日