-
Kimi K2 Thinking 模型发布并开源,全面提升 Agent 和推理能力
文章宣布月之暗面发布 Kimi K2 Thinking 模型,这是其迄今能力最强的开源思考模型。该模型基于“模型即 Agent”理念训练,原生具备“边思考,边使用工具”的能力,在 Humanity's Last Exam、BrowseComp 和 SEAL-0 等多项基准测试中表现达到 SOTA。Kimi K2 Thinking 能自主实现高达 300 步的工具调用,这是在 Test-T…- 0
- 0
-
最强 3B「小钢炮」,代码数据全公开!推理随意开关,128k 超长上下文
文章详细介绍了 Hugging Face 最新发布的 SmolLM3 大型语言模型,该模型以 30 亿参数在小模型中脱颖而出,支持 128k 超长上下文和独特的双推理模式(think/no_think),并实现了全链路(训练、对齐、架构、数据)100%开源。文章深入阐述了 SmolLM3 在 Llama 架构基础上的多项关键优化,如 GQA 机制、NoPE 编码、文档内注意力屏蔽和稳定性优化。此外…- 0
- 0
-
接力 DeepSeek,阶跃星辰直接开源两款国产多模态大模型
阶跃星辰联合吉利汽车集团开源了两款多模态大模型:Step-Video-T2V 和 Step-Audio。Step-Video-T2V 是全球范围内参数量最大、性能最好的开源视频生成模型,采用 MIT 许可协议,支持免费商用。该模型使用了深度压缩变分自编码器 Video-VAE,实现了 16×16 的空间压缩比,以及具有 3D 全注意力机制的 DiT,用于将输入噪声去噪成潜在帧。Step-Audio…- 0
- 0
-
混元开源又+1:视频音效可以自动生成了
文章介绍了腾讯混元开源的 HunyuanVideo-Foley 视频音效生成模型,旨在解决现有 AI 视频音效生成泛化能力不足、语义响应不均衡及音质粗糙等痛点。该模型通过构建大规模高质量 TV2A 数据集、采用创新的双流多模态扩散变换器(MMDiT)架构实现多模态语义均衡响应,并引入表征对齐(REPA)损失函数提升音频保真度。HunyuanVideo-Foley 在多个权威评测基准上达到 SOTA…- 0
- 0
-
不止 SOTA!通义 DeepResearch 模型、框架、方案全开源
文章详细介绍了通义 DeepResearch 模型、框架及方案的全开源,旨在赋能 AI 具备深度研究能力。核心技术创新包括:自研行业领先的全流程合成数据方案,涵盖 Agentic CPT、数据重组与问题构建、动作合成以及自动化生成 PhD-Level 学科数据,构造超越人类水平的数据集,以突破智能体能力上限。在推理范式上,模型支持 ReAct 模式和迭代式深度研究范式(IterResearch),…- 0
- 0
-
智谱发布新一代旗舰模型 GLM-4.5,面向推理、代码与智能体的开源 SOTA 模型!
智谱发布了其新一代旗舰模型 GLM-4.5 和 GLM-4.5-Air,专为智能体设计,统一了推理、编码和智能体能力。GLM-4.5 系列是混合推理模型,支持思考和非思考两种模式,并在多项行业基准测试中表现卓越,以 MIT 许可证开源。文章详细介绍了模型的下载方式、基于 vLLM 和 SGLang 的推理推荐配置及代码示例,以及使用 ms-swift 框架进行 LoRA 微调的完整步骤,包括环境准…- 0
- 0
-
开源新旗舰 GLM-4.5:不想刷榜,只想干活儿
文章详细介绍了智谱最新开源的旗舰大模型 GLM-4.5 及其轻量版 GLM-4.5-Air。该模型在多项权威基准测试中表现出色,位列全球第三、国产和开源模型第一。智谱强调 GLM-4.5 不追求榜单虚名,更注重真实应用场景下的实用表现,并通过“蒙眼乱斗”编程任务展示了其在工具调用和任务完成方面的卓越能力。技术上,GLM-4.5 系列采用高效的混合专家(MoE)架构,以更少的总参数量实现了超越同行的…- 0
- 0
-
让 OpenAI 只领先 5 天,百川发布推理新模型,掀翻医疗垂域开源天花板
文章详细介绍了百川智能最新发布的开源医疗推理大模型 Baichuan-M2-32B。该模型在 OpenAI 的 HealthBench 及 HealthBench Hard 评测集上,表现超越了包括 OpenAI 刚刚发布的 gpt-oss-120b 在内的多数顶尖开源与闭源模型,尤其在中国临床诊疗场景中展现出显著的本土化优势。文章强调了 Baichuan-M2 的低部署门槛,支持 RTX4090…- 0
- 0
-
欢迎 GPT OSS,来自 OpenAI 的全新开源模型家族!
本文介绍了 OpenAI 全新的 GPT OSS 开放权重模型家族,包含 `gpt-oss-120b` (117B 参数) 和 `gpt-oss-20b` (21B 参数)。这些混合专家模型 (Mixture-of-Experts, MoE) 采用 4 位 MXFP4 量化(一种低精度量化技术),从而以显著降低的资源需求实现高性能推理;较大的模型专为单个 H100 GPU 设计,而较小的模型则适用…- 0
- 0
-
信息量很大:2025.7.17 王坚对话黄仁勋实录
文章记录了之江实验室主任王坚与英伟达创始人兼首席执行官黄仁勋在第三届中国国际供应链促进博览会上的对话实录。对话围绕人工智能的过去、现在与未来展开,黄仁勋将 AI 发展划分为感知 AI、生成式 AI、推理 AI 和物理 AI 四大浪潮,强调 AI 是一种基于第一性原理的全新软件开发范式。双方深入探讨了开源模型作为颠覆性驱动力,如何通过开放研究和开放工程加速创新、提升技术质量和安全性。此外,对话还触及…- 0
- 0
-
阿里千问 3 推理模型重磅更新,比肩 Gemini-2.5 pro、o4-mini
文章详细介绍了阿里巴巴近期在开源大模型领域的重大进展。最新推出的千问 3 推理模型,其通用能力和深度思考能力实现巨大飞跃,支持 256K 上下文长度,并在知识、逻辑推理、编程、数学、人类偏好对齐等多项核心能力上,达到甚至超越 Gemini-2.5 pro、o4-mini 等顶尖闭源模型,被誉为全球最强开源推理模型。此外,阿里还开源了 Qwen3-235B-A22B-Instruct-2507 基础…- 0
- 0
-
腾讯混元 3D 开源+2:瞄准游戏建模、3D 打印痛点
文章发布了腾讯混元两款创新的 3D 生成模型:Hunyuan 3D-Omni 和 Hunyuan 3D-Part,并宣布全面开源。Hunyuan 3D-Omni 被誉为“3D 界的 ControlNet”,是业界首个统一支持多条件控制的 3D 生成框架,突破了传统图像输入的局限,通过骨骼、点云、边界框和体素等多种模态输入,实现了对 3D 物体几何结构、拓扑和姿态的精细控制。Hunyuan 3D-P…- 0
- 0
-
B 站出海的强有力支柱:最新开源文本转语音模型 IndexTTS-2.0 标志零样本 TTS 进入双维度时代 | 机器之心
文章详细介绍了哔哩哔哩 Index 团队最新开源的文本转语音模型 IndexTTS-2.0。该模型创新性地解决了传统自回归 TTS 模型在韵律自然度与精准时长控制之间难以兼顾的难题,首次提出通用于 AR 系统的“时间编码”机制,通过指定语义 token 数量实现对生成语音时长的精确控制。同时,IndexTTS-2.0 引入了音色与情感的解耦建模,支持独立参考音频、情感向量和自然语言描述等多种多模态…- 0
- 0
-
通义 DeepResearch 震撼发布!性能比肩 OpenAI,模型、框架、方案完全开源 | 机器之心
文章详细介绍了通义 DeepResearch 的发布,旨在将 AI 从“能聊天”提升到“会做研究”,以应对海外旗舰模型昂贵且受限的挑战。该项目在多项权威基准测试上取得 SOTA 表现,综合能力对标并跑赢海外旗舰模型,并实现了模型、框架和解决方案的全面开源,极大地降低了深度研究 AI Agent 的门槛。文章深入阐述了其独特的多阶段数据策略,包括基于全合成数据的增量预训练和后训练,以及创新的推理模式…- 0
- 0
-
Day 1/5:MiniMax-M1,全球首个开源大规模混合架构的推理模型
文章介绍了稀宇科技开源的新模型 MiniMax-M1,声称是全球首个大规模混合架构推理模型。M1 的显著优势在于支持 100 万上下文输入和 8 万 Token 推理输出,在长上下文和深度推理场景中效率高,算力消耗远低于竞品。文章指出,这得益于其独创的闪电注意力机制混合架构以及更快的强化学习算法 CISPO,大幅降低了训练成本。M1 在软件工程、长上下文理解和代理工具使用等面向生产力的复杂场景中表…- 0
- 0
-
离 GPT-5 最近的一次!中国 1 万亿参数开源巨兽突然爆火
文章详细介绍了月之暗面最新发布的开源模型 Kimi K2 Thinking。该模型采用 MoE 架构,总参数达 1 万亿,激活参数约 320 亿,具备 256K 的上下文窗口。其核心亮点在于强大的“思考 Agent 模型”能力,能在无人干预下连续调用工具 200-300 次,并通过“交替思考”机制实现连贯推理。在 BrowseComp、HLE 和 Tau2 Bench Telecom 等多项基准测…- 0
- 0
-
硬核拆解!从 GPT-2 到 gpt-oss,揭秘大模型进化关键密码
文章深度解析了 OpenAI 最新开源的 gpt-oss(120B/20B)大语言模型,并追溯了其从 GPT-2 以来的架构演进。作者 Sebastian Raschka 博士详细阐述了多项关键技术变革,包括移除 Dropout、采用 RoPE 位置编码、Swish/SwiGLU 激活函数及 GLU 结构、引入 MoE 稀疏专家模型、使用 GQA 分组查询注意力、以及 RMSNorm 替代 Lay…- 0
- 0
-
智源 OmniGen2 登场,国产多模态图像生成开源!一周狂揽 2000 星外网爆火
智源研究院发布了统一图像生成模型 OmniGen2 的重大升级版本,该开源模型采用创新架构支持文本到图像生成、图像编辑、主题驱动图像生成等多种任务。OmniGen2 采用分离式架构和 ViT/VAE 双编码器策略,显著提升了图像生成质量和指令遵循能力,并引入创新的图像生成反思机制。模型发布一周内 GitHub 星标突破 2000,X 平台相关话题浏览量达数十万。文章详细展示了模型在图像编辑、多模态…- 0
- 0
-
Meta SAM3 开源:让图像分割,听懂你的话
文章详细介绍了 Meta 最新开源的 Segment Anything Model 3 (SAM 3),这是一个能够通过文本或点、框、掩码等视觉提示,对图像和视频中的开放词汇概念进行统一可提示分割的基础模型。该模型有效解决了传统图像分割模型难以处理预定义列表之外的精细概念的痛点。SAM 3 的核心创新在于其“可提示概念分割”能力,使其在 Meta 新构建的 SA-Co 基准测试中达到人类性能的 7…- 0
- 0
-
Jina Code Embeddings: 为高质量代码搜索而生的 0.5B/1.5B 向量模型
Jina AI 开源了 jina-code-embeddings 系列代码向量模型(0.5B/1.5B),旨在解决传统代码向量模型面临的**高质量监督训练数据稀缺**这一核心瓶颈。该模型创新性地以代码生成大语言模型(如 Qwen2.5-Coder)为骨干网络,并通过对比学习进行高效微调,从而在紧凑参数规模下实现了领域顶尖的代码检索性能,超越了同等参数量级及部分闭源模型。模型原生支持自然语言搜代码、…- 0
- 0
-
开源 Qwen 一周连刷三冠,暴击闭源模型!基础模型推理编程均 SOTA
文章报道了通义千问(Qwen)在短短一周内连续开源三款重磅模型:Qwen3-235B-A22B-Thinking-2507(推理模型)、Qwen3-235B-A22B-Instruct-2507(基础模型)和 Qwen3-Coder(编程模型)。这些模型在各自领域均取得了全球开源 SOTA 的成绩,其中 Qwen3 新推理模型(思考版)不仅在逻辑推理、数学、科学和编码任务上性能显著提升,支持 25…- 0
- 0
-
Qwen-Image-Edit:全能图像编辑,驱动内容创作提质增效
文章详细介绍了通义千问团队最新开源的 Qwen-Image-Edit 模型。该模型基于 20B 的 Qwen-Image 模型进一步训练,成功将 Qwen-Image 的文本渲染能力拓展到图像编辑任务,实现精准文字编辑。其核心特性在于支持语义/外观双重编辑,这得益于将输入图像同时送入 Qwen2.5-VL(获取视觉语义控制)和 VAE Encoder(获得视觉外观控制)。模型能处理保持语义不变的 …- 0
- 0
-
阿里国际 Ovis2 系列模型开源:多模态大语言模型的新突破
阿里国际化团队开源了 Ovis2 系列多模态大语言模型。Ovis2 通过创新的架构,实现了视觉和文本嵌入的结构化对齐,解决了传统多模态模型中模态间嵌入策略差异的问题。文章详细阐述了 Ovis2 的模型架构,包括视觉 tokenizer、视觉嵌入表和 LLM 三个关键组件,以及采用了包括预训练、视觉理解增强、指令对齐和偏好学习在内的四阶段训练策略。Ovis2 还引入了视频和多图像处理能力,并通过创新…- 0
- 0
-
Gemma 3 介绍:可在单 GPU 或 TPU 上运行的最具能力的模型
谷歌 DeepMind 推出 Gemma 3,这是基于 Gemini 2.0 构建的最新开放模型,它不仅为超过 140 种语言提供多语言支持,更提升了性能。Gemma 3 具备强大的多模态能力,可以分析图像、文本和短视频;同时,它还配备了扩展的 128k-token 上下文窗口,并支持函数调用以实现任务自动化。Gemma 3 性能卓越,超越 Llama-405B 等模型,且可在单个图形处理器或张量…- 0
- 0
开源模型
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
-
✈优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!







