攻守易形:当开源变成中国主场|赛博月刊 2508

本文作为一份月度技术观察报告,全面回顾了 2025 年 7 月全球人工智能领域的最新进展。在“趋势观察”部分,文章重点指出国产大模型如 K2、GLM-4.5 等在编程、Agent 及多模态能力上已完全不输海外第一梯队,且大量以开源形式发布,凭借开源生态和性价比优势,显著巩固了中国在 AI 竞争中的“主场”地位,宣告中美在语言模型领域进入同等水平竞争。同时,文章也观察到图像、视频、音频领域正向“理解后生成”的理念发展,3D 生成技术突破了单一物体限制,开始实现可组合零部件和完整场景生成。AI Coding 正向 L4 全自动编程迈进,垂直 Agent 赛道如金融、影像等加速扩展。行业并购整合频繁,预示 AI 产业正从“春秋”迈向“战国”时代。在“时光机”部分,文章按日期详细罗列了当月重要的模型开源、应用发布、融资并购等事件,涵盖了智谱、阿里巴巴、月之暗面等中国科技巨头在开源 AI 领域的积极布局,以及 Hugging Face、Google、OpenAI 等国际公司的最新动态,为读者提供了全面的行业图景。




攻守易形:当开源变成中国主场|赛博月刊 2508

👀 趋势观察

1. (语言)模型

✦ 这个月是国产模型爆发月。K2 / GLM-4.5 / Step-3 / Qwen-2507,无论是编程能力、Agent 能力,还是多模态能力,已经完全不输第一梯队的海外模型了。更重要的是:这些国产模型都是开源的

✦ 海外模型里,马斯克预热了很久的 Grok-4 终于发布。但是大家趁着新鲜体验了一下以后,就没有以后了。

✦ 虽然国产模型距离 SOTA 还有一点点距离,但其出色的性价比和丰富的开源生态,足以让人忽略这点效果差异。2025年7月,我们可以很自信地说:语言模型领域,中美正在进行同等水平的竞争。

2. 图像

✦ 图像领域本月没有让人兴奋的新模型,各家普遍在审美、性价比、一致性方面继续改进。

✦ 现在的图像编辑模型,不仅能理解图片,还能在生成新图片时与参考图片保持不错的一致性。目前,图像编辑类应用的开发难度几乎为 0,竞争差异点居然也落在了提示词上。

3. 视频

✦ 可能是从图像领域获得了灵感?视频领域也出现了更智能的编辑模型——让模型理解视频,并基于自然语言对视频进行修改,成了视频模型的新潮流。我大胆预测一下,最多 2 个月,国产开源的智能视频编辑模型就会出现。

✦ 或许是受限于当前视频生成的原理,视频模型不再卷极致的物理真实性或细节完整度了,而是在往成本更低、生成更快、时长更长的方向在发展。人类逐渐接受了那些细节瑕疵,转而将 AI 视频视作一种全新的创作模式。

4. 音频

✦ 受到其他领域 Generation by Understanding 理念的影响,音频生成领域也有了新趋势:让模型先理解文字,再生成与文字情绪对应的配音。这导致现在的 AI 配音,不仅听起来非常逼真,甚至还有了「情感」和「灵魂」。

5. 3D

✦ 让人眼前一亮的新进展出现在 3D 领域:生成多个可组合的 3D 零部件,再装配成一个高度可控的完整模型。相较于之前单一且复杂的「空壳」,新模式在 3D 动画与工业制造等场景中的实用性大大提升。

✦ 3D 领域另一个新范式:不再满足于捏单个物体,而是直接批量产出 N 个元素,并实时拼装成可交互的完整场景这是 3D 世界的 Scaling Law。

6. 机器人

✦ 开源项目最能折射行业真实水平。就目前的机器人开源生态来看,机器人行业仍处于较为初级的阶段

✦ 尽管人形机器人的演示总让人眼花缭乱,以为未来已来。但事实是,我们仍需保持理性,做好长期发展的准备

7. 应用

✦ Coding 领域最新高频热词:全栈全自动类比于自动驾驶分级,AI Coding 同样锚定了 L4 级全自动编程,同样也处于 L2.5 - L3 的发展阶段。

✦ 通用 Agent 赛道本月已无新者入局,但是垂直赛道正加速扩展,尤其是金融影像两个方向值得重点关注。

8. 新闻/融资

✦ (上个月和)本月 AI 领域的收购新闻突然大量增加。在历史进程里,这是 AI 行业从「春秋」到「战国」的转折点吗?

🧭 时光机

7 月 1 日

图像 | Hassan El Mghari 开源 EasyEdit 秒级快速修图的图片编辑工具→ 这位开发者帮 Together 做了挺多不错的应用 Demo

应用 | RockFlow 上线 Bobby 生成投资策略并完成交易的智能体 → 金融领域的垂直 Agent 开始大量出现

融资 | xAI 完成 100 亿美元债务及股权融资 → 估值达到 1130 亿美元,仅仅次于 OpenAI 和 Anthropic

融资 | Grammarly 宣布计划收购 AI 邮件应用 Superhuman → 将一个小的场景做到极致,然后慢慢扩张到更大的场景,也可以变成巨头

7 月 2 日

模型 | 智谱 开源 GLM-4.1V-Thinking 多模态视觉大模型→ 智谱这个月开始发力开源模型,这是第一波

应用 | 百度搜索十年来最大改版 → 这是百度不得不做的防守动作

7 月 3 日

应用 | LibLib 发布星流 Agent 多模态创意设计平台(Lovart 中国版→ 全换成国产模型后,效果与 Lovart 有什么样的差异呢

7 月 4 日

音频 | 阿里巴巴 开源 ThinkSound 视觉动态感知的音频生成模型→ 实测无法生成人声对话,离 Veo3 的配音能力还是有差距

应用 | Harvey 上线面向法律领域的深度研究功能

7 月 5 日(无)
7 月 6 日

音频 | 上海创智学院 X 复旦大学 X 模思智能 联合开源 MOSS-TTSD 对话语音生成模型→ 自动情感控制已经成为 TTS 领域的新趋势

7 月 7 日

3 D | 腾讯 Hunyuan3D-PolyGen 美术级高精度 3D 生成模型 → 腾讯在 AI 3D 生成领域持续领先

7 月 8 日

模型 | Hugging Face 完全开源 SmolLM3 混合推理小模型→ 开源得很彻底,科研意义大于实用意义的一个模型

视频 | Moonvalley Marey 版权合规的影视级视频生成模型 → 使用完全拥有商业授权的素材进行训练,生成的视频是否容易显得平庸呢

7 月 9 日

机器人 | Hugging Face 开源 Reachy Mini 桌面机器人 → 在开源模型社区稳坐全球第一后,HF 开始往开源机器人方向探索

应用 | Google Gemini 个人助手登录 Wear OS 智能手表 → 作为交互空间很有限的可穿戴设备,基于 AI 的自然语言交互是非常合适的

应用 | Perplexity Comet AI 浏览器,融合搜索与智能体任务 → 不知道 Comet 会有哪些原创功能呢?期待!

7 月 10 日

模型 | 上海人工智能实验室开源 SFE 科学认知评测基准

应用 | Perplexity 集成 Coinbase 实时的加密货币数据 → 搜索产品开始接入一些垂直数据来差异化竞争。而金融又是数据最丰富的领域,自然成为首选

7 月 11 日

模型 | 月之暗面 开源 Kimi K2 基础模型,专为编程与 Agent 任务设计→ 这个模型有「小Claude」之称,在开源领域火了一把,打响了 7 月国产模型占领开源领域的第一枪

音频 | 哔哩哔哩 宣布开源 IndexTTS2 语音合成模型

视频 | 爱诗科技 PixVerse(拍我AI)多关键帧生成功能 → 通过多关键帧将 AI 视频一次生成的时长拉长到 30 秒,很妙的主意

图像 | Black Forest Labs 开放 Kontext Komposer 图像场景智能转换工具 → 本质就是预设了一堆提示词模板。可以在网站内通过 F12 来查看提示词

应用 | xAIGrok 进入 Polymarket  Kalshi 平台,强化金融预测市场分析能力 → 马斯克在加密货币上,确实比其他公司走得更快

融资 | Meta 收购语音初创公司 PlayAI → Meta 不仅到处买人,还开始买企业了

7 月 12 日

模型 | xAI 发布 Grok 4 多模态推理模型和 Ani 二次元伴侣 → 发布后就没什么声音了,从性价比/功能上都相对平庸

机器人 |-  Hugging Face 开源 The Amazing Hand 八自由度人形机器人手

7 月 13 日(无)
7 月 14 日

应用 | 美图 发布 RoboNeo Agent 一句话搞定影像生产力 → 美图在图片编辑领域有非常多的 Know-How,这是其他创业公司难以企及的

应用 | Amazon 发布 Kiro 全流程开发 AI IDE → Kiro 开启了 AI Coding 领域 spec 新潮流

7 月 15 日

模型 | LG 开源 EXAONE 4.0 混合推理模型→ 可能是出于国家形象的考虑,韩国人终于有了自己的小模型 🤏

音频 | Mistral 开源 Voxtral 语音识别模型→ Mistral 近期开源了一系列性价比很出色的小模型,也算是差异化竞争

应用 | 秘塔 免费开放深度研究功能开放动态问题链 → 推理路径的可视化做的非常出色,是深度研究领域里让人眼前一亮的产品

应用 | Anthropic 上线 Claude Connectors通过 MCP 协议连接外部服务 → Connector 的概念应该会在 Agent 领域越来越普及

应用 | Figma Make 集成 Supabase 实现 AI 驱动的全栈开发 → Supabase 不约而同成为了几个 Agent 产品的共同选择

融资 | Cognition(Devin)全面收购 Windsurf→ Windsurf 收购的 Drama 大戏终于落下帷幕 💥

新闻 | NVIDIA H20 芯片 2025 年对华供应解禁始末 → 未来中国可以没有英伟达,但是英伟达不能没有中国。

7 月 16 日

视频 | Runway Act-Two 高精度运动捕捉模型 → 实测下来,比 Act-One 动作模仿更加细腻,多了很多原模型忽略的细节动作

视频 | Lightricks 开源 LTXV 实时视频生成模型,生成 60 秒原生长视频→ 确实可以生成 60 秒的视频,但是内容同质化严重,像是为了长而长

应用 | Anthropic 发布金融行业数据分析方案(Claude for Financial Services )→ Anthropic 开始往垂直 Agent 领域进行尝试。先通用,再垂直。

应用 | MiniMax Agent 推出全栈开发功能 → Minimax 这个通用 Agent 产品的亮点在于优秀的后端能力,做到不仅仅是个前端 Demo

7 月 17 日

应用 | Google 再次升级 AI Mode集成深度研究学习功能 → Google 不仅模型出色,产品也是顶级水平 💯

应用 | 特工宇宙上线观猹平台,AI 产品的大众点评 → 流量侧还需努力,这样开发者才有动力发布

融资 | Lovable 完成 2 亿美元 A 轮融资,估值达 18 亿美元

7 月 18 日

应用 | OpenAI 发布 ChatGPT agent 任务处理智能体系统 → 通用 Agent 基本模式,已经演变为每项任务启动一台虚拟机

模型 | Upstage 实验室发布 Solar Pro 2 韩语增强的混合推理模型

视频 | Decart 正式开放 MirageLSD 实时交互式视频生成模型 → 一个实时的 AI 视频滤镜,40 毫秒的延迟已经低于中美之间的通信延迟了,非常夸张 😱

融资 | Anysphere(Cursor)人才收购初创公司 Koala → AI Coding 这个领域,还是 B 端才有真正的付费能力

7 月 19 日

3 D | Scenario 上线 PartCrafter 智能部件分割功能,一键生成可编辑 3D 组件 → 3D 生成的新趋势:生成单个 3D 模型 → 生成多个 3D 零部件 → 最终组成一个 3D 模型

7 月 20 日(无)
7 月 21 日

模型 | 快手 KAT-V1 自动思考大模型,自动切换思考形态 → 如何控制思维链的长度,一直是推理模型的一大工程难点 🚩

应用 | TRAE SOLO 2.0 发布全流程自动化编程智能体 → 国产 Coding Agent 从功能上也赶上了海外的产品

7 月 22 日

机器人 | 字节跳动 发布 Seed GR-3 通用机器人模型 & ByteMini 双臂机器人

应用 | 腾讯 CodeBuddy 全栈开发 AI IDE

应用 | 智源研究院 开放 FlagRelease 大模型自动迁移平台 → 「不再受制于单一硬件厂商」是指谁呢 👀

7 月 23 日

模型 | 阿里巴巴 开源 Qwen3-Coder 编程模型刷新开源 SOTA→ 模型和产品其实不错的,但是被「爆账单」的事情给掩盖了不少光芒 😥

模型 | 上海科学智能研究院 X 复旦大学 X 无限光年 联合开放星河启智科学智能开放平台

图像 | Neta.art(捏Ta)开源 Neta Lumina 轻量级动漫文生图模型

音频 | BosonAI(李沐)开源 Higgs Audio V2 多模态音频模型→ 实测下来,此模型无需额外提示词指引,可以直接理解文本内容并生成对应情感的配音,效果不错 🏆

视频 | Hedra Live Avatars 基于图像的实时交互数字人方案 → 简单的说,就是可以和 AI 虚拟人物面对面的打视频了

应用 | 零一万物 万智平台发布企业级 Agent 智能体解决方案

新闻 | AdventureX 2025 全球黑客松(第二届)在杭州举办

新闻 | 美国发布 AI Action Plan,巩固其全球领导地位

7 月 24 日

模型 | 阿里巴巴 Qwen-MT 高性能多语言机器翻译模型 → 阿里对于商业价值比较高的模型,开始渐渐地不开源了

模型 | RWKV 开源 RWKV7-G0 7.2B 纯 RNN 架构推理模型

图像 | Higgsfield Steal 图像复刻浏览器插件 → 本质上是一个图片提示词反推工具

音频 | 字节跳动 Seed LiveInterpret 2.0 端到端低延迟同声传译模型

应用 | Microsoft 上线 GitHub Spark 全栈应用开发工具 → 全栈开发能力,逐渐成为 AI Coding 工具的标配。

融资 | 像素绽放 完成 B3 轮战略融资 → AI PPT 下一步,是不是 AI Excel 或 AI Word 呢

7 月 25 日

应用 | 上海人工智能实验室 开放 Intern-Discovery 书生科学发现平台 → 垂直数据+垂直工具=垂直Agent

3 D | 群核科技 开源 InteriorGS 适用于智能体自由运动的大规模 3D 数据集 → 感觉可以很快应用在扫地机器人上

机器人 | 上海人工智能实验室 发布 Intern-Robotics 一脑多形的具身智能全栈引擎

应用 | Google Labs 上线 Opal 基于自然语言开发 Mini 应用 → 用自然语言创建和编辑工作流,国内产品可以开始学起来了

应用 | Anysphere(Cursor)开放 Bugbot AI 代码审查工具 → 以前是 AI Coding+人Review,现在可以 AI Coding+AI Review,闭环了

应用 | 财联社 X 阶跃星辰 联合发布财跃星辰「AI小财神」,最新上线金融深度研究Pro

7 月 26 日

模型 | 上海创智学院 X 无问芯穹 联合开源 Megrez2.0 终端本征大模型

模型 | 上海创智学院 X 华东师范大学 联合开源 启创•InnoSpark 1.0 教育专用大模型

音频 | 阶跃星辰 Step-Audio 2 理解/推理/生成三合一的端到端语音模型 → 看了演示视频,真人感很强,反应迅速,有跟真人聊天的感觉了 💬

视频 | Runway Aleph 自然语言智能视频编辑系统 → 自然语言的视频编辑,会是视频模型的新标配功能

应用 | 京东 开源 JoyAgent 端到端企业级通用智能体

新闻 | 世界人工智能大会 WAIC 2025 暨人工智能全球治理高级别会议在上海成功举行

7 月 27 日

模型 | 上海人工智能实验室 开源 Intern-S1 多模态科研大模型→ 书生系列在科研方向发力,和 Qwen 系列开始有差异化

3 D | 腾讯混元 3D 世界模型 1.0 开源,最新可交互 3D 世界生成模型→ 之前是生成一个物体,现在是生成 N 个物体组成一个场景

应用 | 阿里巴巴 发布夸克 AI 眼镜,融合阿里生态的自研旗舰硬件

7 月 28 日

模型 | 智谱 开源 GLM-4.5 推理/编程/智能体三合一模型→ GLM-4.5 的发布,让国产模型彻底占领了开源榜单 🏆

视频 | 阿里巴巴 开源通义万相 Wan2.2 视频生成模型→ 视频模型也开始玩 MoE 了

应用 | 扣子(Coze)开源核心引擎→ 虽然被吐槽开源的不够彻底,但是其核心源码已经相当有价值了

应用 | 金山 WPS 灵犀原生 Office 办公智能体

融资 | E2B 完成 2100 万美元 A 轮融资 → 乘着 Manus 的东风,虚拟机成为了通用 Agent 的必备基建

7 月 29 日

应用 | Microsoft Edge 浏览器推出 Copilot 模式 → AI 公司做 AI 浏览器。传统公司在浏览器加上 AI 功能。大家更看好哪条路呢 ❓

7 月 30 日

图像 | 昆仑万维开源 Skywork UniPic 多模态统一预训练模型→ 又一个中国版的 gpt-image-1,优势是模型特别小,只有 1.5B

视频 | Luma 上线基于自然语言的视频编辑功能→ Runway 有的功能,Luma 必须也有

应用 | OpenAI ChatGPT 上线互动学习模式 → 提示词也可以达到差不多的效果

应用 | NotebookLM上线视频概览生成幻灯片摘要

7 月 31 日

模型 | GoogleGemini 开放Deep Think 高阶数学推理模型(IMO 金牌

模型 | 阶跃星辰 开源 Step 3 多模态推理模型→ 算是第一个国产的开源多模态推理大模型

模型 | 小红书 开源 dots.ocr 多语言文档解析模型→ 实测效果确实 SOTA,小红书还真有东西 🍠

模型 | 阿里巴巴 开源 Qwen-0527 继续发布 235B、30B、4B 系列模型→ 把原来的混合推理模型拆开了,也就是未来的混合推理不是靠模型内部,而是靠路由

图像 | Black Forest Labs X Krea AI 联合开源 FLUX.1 Krea [dev] 高真实感文生图模型→ 在图像模型领域,美学风格也是很重要的差异性

图像 | Ideogram Character 单张参考图的角色一致性模型 → 有点像换脸,电商行业的刚需

应用 | Genspark 上线 AI Slides 2.0 演示文稿生成工具,提供数百套模板 → 又回归了「套模板」这种最原始的方式。看来靠 HTML 生成的「PPT」,无法绕过二次编辑这个槛 🤔

应用 | Manus 上线 Wide Research 数百个项目并行研究系统 → 从串行架构到并行架构,是 Agent 发展的必然。可是在 2025 年这个时间点,成本能 Hold 住么?

| 应用 | NEO 机器学习工程师智能体 → 本质就是一个垂直编程领域的 Agent,适用用户比较窄

应用 | Jenova 转型 MCP 生态多工具智能协作平台

新闻 | Figma 成功上市,首日股价飙升 250%

7 月 1 日

Hassan El Mghari

EasyEdit 秒级快速修图的图片编辑工具(开源)

EasyEdit 是一款由开发者 Hassan El Mghari 打造的开源图片编辑工具,核心优势是极速修图完全免费

它基于 Next.js 框架构建前后端,通过 Flux Kontext 模型实现图像处理,并依托 Together Compute 提供的 API 完成核心运算;同时还集成了 Helicone 确保 AI 功能的可观测性与稳定性。

这种简洁的技术架构,不仅带来了流畅的编辑体验,也为开发者提供了轻量化 AI 应用开发的实践参考

使用入口:开源;前往 Github 获取代码(github.com/Nutlope/easyedit);前往 EasyEdit 官网体验(easyedit.io)。

权威信源:https://x.com/nutlope/status/1939746188573765740




Image

> “业内解读(By Jomy)→ 这位开发者帮 Together 做了挺多不错的应用 Demo,可以去看看 👀”

RockFlow

Bobby 生成投资策略并完成交易的智能体

Bobby 号称是全球首个投资 AI Agent,通过语音或文字交互为用户提供个性化服务。它能根据用户需求生成投资策略并自动执行交易,同时记忆用户偏好与持仓数据,持续优化投资建议。目前 Bobby 已集成至 RockFlow App 首页,该平台服务覆盖 30 多个国家和地区的投资者。

Bobby 的长期愿景是革新传统交互模式,成为下一代投资界面。用户仅需用自然语言表达投资意图,Bobby 即可自动完成意图解析、策略生成到订单执行的全流程,实现真正的智能交易闭环。

使用入口:前往 RockFlow APP 主页,点击右上角的 Bobby 独角兽头像。

权威信源:官方介绍 | 测评体验




Image

> “金融领域的垂直 Agent 开始大量出现 💰”

xAI

完成 100 亿美元债务及股权融资

xAI 完成总额 100 亿美元的新一轮融资。其中,50 亿美元为摩根士丹利承销的有担保票据及定期贷款,另外 50 亿美元来自战略股权融资。所筹资金将用于加速开发尖端解决方案(包括旗舰产品 Grok 平台)以及建设全球领先的超级计算基础设施

权威信源:https://techcrunch.com/2025/07/01/xai-raises-10b-in-debt-and-equity




Image

> “估值达到 1130 亿美元,仅仅次于 OpenAI 和 Anthropic 🚀 ”

Grammarly

宣布计划收购 AI 邮件应用 Superhuman

Superhuman 是一款电子邮件工具,能够显著提高用户处理邮件的效率。Grammarly 宣布计划收购并将多个 Agent 引入收件箱,帮助用户以丰富的上下文信息更快地回复邮件

此次收购是 Grammarly 构建「AI超级高速公路」战略的重要一步。该公司表示将开放平台接口,允许开发者创建多样化 AI 代理,而电子邮件被列为首批重点优化的工作流场景。

Grammarly 去年 12 月对协同文档平台 Coda 的收购,同样服务于这一战略目标——通过将 AI 深度嵌入用户日常工具,实现工作流程的智能化升级

权威信源:https://www.reuters.com/business/grammarly-acquires-email-startup-superhuman-ai-platform-push-2025-07-01




Image

> “将一个小的场景做到极致,然后慢慢扩张到更大的场景,也可以变成巨头 🧩”

7 月 2 日

智谱

GLM-4.1V-Thinking 多模态视觉大模型(开源)

GLM-4.1V-Thinking 是智谱推出的新一代多模态视觉大模型,具备强大的视觉理解与高阶推理能力。此次开源的 9B 版本在 28 项评测中 23 项领先,能力与参数量 8 倍于它的 Qwen-2.5-VL-72B 相当。

该模型支持长达 2 小时的视频内容解析,能处理逻辑推理、图像问答、学科图表解题等复杂任务,并适用于专业文档解析、图文精准识别等场景,在 GUI Agent 交互与视觉代码生成等前沿场景中也有优秀表现。

使用入口:开源;前往 HugingFace 获取模型(huggingface.co/collections/THUDM/glm-41v-thinking-6862bbfc44593a8601c2578d);前往 Github 获取代码(github.com/THUDM/GLM-4.1V-Thinking);前往 智谱Z.ai 官网体验(Z.ai);或者调用 API(bigmodel.cn)。

权威信源:官方介绍




Image

> “智谱这个月开始发力开源模型,这是第一波 🌊”

百度

百度搜索十年来最大改版

百度搜索迎来十年来最重大改版,搜索框升级为「智能框」后支持超千字的文本输入,全面加强了拍照、语音、视频等能力,也支持直接调取写作、绘图等 AI 工具。

此外,全新的搜索结果页「百看」支持图文、音视频混合输出,并且接入了智能体、真人服务等能力。AI 助手能力也得到升级,具备视频通话、多模态输入输出、智能创作和深度搜索能力。

使用入口:前往 下载 百度App 体验。

权威信源:官方介绍




Image

> “这是百度不得不做的防守动作 😥”

7 月 3 日

LibLib AI

星流 Agent 多模态创意设计平台(Lovart 中国版)

星流 Agent 是海外爆款 Lovart 的中国版,也是 LibLib AI 专为中文用户推出的一站式创意设计解决方案。它在继承 Lovart 全栈式智能设计能力的同时,进行了深度的本地化适配,全面优化了中文语义理解、东方美学风格和本土应用场景

用户仅需下达一条指令,平台就可以自动解析需求、匹配风格、选择最优的模型组合,一站式完成复杂的多模态内容创作,如同一个执行力超强的设计搭档。

使用入口:前往 星流 官网体验(xingliu.art)或者下载星流 App。

权威信源:官方介绍




Image

> “全换成国产模型后,效果与 Lovart 有什么样的差异呢 🧐”

7 月 4 日

阿里巴巴

ThinkSound 视觉动态感知音频生成模型(开源)

ThinkSound 是阿里巴巴推出的一款音频生成模型,能够根据画面内容生成高保真空间音频,实现视觉事件与声音的高度同步。与传统视频转音频(V2A)模型不同,它能精准捕捉画面中的动作和空间关系,让声音与视觉实现真正匹配。

该模型核心突破在于首次将思维链(CoT)技术引入音频生成领域,并采用专门设计的 AudioCoT 数据集进行训练。测试显示,其性能比主流方法提升 15% 以上,音频相似度指标 FD 值从 43.26 降至 34.56,展现了更强的音频生成能力。

使用入口:开源;前往 HugingFace 获取模型(huggingface.co/spaces/FunAudioLLM/ThinkSound);前往 Github 获取代码(github.com/FunAudioLLM/ThinkSound)。

权威信源:官方介绍




Image

> “实测无法生成人声对话,离 Veo3 的配音能力还是有差距 🙅‍♀️”

Harvey

上线面向法律领域的深度研究功能

Harvey 上线了法律垂直领域的深度研究功能,进一步提升其专业服务的智能化水平。该功能基于 OpenAI Deep Research 模型 API 开发,通过技术集成实现了法律信息的高效分析与处理,显著提升了研究效率。

为确保研究结果的可信度,Harvey 将 Deep Research 生成的 URL 引用与自有引用系统无缝对接,使每项结论均可追溯、可验证,为用户提供透明可靠的研究支持。

使用入口:前往 Harvey 官网体验(harvey.ai)。

权威信源:https://www.harvey.ai/blog/integrating-deep-research-into-harvey




Image

7 月 6 日

上海创智学院 X 复旦大学 X 模思智能

MOSS-TTSD 对话语音生成模型(开源)

MOSS-TTSD 是一款开源的对话语音生成模型,能够根据多说话人的对话文本直接生成韵律自然、表现力丰富的中英双语语音,显著改善了传统 TTS 在对话场景中的表现力不足问题。

在性能对比中,MOSS-TTSD 韵律自然度与表现力达到业界领先水平,与 MoonCast 等开源模型及豆包播客 TTS 等商业产品相比更具优势。

此外,模型在保持同等效果的同时,还支持零样本音色克隆与更高灵活度的文本定制功能。

使用入口:开源;前往 HugingFace 获取模型(huggingface.co/fnlp/MOSS-TTSD-v0.5);前往 Github 获取代码(github.com/OpenMOSS/MOSS-TTSD);前往 Demo 页面体验(huggingface.co/spaces/fnlp/MOSS-TTSD)。

权威信源:https://github.com/OpenMOSS/MOSS-TTSD | 官方介绍




Image

> “自动情感控制已经成为 TTS 领域的新趋势 💎”

7 月 7 日

腾讯

Hunyuan3D-PolyGen 美术级高精度 3D 生成模型

腾讯推出的 Hunyuan3D-PolyGen 是业界首个美术级 3D 生成大模型,能自动生成面数超 10,000 的高精度模型,显著提升几何细节丰富度与布线规范性

其独特优势在于同时支持三边面和四边面输出,适配不同专业管线需求,并能直接应用于 UGC 游戏内容创作。目前,该技术已集成至腾讯多款游戏生产管线,帮助美术师将建模效率提升超 70%

使用入口:前往 混元3D 官网体验(3d.hunyuan.tencent.com)。

权威信源:官方介绍




Image

> “腾讯在 AI 3D 生成领域持续领先 👍”

7 月 8 日

Hugging Face

SmolLM3 混合推理小模型(开源)

Hugging Face 开源的 SmolLM3 是一款 3B 参数的轻量级语言模型,支持 think 和 no_think 两种推理模式,并具备 128K 长文本处理能力。

它支持 6 种欧洲语言,在知识问答、逻辑推理、数学计算及编程等 12 项基准测试中表现优异,性能超越同规模模型,接近部分 4B 级别模型

Hugging Face 公开了完整训练方案和 SmolTalk2 数据集,涵盖预训练、微调和偏好学习三阶段数据,这是实现双模推理的关键。

使用入口:开源;前往 HugingFace 获取模型(huggingface.co/HuggingFaceTB/SmolLM3-3B);前往 HugingFace 获取 SmolTalk2 数据集(huggingface.co/datasets/HuggingFaceTB/smoltalk2);前往 Github 获取代码(github.com/huggingface/smollm)。

权威信源:https://huggingface.co/blog/smollm3




Image

> “开源得很彻底,科研意义大于实用意义的一个模型 🔬”

Moonvalley

Marey 版权合规的影视级视频生成模型

Moonvalley 推出的 Marey 模型专为影视行业打造,所有训练数据均获得了完整授权,彻底规避了版权风险,为进入好莱坞等专业影视制作领域扫清了法律障碍。

与传统 AI 视频工具不同,Marey 提供了精准的创作控制功能,包括镜头运动、角色姿态和画面修复等,让影视工作者能精细调整每一帧内容。

该团队由 DeepMind 前成员创立,已获 1 亿美元融资,并将 Marey 应用于纪录片修复等实际项目。

使用入口:前往 Moonvalley 官网体验(moonvalley.com)。

权威信源:https://time.com/7300636/ai-hollywood-moonvalley-marey




Image

> “使用完全拥有商业授权的素材进行训练,生成的视频是否容易显得平庸呢 🎬”

7 月 9 日

Hugging Face

Reachy Mini 开源桌面机器人

Reachy Mini 是 Hugging Face 与 Pollen Robotics 合作推出的首款开源桌面机器人,专为人机交互探索、创意编程和 AI 实验设计。其小巧可爱的外形与毛绒玩具相当,配备电动头部、身体和动画式天线,能实现生动灵活的交互动作。

该机器人支持 Python 编程(未来将扩展更多语言),并与 Hugging Face Hub 深度集成,方便用户调用丰富的 AI 模型与数据集

Reachy Mini 提供两种版本:Reachy Mini Lite 售价 299 美元,需外接计算设备;Reachy Mini Wireless 售价 449 美元,内置树莓派 5,支持完全自主运行。

使用入口:前往 Pollen Robotics 官网购买(pollen-robotics.com/reachy-mini)。

权威信源:https://huggingface.co/blog/reachy-mini




Image

> “在开源模型社区稳坐全球第一后,HF 开始往开源机器人方向探索 🤖”

Google

Gemini 个人助手登录 Wear OS 智能手表

Google 推出适用于 Wear OS 智能手表的 Gemini AI 助手服务,覆盖包括 Pixel、三星、OPPO、OnePlus 和小米在内的主流品牌设备。该服务将在未来几周内逐步推送至所有运行 Wear OS 4 及以上系统的智能手表。

用户可通过语音唤醒(Hey Google)、长按侧边按钮或点击应用图标三种方式启动 Gemini,享受流畅的腕上交互体验。无需依赖手机,即可直接通过手表完成日程管理、信息查询等日常任务。

权威信源:https://blog.google/products/wear-os/gemini-wear-os-watches




Image

> “作为交互空间很有限的可穿戴设备,基于 AI 的自然语言交互是非常合适的 ⌚”

Perplexity

Comet AI 浏览器,融合搜索与智能体任务

Comet 是一款 Perplexity 推出的 AI 浏览器,目前优先向 Perplexity Max 订阅用户开放。它将 Perplexity 的 AI 能力深度整合到浏览体验中,实现了搜索与操作的智能化升级。

用户不仅能获取全网信息解答问题,还能借助侧边栏助手高效完成多种任务,包括网页总结、内容翻译、会议预订、邮件发送甚至商品购买等。

使用入口:前往 Perplexity 官网申请内测(perplexity.ai/comet)。

权威信源:https://www.theverge.com/news/703037/perplexity-ai-web-browser-comet-launch




Image

> “不知道 Comet 会有哪些原创功能呢?期待 👀”

7 月 10 日

上海人工智能实验室

SFE 科学认知评测基准(开源)

上海人工智能实验室 AI4S 团队推出的 SFE 评测基准,是全球首个专注于多模态大模型「科学认知能力」的评估体系。该基准覆盖天文、地球、生命科学等 5 大领域的 66 项高价值任务,并基于原始科学数据和中英双语问答进行测试。

相比传统评测仅考察知识记忆,SFE 更关注模型在真实科研中的综合能力。目前,主流模型在 SFE 上的平均得分仅 30 分左右,表明其在复杂科学任务上仍有较大提升空间。团队还推出了棱镜(SciPrismaX)评测平台,推动更科学、动态的评估生态发展。

使用入口:开源;前往 HugingFace 获取数据集(huggingface.co/datasets/PrismaX/SFE);前往 棱镜 SciPrismaX 科学评测平台(prismax.opencompass.org.cn)。

权威信源:官方介绍




Image

Perplexity X Coinbase

Perplexity Finance 集成实时的加密货币数据

Perplexity 与 Coinbase 合作推出金融分析工具 Perplexity Finance,通过 AI 技术解决加密货币市场的信息过载问题。该工具结合 Coinbase 的实时机构级数据与 Perplexity 的 AI 推理能力,帮助交易者高效筛选市场信号,降低噪音干扰。

目前第一阶段已上线,Perplexity 接入了 Coinbase 的 COIN50 指数等市场数据,支持深度分析。第二阶段即将推出,用户可通过 AI 对话界面实时监控市场、发现交易机会并分析代币动态。

使用入口:前往 Perplexity Finance 官网体验(perplexity.ai/finance)。

权威信源:https://x.com/brian_armstrong/status/1943300747635925246




Image

> “搜索产品开始接入一些垂直数据来差异化竞争。而金融又是数据最丰富的领域,自然成为首选 💲”

7 月 11 日

月之暗面

Kimi K2 基础模型,专为编程与 Agent 任务设计(开源)

Kimi K2 是月之暗面最新开源的基础模型,专注于提升代码处理与通用智能体任务能力。模型总参数量高达 1T,激活参数量 32B,在代码生成、智能体任务及数学推理等多项基准测试中,均位列开源模型 SOTA。

模型亮点在于,预训练阶段使用 MuonClip 优化器实现万亿参数模型的稳定高效训练,在人类高质量数据成为瓶颈的背景下,有效提高 Token 利用效率,找到了新的 Scaling 空间。

使用入口:开源;前往 HugingFace 获取模型(huggingface.co/moonshotai/Kimi-K2-Instruct);前往 Github 获取代码(github.com/MoonshotAI/Kimi-K2);前往 Kimi 官网体验(kimi.com)或者下载 Kimi App;或者调用 API(platform.moonshot.cn)。

权威信源:https://moonshotai.github.io/Kimi-K2 | 官方介绍




Image

> “这个模型有「小Claude」之称,在开源领域火了一把,打响了 7 月国产模型占领开源领域的第一枪 🔫”

哔哩哔哩

IndexTTS2 语音合成模型(即将开源)

IndexTTS2 是 B 站推出的新一代语音合成(TTS)模型,支持音色与情感独立调节,或直接通过自然语言描述调整情绪表达,从而实现更灵活细腻的语音合成效果。

该模型通过引入时间编码机制,实现了音色与情感的解耦建模,显著提升了情感表达细腻度语音时长控制精准。目前,该技术已应用于 B 站「原声视频翻译」功能,部分用户已可体验。

使用入口:开源;前往 Github 查看项目(github.com/index-tts/index-tts);前往 Demo 页面体验(huggingface.co/spaces/IndexTeam/IndexTTS)。

权威信源:官方介绍




Image

爱诗科技 AIsphere

PixVerse(拍我AI)多关键帧生成功能

PixVerse 新增「多关键帧生成」功能,用户现在可以最多上传 7 张图片作为关键帧,AI 会智能解析各帧间的语义关系,构建出流畅的运动路径,最终生成长达 30 秒的连贯视频

该功能通过精准定义故事的起始、转折与结束,不仅能实现角色动作和场景的自然衔接,还能模拟导演的镜头语言,大幅提升视频叙事表现力。

使用入口:前往 PixVerse 国内版 拍我AI 官网体验(pai.video)。

权威信源:官方介绍




Image

> “通过多关键帧将 AI 视频一次生成的时长拉长到 30 秒,很妙的主意 👏”

Black Forest Labs

Kontext Komposer 图像场景智能转换工具

Black Forest Labs 旗下 FLUX Playground 在线平台,推出了 FLUX Playground 新功能,能自动识别照片主体并实现一键式图像转换。用户无需编写复杂提示词,即可将人物或物体无缝融入奇幻场景,或生成电影级视觉效果。

值得注意的是,FLUX Playground 平台还提供了一系列丰富的预设模板,涵盖肖像光影优化、商业产品场景植入、海报风格化等实用功能。

使用入口:前往 FLUX Playground 官网体验(playground.bfl.ai/kontext/komposer)。

权威信源:https://x.com/bfl_ml/status/1943635700227739891




Image

> “本质就是预设了一堆提示词模板。可以在网站内通过 F12 来查看提示词 📚”

xAI X Polymarket & Kalshi

引入 Grok 强化金融预测市场分析

xAI 宣布与加密预测平台 Polymarket 及合规衍生品交易所 Kalshi 达成合作,将其人工智能助手 Grok 深度整合至金融预测领域,以提升市场决策效率。

在与 Polymarket 的合作中,双方将开发「硬核真相引擎」,通过结合 Grok 的实时分析能力、X 平台的海量数据以及市场预测动态,为用户提供更精准的决策支持。而与 Kalshi 的合作则侧重于实时交易场景,Grok 将高效处理新闻事件、历史数据及关键经济指标,帮助用户快速把握市场趋势并优化交易策略

使用入口:前往 Polymarket 官网体验(polymarket.com),或者前往 Kalshi 官网体验(kalshi.com)。

权威信源:https://www.cnbc.com/2025/07/25/musk-grok-kalshi-polymarket.htm




Image

> “马斯克在加密货币上,确实比其他公司走得更快 🚀”

Meta

收购语音初创公司 PlayAI

Meta 宣布完成对语音技术初创公司 PlayAI 的收购,具体交易金额未公开。Meta 表示,此次收购将增强其在人工智能语音交互领域的技术储备,为未来产品生态提供关键支持。

PlayAI 核心业务聚焦于自然语音生成技术及语音创作平台的开发,其技术方向与 Meta 在 AI 角色塑造、Meta AI 助手、可穿戴设备及音频内容创作等领域的战略规划高度契合。PlayAI 全体团队成员将加入 Meta,并向新近入职的 Johan Schalkwyk(原 Sesame AI 高管)汇报。

权威信源:https://www.bloomberg.com/news/articles/2025-07-11/meta-acquires-voice-ai-startup-playai-continuing-to-add-talent




Image

> “Meta 不仅到处买人,还开始买企业了 💵”

7 月 12 日

xAI

Grok 4 多模态推理模型,以及出圈的二次元伴侣

Grok 4 是 xAI 最新发布的新一代多模态推理模型,具备 256K 上下文窗口、实时搜索及跨模态理解能力,号称其智力水平超越了几乎所有领域的研究生。

该模型在 ARC-AGI 基准测试中以 15.9% 的得分领先,达到次优模型的近两倍;在面向顶尖专家的 HLE 基准测试中,其准确率同样大幅领先同类模型。据分析,这一性能突破源于 Grok 4 在 20 万 GPU 集群 Colossus 上完成的大规模强化学习训练。

使用入口:前往 Grok 官网体验(grok.com);或者调用 API(console.x.ai)。

权威信源:https://x.ai/news/grok-4 | 赛博禅心




Image

同时,Grok 移动应用(仅限 iOS)同步推出了伴侣形象 Ani 和 Rudi。Ani 是一个哥特动漫风格的女孩,具备情感化语音和 NSFW 模式,随着用户互动加深会解锁更露骨的内容Rudi 则是一只红色熊猫,拥有 Bad Rudy 模式,会变得粗鲁和叛逆




Image

> “发布后就没什么声音了,从性价比/功能上都相对平庸 😐”

Hugging Face

The Amazing Hand 八自由度人形机器人手(开源)

The Amazing Hand 是 Hugging Face 和 Pollen Robotics 开源的八自由度人形机器人手,包含 4 根手指,每根手指有 2 个可活动的指节,所有执行器都内置于手掌中,无需外部线缆,总重量仅 400g。

团队通过公开物料清单、CAD 文件和组装指南,鼓励社区自主制造或商业化,以推动开源 AI 机器人生态发展。其核心优势在于极低的硬件成本(物料费用低于 250 美元)与完整的可复现性——所有部件均可通过 3D 打印完成

使用入口:开源;前往 Github 查看项目(github.com/pollen-robotics/AmazingHand)。

权威信源:https://huggingface.co/blog/pollen-robotics/amazing-hand




Image

7 月 14 日

美图

RoboNeo Agent 一句话搞定影像生产力

RoboNeo 是美图推出的 AI 影像智能体,通过自然语言交互帮助用户高效完成专业级视觉内容生产。无论是婚纱精修、品牌 Logo 设计还是电商营销素材批量生成,用户只需要输入文本指令就可以快速获得商业级成果,显著降低中小企业和个人创作者的视觉创作门槛。

该产品同时整合了智能视频编辑能力,支持一键剪辑、画质增强和特效添加,并支持效果预览与一键建站,提供了全方位的视觉生产力解决方案。

使用入口:前往 RoboNeo 官网体验(RoboNeo.com)或者下载 RoboNeo App。

权威信源:官方介绍




Image

> “美图在图片编辑领域有非常多的 Know-How,这是其他创业公司难以企及的 🧐”

Amazon

Kiro 全流程开发 AI IDE

通过自然语言交互与自动化协作,帮助开发者高效完成从概念到生产的全流程开发。开发者只需用自然语言描述需求或绘制架构图,AI 即可快速生成原型代码,并通过内置的规约(specs)钩子(hooks)功能,自动将其转化为可部署的生产级代码

Kiro 核心优势在于减少迭代成本。无论是快速验证创意,还是构建稳定系统,Kiro 都能以更少的步骤交付更高质量的代码。

使用入口:前往 Kiro 官网体验(kiro.dev)。

权威信源:https://kiro.dev/blog/introducing-kiro | 官方介绍




Image

> “Kiro 开启了 AI Coding 领域 spec 新潮流 👩‍💻”

7 月 15 日

LG

EXAONE 4.0 混合推理模型(开源)

EXAONE 4.0 是韩国 LG 公司推出的一款混合推理模型,采用混合推理架构,支持 Reasoning 与 Non-reasoning 双模式,兼顾深度思考与快速响应需求。其 131K 长上下文窗口与函数调用能力,显著提升了复杂任务处理效率。

模型涵盖 32B 和 1.2B 两种参数量级,覆盖韩语、英语及西班牙语。在 Artificial Analysis 评测中,32B 版本的推理模式性能比肩 Claude 4 Opus,非推理模式则达到 Llama 4 Maverick 同级水平。

使用入口:开源;前往 HugingFace 获取模型(huggingface.co/LGAI-EXAONE/EXAONE-4.0-32B);前往 Github 获取代码(github.com/LG-AI-EXAONE/EXAONE-4.0)。

权威信源:https://www.lgresearch.ai/blog/view




Image

> “可能是出于国家形象的考虑,韩国人终于有了自己的小模型 🤏”

Mistral AI

Voxtral 语音识别模型(开源)

Voxtral 是 Mistral AI 开源的一款语音识别模型,可以流畅解析长达 30 至 40 分钟的音频内容,并自动检测语言后进行高精度转录(包括英语、西班牙语、法语等)。此外,用户还可以通过语音指令直接进行问答、摘要生成及系统函数调用,大幅提升了使用效率与交互体验。

Voxtral 模型包括两个版本,Mini Transcribe 和 Small。在性能对标的情况下,Mini Transcribe 价格不到 OpenAI Whisper 的一半;而 Voxtral Small 价格不到 ElevenLabs Scribe 的一半,为用户提供了高性价比的选择。

使用入口:开源;前往 HugingFace 获取模型(huggingface.co/mistralai);前往 Le Chat 官网体验(chat.mistral.ai);或者调用 API(console.mistral.ai)。

权威信源:https://mistral.ai/news/voxtral




Image

> “Mistral 近期开源了一系列性价比很出色的小模型,也算是差异化竞争 ⚔”

秘塔AI搜索

深度研究功能开放动态问题链

秘塔向所有用户免费开放「深度研究」功能,针对复杂问题提供深入、全面的分析,并生成结构清晰的综合性报告。

其核心创新在于为每个问题提供一个动态的「问题链」,清晰展示模型的思考路径与推理逻辑,使用户能够直观理解报告的形成过程。这一设计打破了传统搜索算法黑箱模式,提升了结果的可信度与可追溯性。

使用入口:前往 秘塔AI搜索 官网体验(metaso.cn)。

权威信源:官方介绍




Image

> “推理路径的可视化做的非常出色,是深度研究领域里让人眼前一亮的产品 🥳”

Anthropic

Claude Connectors 通过 MCP 协议连接外部服务

Claude Connectors 通过 MCP 协议将 Claude 与外部服务无缝连接,用户可一键集成 Canva、Figma、Linear、Notion、Stripe 等主流生产力工具。这一功能使 Claude 能够像团队成员一样直接读写第三方平台数据。

此次升级突破了聊天机器人的单一场景,将 Claude 转变为连接多平台的智能中枢。用户可通过 Connectors 目录快速接入所需工具,自动化完成项目管理、文档协作、任务追踪等工作流。

使用入口:前往 Claude 官网体验(claude.ai/directory)。

权威信源:https://x.com/AnthropicAI/status/1944819149789700215




Image

> “Connector 的概念应该会在 Agent 领域越来越普及 ⚡”

Figma X Supabase

Figma Make 集成 Supabase 实现 AI 驱动的全栈开发

Figma Make 是 Figma 核心 AI 模块,能够将设计快速转化为高保真原型与轻量级 Web 应用。

Supabase 开源后端平台提供了实时数据库、自动生成 API、用户认证及文件存储等关键功能,其灵活架构和可扩展性成为开发者构建全栈应用的热门选择

两者的深度集成进一步简化了开发流程。用户在 Figma Make 界面描述需要后端支持的功能(如登录验证或数据存储),系统会优先推荐 Supabase 服务并自动完成配置。这使得设计师无需编写后端代码或切换工具,就可以直接生成具备真实数据交互能力的应用

使用入口:前往 Figma Make 官网体验(figma.com/make)。

权威信源:https://supabase.com/blog/figma-make-support-for-supabase




Image

> “Supabase 不约而同成为了几个 Agent 产品的共同选择 🤝”

Cognition(Devin)

全面收购 Windsurf

Cognition 宣布完成对 Windsurf 的全面收购,协议覆盖其全部知识产权、产品、商标、品牌、业务及员工团队,以及 Windsurf 约 8200 万美元的年度经常性收入(ARR)、超过 350 家付费企业客户以及数十万日活跃用户。

收购完成后,Windsurf 团队将保持独立运营,所有员工权益均得到保障。Cognition 表示将持续专注于其核心产品 Devin 的迭代升级,同时深度整合 Windsurf 技术,以提升 AI Coding 效率与协作能力。

此前,Windsurf 曾面临 OpenAI 高价收购的传闻,但该交易因 Microsoft 介入而终止,导致部分 Windsurf 高管及核心成员随后转投 Google DeepMind。最终,Cognition 迅速行动,成功接手了 Windsurf 的剩余团队和业务,标志着围绕该公司的收购争夺告一段落。

权威信源:https://cognition.ai/blog/windsurf




Image

> “Windsurf 收购的 Drama 大戏终于落下帷幕 💥”

NVIDIA

H20 芯片 2025 年对华供应解禁始末

4月15日:美国商务部将英伟达 H20 GPU 列入出口管制清单,要求对华出口需申请许可证,且审批无明确期限。受此影响,英伟达股价单日下跌 8%,市值蒸发约 1600 亿美元。

7月14日:英伟达官网发布声明,表示已向美国商务部工业与安全局(BIS)提交 H20 对华出口申请,并称获得美政府批准保证。🔗链接

7月中旬:英伟达 CEO 黄仁勋访华。15日宣布 H20 对华销售重启,16日出席北京「第三届中国国际供应链促进博览会」开幕式。

7月31日:中国国家网信办、工信部及国安部联合约谈英伟达中国,要求其 72 小时内提交 H20 芯片的完整技术说明,质疑其可能存在后门、远程终止开关或监控软件。🔗链接

8月6日:英伟达发布中英文声明,称经三家独立实验室检测,H20 芯片不存在上述安全隐患。🔗链接

8月8日:美国商务部 BIS 签发首批 20 张 H20 对华出口许可证。许可证有效期 12 个月,允许分批出货。根据许可条款,英伟达需将 H20 在华销售收入的 15 % 上缴美国财政部。




Image

> “未来中国可以没有英伟达,但是英伟达不能没有中国。”

7 月 16 日

Runway

Act-Two 高精度运动捕捉模型

Act-Two 是 Runway 推出的新一代运动捕捉模型,仅需一段表演视频和一张角色参考图,即可实现真人动作到多风格角色的高保真迁移。该模型新增手势驱动角色肢体动作,同时支持为静态图像自动添加环境动态效果,显著提升画面真实感。

在性能方面,Act-Two 重点优化了动作流畅度与自然度,尤其在面部表情、头部转向、上半身姿态及手部动作的捕捉精度上表现突出,整体效果远超前代 Act-One。

使用入口:前往 Runway 官网体验(app.runwayml.com)。

权威信源:https://help.runwayml.com/hc/en-us/articles/42311337895827-Creating-with-Act-Two




Image

> “实测下来,比 Act-One 动作模仿更加细腻,多了很多原模型忽略的细节动作 👍”

Lightricks

LTXV 实时视频生成模型,支持生成 60 秒原生长视频(开源)

LTXV 是 Lightricks 推出的实时视频生成模型,其核心突破在于支持生成长达 60 秒的原生长视频。该模型采用流式架构设计,能够即时输出首帧内容,并连续渲染后续画面,实现视频流的实时生成。这一技术为 AR 实时交互、游戏动态过场等场景提供了高效解决方案。

此外,LTXV 兼容姿态、深度等控制模块,并依托 Lightricks 独有的 IC-LoRA 基础设施,可近乎实时地联动动作捕捉与视频生成

使用入口:开源;前往 HugingFace 获取模型(huggingface.co/Lightricks/LTX-Video);前往 Github 获取代码(github.com/Lightricks/LTX-Video);前往 LTX Studio 官网体验(app.ltx.studio)。

权威信源:https://x.com/LTX_Video/status/1945465837294440532




Image

> “确实可以生成 60 秒的视频,但是内容同质化严重,像是为了长而长 🙅‍♀️”

Anthropic

Claude for Financial Services 金融行业数据分析方案

Claude for Financial Services 是 Anthropic 专为金融领域打造的数据分析解决方案。该产品通过整合权威市场数据与企业内部信息,为从业人员提供精准、透明的分析支持。

Anthropic 表示,其数据源覆盖 S&P Global、FactSet、PitchBook 及 Morningstar 等顶级机构,同时支持对接 Databricks 和 Snowflake 等企业数据平台。系统可自动交叉验证多源信息,显著降低数据误差。所有分析结论均附带溯源超链接,确保结果可追溯且客观可靠。

使用入口:前往 Claude for Financial Services 官网体验(anthropic.com/solutions/financial-services);或者前往 AWS Marketplace 进行企业采购。

权威信源:https://www.anthropic.com/news/claude-for-financial-services




Image

> “Anthropic 开始往垂直 Agent 领域进行尝试。先通用,再垂直。”

Minimax

MiniMax Agent 推出全栈开发功能

Minimax Agent 产品推出了全栈开发功能,用户只需一句自然语言指令,就可以生成功能复杂的全栈网站应用,并且支持 Supabase 后端托管、Stripe 支付功能和 cron job 定时任务等高级能力。

它通过模拟 AI 开发团队协作流程,使得非开发者也能轻松构建个性化网站,无需团队协作即可实现 API 调用、实时数据交互、支付系统、用户管理及定时任务等传统开发中的复杂需求。

使用入口:前往 MiniMax Agent 官网体验(agent.minimax.io)。

权威信源:官方介绍 | 赛博禅心




Image

> “Minimax 这个通用 Agent 产品的亮点在于优秀的后端能力,做到不仅仅是个前端 Demo 🥳”

7 月 17 日

Google

AI Mode 集成深度研究和学习功能

AI Mode 本月再次迎来重大升级,全面集成 Google 最新 Gemini 2.5 Pro 模型,并推出多项创新功能。

Deep Research 功能可以在几分钟内自动检索数百个网站,生成结构清晰、引用完整的深度研究报告。此外,AI 驱动的电话呼叫服务已在美国全面开放,可以代为联系本地商家,实现高效沟通。

使用入口:前往 AI Mode 官网体验(search.google/ways-to-search/ai-mode)。

权威信源:https://blog.google/products/search/deep-search-business-calling-google-search | https://blog.google/products/search/ai-mode-updates-back-to-school




Image

桌面端新增文件交互支持,用户可直接上传图片、PDF 或 Google Drive 文件进行提问。此外,全新 Canvas 功能提供动态侧面板支持整合多类型内容,例如用户可以基于课堂笔记等资料快速生成定制化学习指南,实现高效的知识管理。




Image

> “Google 不仅模型出色,产品也是顶级水平 💯”

特工宇宙

观猹,AI 产品的大众点评

观猹是由特工宇宙团队推出的新一代内容社交平台,致力于成为「AI应用的大众点评」,为超级个体们提供一个 Build in Public、发布产品、分享交流的平台

该平台为开发者和爱好者打造了一个开放共生的生态:开发者可以实时分享创新项目,获得用户直接反馈;爱好者则能探索前沿 AI 产品,参与深度讨论。

使用入口:前往 观猹 官网体验(watcha.cn)。

权威信源:官方介绍




Image

> “流量侧还需努力,这样开发者才有动力发布 💪”

Lovable

完成 2 亿美元 A 轮融资,估值达 18 亿美元

Lovable 宣布完成 2 亿美元 A 轮融资,公司估值达到 18 亿美元。本轮融资由 Accel 领投,20VC、byFounders、Creandum 等多家知名机构跟投。新资金将用于推动产品创新,帮助更多非技术背景的用户将创意变为现实。

Lovable 是一家瑞典 AI Coding 初创公司,允许用户通过自然语言对话来构建网站和应用程序。在推出仅 8 个月后,就已经吸引 230 多万活跃用户,年度经常性收入(ARR)达到了 7500 万美元。

权威信源:https://lovable.dev/blog/200m-series-a-fundraise




Image

7 月 18 日

OpenAI

ChatGPT agent 任务处理智能体系统

ChatGPT agent 是 OpenAI 推出的智能任务处理系统,深度融合了其在网页交互信息整合对话智能领域的技术优势,将 ChatGPT 从研究工具转变为能够主动思考和执行复杂任务的行动伙伴

用户通过自然语言指令即可启动任务,系统会自主调用虚拟计算资源完成全流程操作,并输出数据分析幻灯片制作表格等交付物。过程中,用户可随时干预任务进度,修正或终止操作。

使用入口:前往 ChatGPT 官网体验(chatgpt.com),在对话框中选择 Agent 模式激活。

权威信源:https://openai.com/index/introducing-chatgpt-agent | 赛博禅心




Image

> “通用 Agent 基本模式,已经演变为每项任务启动一台虚拟机 🖥”

Upstage AI

Solar Pro 2 韩语增强的混合推理模型

Solar Pro 2 是韩国 Upstage AI 实验室推出的首款推理模型,具备思考和标准两种模式,在多语言处理、高级推理及真实世界工具使用方面表现出色;而且 API 定价极具竞争力,显著低于同类推理模型。

该模型参数量为 31B,在韩语任务上的性能超越了许多规模更大的模型,其中思考模式在 Ko-Arena-Hard-Auto 等韩语关键基准上可与 GPT-4 和 Claude 3 相媲美,在英语和日语主流基准测试中也表现优异。

使用入口:前往 Upstage AI 官网体验(console.upstage.ai/playground/chat);或者调用 API(console.upstage.ai/docs/getting-started)。

权威信源:https://www.upstage.ai/blog/en/solar-pro-2-launch




Image

Decart AI

MirageLSD 实时交互式视频生成模型

MirageLSD 是全球首个基于实时流扩散技术(LSD)的视频生成模型,能够以低于 40 毫秒的延迟,将普通画面实时转换为奇幻风格,并流畅输出 24 FPS 的无限长度视频。

该模型通过识别用户简单的手势或动作(如拉扯衬衫或挥手),动态调整视频画面中的元素,实现真正的实时交互。这一突破性技术为直播、游戏和创意编程等领域提供了全新的互动体验,重新定义了人机交互的边界。

此外,Decart AI 于8月7日宣布完成 1 亿美元 B 轮融资,公司估值达到 31 亿美元,由红杉资本、Benchmark 等知名机构参投。

使用入口:前往 Decart 官网体验(decart.ai)。

权威信源:http://about.decart.ai/publications/mirage




Image

> “一个实时的 AI 视频滤镜,40 毫秒的延迟已经低于中美之间的通信延迟了,非常夸张 😱”

Anysphere(Cursor)

人才收购初创公司 Koala

Cursor 开发商 Anysphere 通过人才收购的方式,获得了初创公司 Koala 的核心工程团队。交易完成后,Koala 工程师团队将加入 Cursor 并组建一个专门的企业服务团队,以强化 Cursor 企业服务能力,并在 AI Coding 工具市场挑战 GitHub Copilot。

此次交易不包括 Koala 旗舰 CRM 产品,其将逐步结束运营被在今年 9 月份关闭。五个月前,Koala 刚刚完成 1500 万美元的 A 轮融资。

权威信源:https://getkoala.com/blog/a-new-chapter




Image

> “AI Coding 这个领域,还是 B 端才有真正的付费能力 💸”

7 月 19 日

Scenario

PartCrafter 智能部件分割功能,一键生成可编辑 3D 组件

PartCrafter 是 Scenario 最新推出的图像生成功能,能够智能识别输入对象并将其分解为独立可编辑的部件(如手臂、轮子等),并且每个组件都有清晰分割的独立几何形状。它能帮助游戏、动画和设计领域的创作者快速获得可直接使用的模块化 3D 素材,大幅提升工作效率。

该技术源自字节跳动与北京大学 2025 年 6 月开源的图像转 3D 模型,只需单张图片就能生成 2 到 16 个语义明确的 3D 部件,全程无需人工干预。

使用入口:前往 Scenario 官网体验(app.scenario.com);或者调用 API(docs.scenario.com/docs/welcome-to-the-scenario-api);PartCrafter 开源项目主页(wgsxm.github.io/projects/partcrafter)。

权威信源:https://help.scenario.com/en/articles/partcrafter-the-essentials




Image

> “3D 生成的新趋势:生成单个 3D 模型 → 生成多个 3D 零部件 → 最终组成一个 3D 模型”

7 月 21 日

快手

KAT-V1 自动思考大模型,自动切换思考形态

KAT-V1 是快手推出的开源自动思考(AutoThink)模型,融合了思考与非思考能力,可以根据问题难度自主切换思考模式。

该模型包含 40B 和 200B 两个版本,其中 40B 版本在自动思考模式下性能对标 685B 参数的 DeepSeek-R1,而训练中的 200B MoE 版本已在多项测试中超越 Qwen、DeepSeek 和 Llama 等主流开源模型。

使用入口:开源;前往 HugingFace 获取模型(huggingface.co/Kwaipilot/KAT-V1-40B);前往 Kwaipilot 官网体验(kwaipilot.ai)。

权威信源:官方报告




Image

> “如何控制思维链的长度,一直是推理模型的一大工程难点 🚩”

字节跳动

TRAE SOLO 全流程自动化编程智能体

TRAE SOLO 是字节 Trae 推出的智能编程助手,通过精准理解上下文实现端到端的功能交付。其核心理念是,在处理复杂软件开发任务时,完整、精准且结构化的上下文比单纯的代码生成技巧更为关键。

其核心组件 SOLO Builder 能够自主分解复杂任务并制定开发计划,并协同调用文档、集成开发环境、终端及浏览器四大工具,覆盖从需求分析到代码编写、环境搭建及服务部署的全流程

使用入口:前往 Trae SOLO 官网体验(trae.ai/solo)。

权威信源:官方介绍




Image

> “国产 Coding Agent 从功能上也赶上了海外的产品 🎉”

7 月 22 日

字节跳动

Seed GR-3 通用机器人模型 & ByteMini 双臂机器人

Seed GR-3 是一款基于视觉-语言-行动(VLA)框架的通用机器人模型,具备出色的泛化能力与灵巧操作性能。与传统依赖海量轨迹训练的模型不同,它通过融合少量人类遥操作数据及大规模视觉语言数据实现高效训练,并能低成本迁移至新任务。

为匹配 GR-3 的智能系统,团队同步开发了 ByteMini 机器人本体。该机型拥有 22 个自由度,采用独特的球形手腕关节设计,可在狭窄空间完成精细操作。

使用入口:前往查看技术报告(arxiv.org/abs/2507.15493)。

权威信源:https://seed.bytedance.com/GR3 | 官方介绍




Image

腾讯

CodeBuddy 全栈开发 AI IDE

CodeBuddy 是腾讯推出的全栈开发 AI IDE,通过自然语言交互,实现从需求分析、生成产品方案、设计原型、前后端代码开发到部署上线的全流程自动化

其核心模块 CodeBuddy Craft 提供多项高效开发功能:支持多文件代码生成与修改、实时代码续写、在编辑器和终端内进行内联对话,让开发者无需切换窗口就可以直接与 AI 交流,极大提升了编程效率与协作流畅度。

使用入口:前往 CodeBuddy 官网体验(codebuddy.ai)。

权威信源:官方介绍




Image

智源研究院

FlagRelease 大模型自动迁移平台

当前,开源大模型往往仅针对特定闭源芯片进行优化,导致不同硬件生态之间存在严重壁垒。为解决这一问题,智源研究院推出 FlagRelease 平台,能够自动将模型迁移至不同硬件架构,并完成效果评测、部署调优及多芯片版本发布,不再受制于单一硬件厂商。

目前,平台已成功适配 10 种硬件,支持 Qwen、DeepSeek、ERNIE 等 12 个主流开源大模型的跨平台迁移。

使用入口:前往 Hugging Facehuggingface.co/FlagRelease)、魔搭modelscope.cn/organization/FlagRelease)、魔乐modelers.cn/FlagRelease)网站中的 FlagRelease 组织入口,找到适配不同芯片版本的开源模型,下载调用,无需迁移。

权威信源:官方介绍




Image

> “「不再受制于单一硬件厂商」是指谁呢 👀”

7 月 23 日

阿里巴巴

Qwen3-Coder 编程模型刷新开源 SOTA(开源)

Qwen3-Coder 是阿里巴巴推出的新一代智能编程引擎,其旗舰模型 Qwen3-Coder-480B-A35B-Instruct 采用 MoE 架构,总参数 480B,激活参数 35B。

该模型专为大规模代码库分析设计,原生支持 256K 上下文窗口,并可扩展至 1M 长度,在仓库级代码理解Agentic 编程Agentic Browser-Use 及基础编程任务中均刷新了开源模型性能新高。

为提升开发者体验,阿里同步开源了一整套工具链,包括模型专用命令行工具 Qwen Code、VS Code 插件以及阿里云 DashScope API 服务,实现了从模型到工具的全链路支持。

使用入口:开源;前往 HugingFace 获取模型(huggingface.co/Qwen/Qwen3-235B-A22B-Instruct-2507);前往 Github 获取代码(github.com/QwenLM/qwen-code)。

权威信源:官方介绍 | 赛博禅心




Image

> “模型和产品其实不错的,但是被「爆账单」的事情给掩盖了不少光芒😥 算是运营的锅么🍳”

上海科学智能研究院 X 复旦大学 X 无限光年

星河启智科学智能开放平台

星河启智科学智能开放平台,致力于加速科学发现,为全球科学家提供覆盖高价值科学数据、开源科学智能模型、面向科研领域的高效智算、干湿实验闭环、多智能体推理规划及多学科众研的全栈基础设施。

观心大模型是国内首个深耕心血管专科的医疗大模型,也是平台首批入驻项目。在平台支撑下,该模型将复杂临床诊断形式化为模块化、可复用的智能体协作流程,为一线的问诊、诊断和治疗等临床工作提供了强大的智能支持。

权威信源:官方介绍




Image

Neta.art(捏Ta)

Neta Lumina 轻量级动漫文生图模型(开源)

Neta Lumina 是由 Neta.art 实验室开发的轻量级动漫风格文生图模型,专注于插画、海报及角色设计等创作场景,在保持高效生成能力的同时,显著提升了对 Furry、国风、宠物等多样化主题的表现力。

其核心优势在于出色的自然语言理解能力,能够精准解析复杂提示词,并原生支持中、英、日等多语言输入。

使用入口:开源;前往 HugingFace 获取模型与数据集(huggingface.co/neta-art/Neta-Lumina);前往 Playground 体验(huggingface.co/spaces/neta-art/NetaLumina_T2I_Playground)。

权威信源:https://www.neta.art/blog/neta_lumina




Image

BosonAI

Higgs Audio V2 多模态音频模型(开源)

BosonAI(李沐团队)开源的 Higgs Audio V2 是一款支持多模态处理的音频基础模型,实现了文本与音频信息的高效联合处理。在 EmergentTTS-Eval 评测中,其情感表达(Emotions)以 75.7% 胜率显著领先,问答类(Questions)也以 55.7% 胜率超越 gpt-4o-mini-tts。

此外,该模型支持零样本多说话人对话生成用克隆声音进行旋律哼唱语音与背景音乐同步合成等复杂场景,其韵律表现和情感渲染能力优于 ElevenLabs v2 商用方案。

使用入口:开源;前往 HugingFace 获取模型(huggingface.co/bosonai/higgs-audio-v2-generation-3B-base);前往 Github 获取代码(github.com/boson-ai/higgs-audio);前往 Demo 页面体验(huggingface.co/spaces/smola/higgs_audio_v2)。

权威信源:https://boson.ai/blog/higgs-audio-v2




Image

> “实测下来,此模型无需额外提示词指引,可以直接理解文本内容并生成对应情感的配音,效果不错 🏆”

Hedra Labs

Hedra Live Avatars 基于图像的实时交互数字人方案

Hedra Live Avatars 是最新发布的实时交互数字人解决方案。用户只需要上传一张图像,就可以生成逼真或风格化的数字形象,并支持语音驱动的自然对话

该模型的核心优势在于 100 毫秒以内的超低延迟和每分钟 0.05 美元极低成本,价格只有现有解决方案的 1/15。此外,该模型还可以与主流大模型和 TTS 模型无缝集成,便于用户打造高度定制化的数字角色。

使用入口:前往 Hedra Realtime Avatars 官网体验(hedra.com/realtime)。

权威信源:https://x.com/hedra_labs/status/1947711893574967587




Image

> “简单的说,就是可以和 AI 虚拟人物面对面的打视频了 ❗❗❗”

零一万物

万智平台发布企业级 Agent 智能体解决方案

万智平台是零一万物打造的企业级大模型一站式服务平台,最新推出的 Agent 智能体解决方案致力于为企业定制高效智能的「超级员工」。该方案凭借其深度业务场景融合能力复杂任务规划能力,实现了从「交付服务」到「交付结果」的价值升级。

企业级 Agent 智能体可在安全的沙盒环境中运行,依托 MCP 协议无缝接入手机、Web 应用及各类企业服务系统,高效完成编程、数据分析、内部系统操作等综合性任务。

使用入口:前往官网申请体验(b.01.ai)。

权威信源:官方介绍




Image

AdventureX 2025

全球黑客松(第二届)在杭州举办

AdventureX 全球黑客松是由青年发起的国际性赛事,以 120 小时极限开发为核心特色,为参赛者提供无限资源支持及免费食宿保障,鼓励全球青年通过技术与创意进行创新。

本届活动于7月23日至27日在中国杭州举办,围绕重新发明创造、科技向善、何以为人、超级缝合怪、脑洞大开和游戏化等六大主题赛道,要求团队在限定时间内完成从零到一的项目攻坚。活动期间,参与者还可以参加各种工作坊、技术讲座和伍德斯托克音乐节等文化活动。

权威信源:官方介绍 | 活动引发的个人信息保护和数据使用争议 | 官方回应




Image

美国

发布 AI Action Plan,巩固其全球领导地位

美国 Donald Trump 政府发布了 Winning the AI Race: America’s AI Action Plan,能确保美国在全球人工智能竞赛中获胜。

该计划围绕加速创新、建设美国 AI 基础设施及保持国际领导地位三大支柱,提出了一系列关键政策,包括与业界合作向盟友提供全栈式 AI 出口方案、加快数据中心和半导体工厂的建设许可、移除阻碍 AI 发展的联邦法规等内容。此外,计划更新了采购指南,确保政府只与提供客观、无意识形态偏见的前沿大模型的开发者合作。

使用入口:前往 AI.Gov 官网查看详情(ai.gov/action-plan)。

权威信源:https://www.whitehouse.gov/articles/2025/07/white-house-unveils-americas-ai-action-plan | 赛博禅心




Image

7 月 24 日

阿里巴巴

Qwen-MT 高性能多语言机器翻译模型

Qwen-MT 是基于 Qwen3 架构研发的机器翻译专用模型。该模型通过超大规模多语言及翻译数据训练,显著提升了翻译准确性与语言流畅度。

模型核心优势在于广泛的语言覆盖与精细的可控性。模型支持超过 92 种语言及重要方言的高质量互译,覆盖全球 95% 以上人口需求。同时,它提供术语干预、领域提示、记忆库等专业功能,并支持通过自定义提示词实现精细化控制,能够灵活应对各类专业场景的翻译需求。

使用入口:前往 百炼 调用 API(bailian.console.aliyun.com/?tab=model#/model-market/detail/qwen-mt-turbo)。

权威信源:官方介绍




Image

> “阿里对于商业价值比较高的模型,开始渐渐地不开源了 ❗❓”

RWKV

RWKV7-G0 7.2B 纯 RNN 架构推理模型(开源)

RWKV7-G0 7.2B 是一款纯 RNN 架构的开源语言模型,也是迄今为止最强大的纯 RNN 推理模型。该模型基于 RWKV6-World-V3-7.6B 升级而来,通过新增 2T token 的预训练数据(包含大量指令、对话及推理内容),显著提升了基础语言能力和复杂问题解决能力。

测试数据显示,其英语及多语言表现优于同规模开源模型,并在 Uncheatable Eval 评测中取得突破性进展。据团队预测,完成 8T token 完整训练后,模型性能或将超越 Llama3 8B。

使用入口:开源;前往 HugingFace 获取模型(huggingface.co/BlinkDL/rwkv7-g1/tree/main)。

权威信源:官方介绍




Image

Higgsfield AI

Higgsfield Steal 图像复刻浏览器插件

Higgsfield Steal 是 Higgsfield AI 推出的图像复刻功能,能够复刻网络上任何图片的风格、构图和氛围,实现对任意视觉内容的一键式即时再创作。

为方便用户使用,团队推出了同一功能的 Chrome 浏览器插件。用户在浏览网页时,只需在任意图片上点击该插件按钮,就可以直接生成一张与原图高度相似图像,而且还这支持个性化调整。

使用入口:前往 Higgsfield 官网下载浏览器插件(higgsfield.ai/steal-chrome-extension)。

权威信源:https://x.com/higgsfield_ai/status/1948067020588921115




Image

> “本质上是一个图片提示词反推工具”

字节跳动

Seed LiveInterpret 2.0 端到端低延迟同声传译模型

Seed LiveInterpret 2.0 是字节跳动发布的端到端中英语音同声传译模型,能够实时接收源语言语音同步输出目标语言翻译,延迟仅 2 至 3 秒,准确率接近人类专业水平。

该模型还具备零样本声音复刻功能,可实时提取说话人音色特征,并以其原声音色输出翻译结果,大幅提升听觉自然度。

据悉,Ola Friend 耳机将于 8 月底首批集成该技术,成为首款支持实时音色克隆同传的智能硬件设备。

使用入口:前往 火山引擎 调用 API(console.volcengine.com/ark/region:ark+cn-beijing/experience/voice?type=SI)。

权威信源:官方介绍




Image

Microsoft

GitHub Spark 全栈应用开发工具

GitHub Spark 是 GitHub Copilot 推出的全栈应用开发工具,能够通过自然语言描述,自动化处理前端与后端开发、数据管理、LLM 推理以及应用部署等全流程,将想法快速转化为功能完整的应用程序。

用户可通过自然语言指令、可视化编辑或 Copilot 代码补全灵活调整应用,并一键完成部署。部署后,Spark 会自动生成代码仓库,集成 GitHub Actions 和 Dependabot,确保代码同步更新。

使用入口:前往 GitHub Spark 官网体验(github.com/features/spark)。

权威信源:https://github.blog/changelog/2025-07-23-github-spark-in-public-preview-for-copilot-pro-subscribers




Image

> “全栈开发能力,逐渐成为 AI Coding 工具的标配。”

像素绽放

完成 B3 轮战略融资

像素绽放(PixelBloom)完成 B3 轮战略融资。本轮融资由亦庄国投领投,国科投资、英诺天使基金等机构跟投。融资将精准服务于两大核心战略:一是加速旗下产品 AiPPT.com 的全球化布局,二是全力扩展其独特的 AI Venture Studio 模式

AI Venture Studio 模式能系统性地进行创意孵化、团队组建和技术研发,并将成功的项目分拆为独立公司。其长远目标是打造覆盖知识工作者全流程的「下一代AI办公工作站」AiPPT.com 只是该模式下孵化的第一个爆款产品。

权威信源:官方介绍




Image

> “AI PPT 下一步,是不是 AI Excel 或 AI Word 呢 ❓”

7 月 25 日

上海人工智能实验室

Intern-Discovery 书生科学发现平台

Intern-Discovery 书生科学发现平台以「书生」通专融合基础大模型为核心,整合科学数据、智能体、算力及实验设备资源,为科研人员提供从假设生成到实验验证的全流程支持。

同时,平台内置低代码开发环境,用户可通过拖拽组件快速构建并共享科学智能体,推动科研工具的标准化与普惠化进程。

使用入口:前往申请体验(aicarrier.feishu.cn/share/base/form/shrcngFNOyh39UtEILODs7CJHfh)。

权威信源:官方介绍




Image

> “垂直数据 + 垂直工具 = 垂直 Agent”

群核科技

InteriorGS 适用于智能体自由运动的大规模 3D 数据集(开源)

InteriorGS 数据集是群核科技开源的一个高质量 3D 高斯语义数据集,能够提升智能体的空间感知能力。该数据集包含 1000 个 3D 高斯语义场景,涵盖超过 80 种室内环境,为智能体提供「空间大脑」,帮助其在复杂环境中进行环境理解和交互。

InteriorGS 数据集首次将 3D 高斯溅射技术引入 AI 空间训练领域,利用其在场景重建上的效率和成本优势,结合自研的空间大模型能力,实现了真实感与语义理解的融合

全球首个适用于智能体自由运动的大规模 3D 数据集

使用入口:开源;前往 HugingFace 获取模型(huggingface.co/datasets/spatialverse/InteriorGS);前往 Github 获取代码(github.com/manycore-research/InteriorGS)。

权威信源:官方介绍




Image

> “感觉可以很快应用在扫地机器人上 🤖”

上海人工智能实验室

Intern-Robotics 一脑多形的具身智能全栈引擎

Intern-Robotics 书生具身智能全栈引擎,首创「一脑多形」技术框架,仅需训练单一模型即可适配 10 种以上机器人形态(包括机械狗、人形机器人等),统一实现导航、精细操作与运动控制等关键能力。

为加速行业落地,上海人工智能实验室同步发起「具身智能光合计划」,目前已联合智元机器人、宇树科技、银河通用等 15 家合作伙伴,共同构建机器人开发生态。

使用入口:开源;前往 HugingFace 获取模型(huggingface.co/InternRobotics);前往 Github 获取代码(github.com/InternRobotics)。

权威信源:https://internrobotics.shlab.org.cn | 官方介绍




Image

Google

Opal 基于自然语言开发 Mini 应用

Opal 是 Google Labs 推出的一款创新性开发工具,让用户使用自然能语言就可以快速构建迷你应用。它能够将用户的文字输入自动转换为多步骤可视化工作流,显著降低了原型设计、概念验证和定制化应用的开发难度。

该工具的亮点在于其交互的灵活性。用户既可通过自然语言指令调整工作流,也能直接拖拽模块进行修改。完成创建后,用户可将应用作为独立单元分享,其他人只需登录 Google 账户即可体验。

使用入口:前往 Opal 官网体验(opal.withgoogle.com)。

权威信源:https://developers.googleblog.com/en/introducing-opal




Image

> “用自然语言创建和编辑工作流,国内产品可以开始学起来了 🍺”

Anysphere(Cursor)

Bugbot AI 代码审查工具

Bugbot 是 Cursor 推出的智能代码审查系统,能自动检测 GitHub 拉取请求中隐蔽的逻辑错误。它融合了多种前沿模型与自研技术,结合 Cursor 强大的代码库理解能力,显著提升了问题检测的准确性。

开发者收到 Bugbot 在 GitHub 中的评论后,可以一键跳转至 Cursor IDE 直接修复,或者启动一个后台智能体来自动处理,极大简化了问题解决流程。

此外,Bugbot 支持通过自定义规则满足团队个性化需求。用户可定义编程标准、强制执行最佳实践,或设置项目特定规范,确保代码质量与团队规范高度一致。

使用入口:前往 Cursor Bugbot 页面了解详情(cursor.com/bugbot);提供 14 天的免费试用。

权威信源:https://cursor.com/bugbot




Image

> “以前是 AI Coding+人Review,现在可以 AI Coding+AI Review,闭环了 💫”

财联社 X 阶跃星辰

财跃星辰「AI小财神」上线金融深度研究Pro

财跃星辰由财联社阶跃星辰联合成立,旗下产品「AI小财神」本次推出 深度研究Pro 功能,面向金融领域进行深度研究和研报写作

在性能表现上,深度研究Pro的研报质量接近人类专家水平。根据金融研报评测基准 FinResearchBench 显示,其综合评分位居国内第一、全球前三;在 GitHub 公开榜单 FinGAIA 中同样位列国内榜首。

权威信源:https://cashcat.cn/?mode=DeepResearch | 官方介绍




Image

7 月 26 日

上海创智学院 X 无问芯穹

Megrez2.0 终端本征大模型(开源)

Megrez2.0(无穹天权)终端本征大模型以仅 3B 的实际计算量,媲美 21B 稠密模型的智能水平,同时内存占用与 7B 模型的 INT4 量化版本相当(小于 4GB),因此能广泛适配各类终端设备。

在性能方面,该模型实现了三重突破:同内存下推理速度提升 50%,同尺寸下精度提升 20%,同精度下内存节省 60%,有效解决了终端设备在「能效 - 空间 - 智能」上的固有难题

此外,模型通过精巧的工程设计,可让 AI PC 等终端设备在休眠状态下自动调用闲置硬件完成任务,进一步提升了设备的能效表现与实用性。

使用入口:开源;前往 HugingFace 获取模型(huggingface.co/sii-research/InnoMegrez2-Preview);前往 Github 获取代码(github.com/sii-research/InnoMegrez2)。

权威信源:官方介绍




Image

上海创智学院 X 华东师范大学

启创•InnoSpark 1.0 教育专用大模型(开源)

启创·InnoSpark 1.0 是一款专注于教育领域的开源大模型,由上海创智学院与华东师范大学联合研发。该模型专注于知识点解析与教案生成等核心教学任务,并能通过开放式问题与真实情境任务的设计,提升学生的创新思维与个性化学习能力。

此外,模型在训练中融入了中华优秀传统文化与社会主义核心价值观,确保教学内容的正向引导。据悉,模型完成备案后于今年 9 月正式对外开放服务。

使用入口:开源;前往 HugingFace 获取模型(huggingface.co/collections/sii-research/innospark-687c9533a8ca0fb33ef57e5a);前往 启创•InnoSpark 1.0 官网体验(beta.aiecnu.cn)。

权威信源:官方介绍




Image

阶跃星辰

Step-Audio 2 理解/推理/生成三合一的端到端语音模型

Step-Audio 2 是阶跃星辰推出的第二代端到端语音大模型,首次通过统一架构实现了语音理解、逻辑推理与内容生成的完整闭环。

该模型重点提升了细腻语境的捕捉能力,优化副语言信息(如语调、情感、背景音)识别效果;同时通过多模态 RAG 技术引入外部知识,显著降低了生成内容的幻觉现象。这为语音领域的两大技术难题提供了有效解决方案。

使用入口:前往 阶跃App 体验。

权威信源:https://github.com/stepfun-ai/Step-Audio2 | 官方介绍




Image

> “看了演示视频,真人感很强,反应迅速,有跟真人聊天的感觉了 💬”

Runway

Runway Aleph 自然语言智能视频编辑系统

Runway Aleph 是新一代基于上下文的视频生成与编辑模型,能够通过自然语言指令实现多样化的视频操作,不仅能对现有视频进行精细化编辑(如添加、移除或替换物体,调整环境、光照和季节等),还能改变演员的外貌与年龄,展现出了强大的语义理解能力。

Aleph 强大之处在于深度上下文感知,支持多任务协同处理。此外,Aleph 提供专业级绿幕抠像功能,可精确分离主体并输出带透明通道的素材,极大简化了后期合成流程。

使用入口:前往 Runway 官网体验(app.runwayml.com);或者调用 API(docs.dev.runwayml.com)。

权威信源:https://runwayml.com/research/introducing-runway-aleph




Image

> “自然语言的视频编辑,会是视频模型的新标配功能 🎥”

京东

JoyAgent 端到端企业级通用智能体(开源)

JoyAgent 是业界首个完整开源的企业级通用多智能体产品,涵盖前端、后端、框架及核心子智能体,支持本地独立部署与开箱即用。

与其他仅开源框架或 SDK 的方案不同,JoyAgent 提供端到端轻量化解决方案,用户可直接调用智能体响应查询并交付成果。该产品经过京东内部超 2 万次智能体实践验证,兼具成熟性与扩展性,为多智能体技术落地提供了高效参考。

使用入口:开源;前往 Github 获取代码(github.com/jd-opensource/joyagent-jdgenie)。

权威信源:官方介绍




Image

世界人工智能大会 WAIC 2025

暨人工智能全球治理高级别会议在上海成功举行

7月26日至28日,2025 世界人工智能大会暨人工智能全球治理高级别会议在上海成功举行,国务院总理李强出席大会开幕式并致辞。此次大会取得四方面积极成果:

  • 一是阐明中方推进人工智能发展和治理的主张。李强总理在致辞中提出三点建议,即更加注重人工智能的普及普惠,更加注重创新合作,更加注重共同治理。
  • 二是发表《人工智能全球治理行动计划》。《行动计划》在广泛吸收各国有益经验基础上,提出 13 项切实可行的具体行动。
  • 三是倡议成立世界人工智能合作组织。中方初步考虑将总部设在上海,发挥上海的人工智能先发优势,凝聚共识、促进合作。
  • 四是搭建产学研交流与成果共享的合作平台。本次大会汇聚了来自 70 多个国家和地区的 800 多家人工智能企业,展出 3000 余项前沿技术成果,展示了从底层技术到产业应用的人工智能完整生态链条。

权威信源:https://www.worldaic.com.cn | 官方报道




Image

> “由于李强总理的出现,这一届的票被黄牛炒到了原价的几倍 🔥”

7 月 27 日

上海人工智能实验室

Intern-S1 多模态科研大模型(开源)

Intern-S1 是书生系列一款开源多模态大模型,其自研的跨模态科学解析引擎,能精准解读化学分子式、蛋白质结构、地震波等复杂科学数据,首次将专业科学能力融入多模态架构。

在性能方面,Intern-S1 在化学、材料、地球科学等专业任务基准上超越了顶尖闭源模型 Grok-4,同时在多模态综合能力评测中也全面领先 InternVL3、Qwen2.5-VL 等主流开源模型。

基于这一技术突破,上海人工智能实验室联合多所顶尖研究机构,构建了多智能体虚拟疾病学家系统元生(OriGene),成功在肝癌和结直肠癌研究中发现新靶点,并通过了真实临床样本和动物实验验证,形成了科研闭环。

使用入口:开源;前往 HugingFace 获取模型(huggingface.co/internlm/Intern-S1-FP8);前往 Github 获取代码(github.com/InternLM/Intern-S1);前往 Demo 页面体验(chat.intern-ai.org.cn)。

权威信源:官方介绍




Image

> “书生系列在科研方向发力,和 Qwen 系列开始有差异化 🔬”

腾讯

混元 3D 1.0 可交互 3D 世界生成模型(开源)

混元 3D 世界生成模型 1.0 支持沉浸式漫游与实时交互,它通过文字或图片就可以快速构建完整 3D 场景。它融合全景视觉生成与分层 3D 重建技术,在场景美学质量和指令响应速度上均超越主流开源方案。

该模型可在 5 分钟内生成包含建筑、地形、植被的虚拟环境,并兼容 Vision Pro 等头显设备,实现无缝沉浸体验。它不仅能帮助游戏开发者简化 3D 场景搭建流程,快速进行原型设计,也能让无建模经验的普通用户轻松创作 360° 沉浸式视觉空间。

使用入口:开源;前往 HugingFace 获取模型(huggingface.co/tencent/HunyuanWorld-1);前往 Github 获取代码(github.com/Tencent-Hunyuan/HunyuanWorld-1.0);前往 混元3D 官网体验(3d.hunyuan.tencent.com/sceneTo3D)。

权威信源:https://3d-models.hunyuan.tencent.com/world | 官方介绍




Image

> “之前是生成一个物体,现在是生成 N 个物体组成一个场景 🧩”

阿里巴巴

夸克 AI 眼镜,融合阿里生态的自研旗舰硬件

夸克 AI 眼镜是阿里巴巴推出的首款自研旗舰 AI 硬件,深度整合了阿里及支付宝生态的核心能力。该产品搭载通义千问大模型与夸克最新 AI 技术,提供高德实时导航、支付宝声纹支付、淘宝智能比价等一站式生活服务。

其独创的 Master Agent 中控系统能精准解析用户需求,同时依托百亿级图像检索技术实现了高效的视觉问答功能。

权威信源:官方介绍




Image

7 月 28 日

智谱

GLM-4.5 推理/编程/智能体三合一模型(开源)

智谱 GLM-4.5 是新一代旗舰基础模型,首次在单个模型中实现了推理、编程和智能体能力的原生融合。该系列采用 MoE 架构,其中 GLM-4.5 总参数量达 355B,激活参数为 32B ;轻量版 GLM-4.5-Air 总参数量为 106B,激活参数为 12B,兼顾性能与效率。

在性能方面,GLM-4.5 表现卓越,于 12 项综合基准评测中位列全球第三,同时斩获国产模型与开源模型双料第一。其代码能力尤为突出,在 SWE-bench Verified 榜单上以超高参数效率占据性能与参数比的帕累托前沿。

使用入口:开源;前往 HugingFace 获取模型(huggingface.co/collections/zai-org/glm-45-687c621d34bda8c9e4bf503b);前往 Github 获取代码(github.com/zai-org/GLM-4.5);前往 智谱Z.ai 官网体验(z.ai);或者调用 API(BigModel.cn)。

权威信源:https://z.ai/blog/glm-4.5 | 官方介绍




Image

> “GLM-4.5 的发布,让国产模型彻底占领了开源榜单 🏆”

阿里巴巴

通义万相 Wan2.2 视频生成模型(开源)

通义万相 Wan2.2 是一款开源视频生成模型,能够生成具备复杂运动效果和高清画质的专业级视频内容。该模型引入了电影美学控制系统,用户可以通过关键词精细调节画面光影、色彩及构图,显著提升视频的艺术表现力。

此次开源包含三款模型:文生视频模型图生视频模型以及一个 5B 参数的轻量级统一视频生成模型。其中,5B 模型经过专项优化,可在消费级显卡(如 RTX 4090)上高效运行,支持 24 fps 的 720P 高清视频生成。

使用入口:开源;前往 HugingFace 获取模型(huggingface.co/Wan-AI);前往 Github 获取代码(github.com/Wan-Video/Wan2.2);前往 Wan 官方体验(wan.video);或者前往 通义万相 官网体验(tongyi.aliyun.com/wanxiang/generate)。

权威信源:官方介绍




Image

> “视频模型也开始玩 MoE 了 🔥”

字节跳动

扣子(Coze)开源核心引擎(开源)

扣子(Coze)宣布开源其核心项目 Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)。

Coze Studio 是一站式 AI Agent 可视化开发工具,此次开源了其核心引擎,包括一个完整的工作流(Workflow)引擎、一个插件(Plugin)核心框架以及一个开箱即用的开发环境。

Coze Loop 则聚焦 Agent 从开发到运维的全生命周期管理,其开源功能包括强大的 Prompt 开发套件和多维度自动化评测能力。

使用入口:开源;前往 Github 查看 Coze Studio 项目(github.com/coze-dev/coze-studio);前往 Github 查看 Coze Loop 项目(github.com/coze-dev/coze-loop)。

权威信源:官方介绍 | 赛博禅心




Image

> “虽然被吐槽开源的不够彻底,但是其核心源码已经相当有价值了 👍”

金山

WPS 灵犀原生 Office 办公智能体

WPS 灵犀是 WPS AI 的 3.0 版本,以自然语言交互为核心,用户通过多轮对话即可在 WPS 应用内直接完成文档创作、演示文稿生成等任务,无需复杂操作或跳转外部工具。

其创新之处在于「文档创作」与「AI助理」同屏协作模式,以及灵犀语音助手的电话交互功能,丰富了内容编辑形式。

同步推出的 WPS 知识库功能,可以把碎片化的 Office 文档一键整合为结构化知识库,帮助用户高效检索和处理海量信息。

使用入口:前往 WPS AI 官网体验(ai.wps.cn)。

权威信源:官方介绍




Image

E2B

完成 2100 万美元 A 轮融资

E2B 宣布完成 2100 万美元 A 轮融资。本轮融资由 Insight Partners 领投,Decibel、Sunflower Capital 与 Kaya 跟投,Docker 前首席执行官 Scott Johnston 等天使投资人也参与其中。本轮资金将用于加速构建生产级工具套件,推动企业级 AI 智能体工作流的规模化落地。

E2B 通过为智能体提供即时启动、安全且可扩展的专用云环境,解决了企业在自动化过程中面临的基础设施瓶颈,使智能体能无缝执行复杂多步骤任务。当前,该平台已被 88% 的财富 100 强企业采用。

权威信源:https://e2b.dev/blog/series-a




Image

> “乘着 Manus 的东风,虚拟机成为了通用 Agent 的必备基建 🎯”

7 月 29 日

Microsoft

Edge 浏览器推出 Copilot 模式

Edge 浏览器推出了全新的 Copilot 模式,将 Copilot 助手深度整合至浏览器核心。用户开启 Copilot 模式后,可以享受多项 AI 增强功能。

其中,多标签页 RAG 技术允许 Copilot 综合分析所有已打开标签页的内容,并提供智能问答或摘要服务。此外,在用户授权前提下,Copilot 还能调用浏览器历史记录和保存的凭据,实现诸如餐厅自动预订等复杂任务。

使用入口:前往 Microsoft Copilot Mode 官网了解详情(microsoft.com/en-us/edge/launch/copilot-mode)。

权威信源:https://www.microsoft.com/en-us/edge/ai-powered/copilot-mode




Image

> “AI 公司做 AI 浏览器。传统公司在浏览器加上 AI 功能。大家更看好哪条路呢 ❓”

7 月 30 日

昆仑万维

Skywork UniPic 多模态统一预训练模型(开源)

Skywork UniPic 是昆仑万维推出的开源多模态统一预训练模型,以仅 1.5B 的紧凑参数量,深度融合了图像理解、文生图以及图像编辑三大核心能力

在权威评测中,其指令遵循能力(GenEval)和复杂指令生图性能(DPG-Bench)均达到 SOTA 水平,图像编辑能力也稳居统一模型前列。

使用入口:开源;前往 HugingFace 获取模型(huggingface.co/Skywork/Skywork-UniPic-1.5B);前往 Github 获取代码(github.com/SkyworkAI/UniPic)。

权威信源:官方介绍




Image

> “又一个中国版的 gpt-image-1,优势是模型特别小,只有 1.5B 💡”

Luma AI

Modify with Instructions 自然语言指令驱动的视频编辑功能

Modify with Instructions 是 Luma 在 Dream Machine 中推出的视频编辑功能。用户只需选择视频中的任意关键帧并输入描述性指令,系统就可以智能理解意图,并将修改无缝应用到整个视频片段,同时确保动作流畅连贯。

这项功能覆盖了多种复杂场景,包括对象移除、场景扩展、虚拟天气模拟、产品植入以及材质替换等,大幅降低了专业级视频特效的制作门槛。

使用入口:前往 Luma AI 官网体验(lumalabs.ai/dream-machine)。

权威信源:https://lumalabs.ai/blog/news/modify-with-instructions




Image

> “Runway 有的功能,Luma 必须也有”

OpenAI

ChatGPT 上线互动学习模式

ChatGPT 上线学习模式,通过互动引导提升学习效果。在该模式下,系统不再直接给出答案,而是采用启发式提问、分步提示和自我反思等方式,鼓励用户主动思考并逐步解决问题。

在此过程中,ChatGPT 会根据用户的问题和历史对话评估其技能水平,并动态调整引导策略。此外,该模式还支持阶段性测验,以验证用户对知识的掌握程度。

使用入口:前往 ChatGPT 官网体验(chatgpt.com)。

权威信源:https://openai.com/index/chatgpt-study-mode




Image

> “提示词也可以达到差不多的效果 👩‍🏫”

Google

NotebookLM 视频概览生成幻灯片摘要

NotebookLM 最新推出了 Video Overviews(视频概览)功能,可以根据用户的源文档自动制作一段音频解说,还会从文档中智能提取相关的图像、图表、关键引文和数据,并将其整合到幻灯片中。这种形式在解释数据、演示流程以及将抽象概念具体化方面尤其有效。

目前,NotebookLM Studio 输出面板支持创建音频概览、视频概览、思维导图和报告的四个选项。

使用入口:前往 NotebookLM 官网体验(notebooklm.google)。

权威信源:https://blog.google/technology/google-labs/notebooklm-video-overviews-studio-upgrades




Image

7 月 31 日

Google

Gemini Deep Think 高阶数学推理模型(IMO 金牌)

Deep Think 是 Gemini 系列的高阶数学推理模型,具备端到端输出严谨证明的能力,擅长解决科学、编程及迭代设计等复杂任务,刷新了 LiveCodeBench V6 和 HLE 等基准的 SOTA 表现。

其核心创新在于「并行思考」机制,同步探索多种解决方案并整合最优结果,而非依赖单一思维链。这使得模型在延长推理时间时,解题深度与创造力持续提升。

在 2025 年 IMO 竞赛中,Deep Think 以自然语言在 4.5 小时内完成全部六道难题,获得 35/42 分的金牌成绩,展现了与人类顶尖数学选手相当的推理能力

使用入口:即将面向 Google AI Ultra 订阅者全面上线。

权威信源:https://deepmind.google/discover/blog/advanced-version-of-gemini-with-deep-think-officially-achieves-gold-medal-standard-at-the-international-mathematical-olympiad | https://blog.google/products/gemini/gemini-2-5-deep-think




Image

阶跃星辰

Step 3 多模态推理模型(开源)

Step 3 是阶跃星辰新一代基础大模型,采用 MoE 架构,总参数量为 321B,激活参数量 38B,具备强大的视觉感知与复杂推理能力。

通过架构优化,模型显著提升了推理效率,在国产芯片上的性能可达 DeepSeek-R1 的 300%,同时在英伟达 Hopper 架构芯片的分布式推理中,吞吐量较 DeepSeek-R1 提升 70% 以上。

为促进技术生态发展,阶跃星辰联合华为昇腾、壁仞科技、沐曦等近 10 家芯片厂商成立「模芯生态创新联盟」,推动芯片、模型与平台的全链路协同创新。此外,模型开源包已集成面向 AFD 场景的 StepMesh 通信库。

使用入口:开源;前往 HugingFace 获取模型(huggingface.co/stepfun-ai/step3);前往 Github 获取代码(github.com/stepfun-ai/Step3);前往 阶跃AI 官网体验(stepfun.com);或者调用 API(platform.stepfun.com)。

权威信源:https://www.stepfun.com/research/zh/step3 | 官方介绍 | 赛博禅心




Image

> “算是第一个国产的开源多模态推理大模型 🥇”

小红书

dots.ocr 多语言文档解析模型(开源)

dots.ocr 是小红书推出的开源文档布局解析模型,在单一模型中统一了布局检测与内容识别功能,并且支持通过提示词切换任务。此外,它尤其擅长小语种解析,有效填补了开源社区在多语言文档处理领域的技术空白。

该模型基于 1.7B 视觉语言模型(VLM)构建,尽管模型体积小巧,但在 OmniDocBench 基准测试中,文本、表格和阅读顺序三项任务均达到业界最优水平公式识别能力媲美豆包-1.5 和 Gemini 2.5 Pro 等大尺寸模型。

使用入口:开源;前往 HugingFace 获取模型(huggingface.co/rednote-hilab/dots.ocr);前往 Github 获取代码(github.com/rednote-hilab/dots.ocr);前往 Demo 页面体验(dotsocr.xiaohongshu.com)。

权威信源:官方介绍




Image

> “实测效果确实 SOTA,小红书还真有东西 🍠”

阿里巴巴

Qwen-0527 继续发布 235B、30B、4B 系列模型(开源)

随着 Qwen3 旗舰模型的推出,阿里巴巴在 7 月底更新了 3 款同系列模型的思考版本与非思考版本,包括:

  • 235B:Qwen3-235B-A22B-Instruct-2507 🔗链接 和 Qwen3-235B-A22B-Thinking-2507 🔗链接
  • 30B:Qwen3-30B-A3B-Instruct-2507 🔗链接 和 Qwen3-30B-A3B-Thinking-2507 🔗链接
  • 4B:Qwen3-4B-Instruct-2507 和 Qwen3-4B-Thinking-2507 🔗链接

使用入口:开源;前往 HugingFace 获取模型(huggingface.co/Qwen);前往 QwenChat 官网体验(chat.qwen.ai)。




Image

> “把原来的混合推理模型拆开了。也就是未来的混合推理不是靠模型内部,而是靠路由 🧐”

Black Forest Labs X Krea AI

FLUX.1 Krea [dev] 高真实感文生图模型(开源)

FLUX.1 Krea [dev] 是 Black Forest Labs 与 Krea AI 联合开发的开源文生图模型,基于 FLUX.1 架构打造,专注于克服当前 AI 图像普遍存在的「AI 感」和过饱和问题,能够生成具有自然细节、独特美学和出色真实感的照片级图像

在人类偏好评估中,其表现优于以往的开源模型,并与闭源解决方案 FLUX.1 [pro] 不相上下。此外,它完全兼容 FLUX.1 [dev] 生态系统,可作为下游应用定制化的基础模型,兼具灵活性与高性能。

使用入口:开源;前往 HugingFace 获取模型(huggingface.co/black-forest-labs/FLUX.1-Krea-dev);前往 Github 获取代码(github.com/black-forest-labs/flux)。

权威信源:https://bfl.ai/announcements/flux-1-krea-dev | https://www.krea.ai/apps/image/flux-krea




Image

> “在图像模型领域,美学风格也是很重要的差异性 👑”

Ideogram

Ideogram Character 单张参考图的角色一致性模型

Ideogram Character 是一款图像生成模型,只需要单张参考图像就可以实现角色一致性。用户只需上传一张人物照片,该模型就能生成该角色在不同风格、表情、场景和光照条件下的无限变体,同时保持极高的形象一致性。

该模型已与 Ideogram 平台的其他功能深度整合,衍生出了丰富且高效的创作工作流。比如,用户可以利用魔法填充(Magic Fill)功能,将自己的角色无缝添加到任何现有场景中;也可以结合重混(Remix)与描述(Describe)功能,将任意图像的艺术风格迁移到自己的角色身上。

使用入口:前往 Ideogram 官网体验(ideogram.ai/t/explore);或者调用 API(developer.ideogram.ai)。

权威信源:https://about.ideogram.ai/character




Image

> “有点像换脸,电商行业的刚需 🎯”

Genspark

AI Slides 2.0 演示文稿生成工具,提供数百套模板

AI Slides 2.0 是 Genspark 推出的演示文稿生成工具,提供了数百个完全免费的幻灯片模板,并支持类似 PowerPoint 的高级手动编辑功能,用户可对 AI 生成的初稿进行精细化调整与美化。

此外,工具引入了深度思考机制,通过逐步分析、结构化研究与内容优化,确保输出内容的专业性与深度。

使用入口:前往 Genspark 官网体验(genspark.ai/agents?type=slides_agent)。

权威信源:https://x.com/genspark_ai/status/1950894445362331676




Image

> “又回归了「套模板」这种最原始的方式。看来靠 HTML 生成的「PPT」,无法绕过二次编辑这个槛 🤔”

Manus

Wide Research 数百个项目并行研究系统

Wide Research 为单用户提供了超算级的大规模任务处理能力,能够高效分析数百个项目信息,将原本依赖大型计算集群的复杂运算简化为轻量级操作。

与传统多智能体系统不同,Wide Research 每个子智能体均为功能完备的通用型 Manus 实例。这一设计突破了预定义角色(如经理、程序员)的协作限制,赋予系统极高的灵活性和适应性。用户无需受限于固定格式或特定领域,即可轻松开展深度、大规模的研究任务。

使用入口:前往 Manus 官网体验(manus.im)。

权威信源:https://manus.im/blog/introducing-wide-research




Image

> “从串行架构到并行架构,是 Agent 发展的必然。可是在 2025 年这个时间点,成本能 Hold 住么?”

Neo AI

NEO 机器学习工程师智能体

NEO 是全球首位机器学习工程师智能体,由 11 个专业子智能体协同驱动,完整覆盖从数据探索、特征工程到模型训练、调优及部署监控的全流程。

在 MLE Bench 基准测试中,NEO 参与 75 场真实 Kaggle 竞赛并以 34.2% 的奖牌率显著领先 Microsoft RD Agent 等行业标杆,展现强大的实战能力。

使用入口:前往 Neo AI 官网申请内测(heyneo.so/waitlist)。

权威信源:https://heyneo.so/blog




Image

> “本质就是一个垂直编程领域的 Agent,适用用户比较窄 ”

Jenova

MCP 生态多工具智能协作平台

Jenova 是 MCP 生态首个专注于多工具智能协作的 AI 应用。它通过连接远程 MCP 服务器,集成邮件发送、日历管理、文档编辑等多样化功能,实现一站式任务处理。平台提供了丰富的预集成服务器资源,涵盖 Google 等官方服务及 Klavis AI 等优质第三方服务。

其核心优势在于高效管理数百个工具的同时保持性能稳定,彻底解决传统系统的工具过载问题,并支持跨多台 MCP 服务器的复杂长期工作流。

使用入口:前往 Jenova 官网体验(jenova.ai)。

权威信源:https://www.jenova.ai/zh/mcp/jenova-the-first-ai-agent-built-for-mcp




Image

Figma

成功上市,首日股价飙升 250%

Figma 于纽约证券交易所正式挂牌上市(股票代码:FIG),以每股 33 美元的发行价开启交易后,股价迅速攀升至 85 美元,盘中最高触及 115.50 美元,首日涨幅达 250%!

这一强劲表现推动其市值跃升至 563 亿至 676 亿美元区间,成为近期美股市场中表现最亮眼的 IPO 之一。尽管后续交易日内股价出现波动,但截至 8 月 12 日,其股价仍稳定在 87 美元左右,较发行价保持显著优势。

作为全球领先的设计协作平台,Figma 通过整合 AI 技术持续优化产品功能,覆盖从创意设计到原型开发的全流程

权威信源:https://www.figma.com/blog/ipo-pricing




Image

说明


AI 前线

人物一致性新王 Nano Banana 登基,AI 图片编辑史诗级升级。

2025-12-23 22:20:56

AI 前线

【第 3546 期】如何让 CKEditor 缩小 40% 的:一次深入的包体积优化探索

2025-12-23 22:23:46

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索