今日开源(2026-1-30):阿里千问 Qwen3-ASR 开源,AuT 编码器赋能 52 语种识别,非自回归对齐精度超越传统模型

文章精选并简要介绍了六个最新的开源 AI 项目,展示了人工智能在多个维度的突破。核心内容包括:阿里开源的 Qwen3-ASR 语音识别系列,支持 52 种语言并引入高精度非自回归对齐技术;UnifoLM-VLA-0 具身智能模型,通过整合空间细节提升机器人的物理常识;MOVA 基础模型解决了视频生成中的音画同步难题。此外,文章还涵盖了 LingBot-VA 机器人控制模型、SenseNova-MARS 多模态搜索框架以及 LLM-in-Sandbox 代码沙盒工具,为开发者提供了丰富的技术资源索引。


原创 每日发现最新LLM 2026-01-30 18:30 中国香港

今日开源(2026-1-30):阿里千问 Qwen3-ASR 开源,AuT 编码器赋能 52 语种识别,非自回归对齐精度超越传统模型

开源自动语音识别(ASR)模型系列Qwen3-ASR,视觉-语言-动作(VLA)大模型UnifoLM-VLA-0,基础模型MOVA,因果视频动作世界模型LingBot-VA,多模态Agent推理和搜索框架SenseNova-MARS,大语言模型在代码沙盒中进行探索的项目LLM-in-Sandbox

今日开源(2026-1-30):阿里千问 Qwen3-ASR 开源,AuT 编码器赋能 52 语种识别,非自回归对齐精度超越传统模型

🏆基座模型

①项目:Qwen3-ASR

今日开源(2026-1-30):阿里千问 Qwen3-ASR 开源,AuT 编码器赋能 52 语种识别,非自回归对齐精度超越传统模型

★Qwen3-ASR是由阿里云的Qwen团队开发的开源自动语音识别(ASR)模型系列。该项目支持稳定的多语言语音、音乐和歌曲识别,语言检测以及时间戳预测。Qwen3-ASR系列包括两个强大的全能语音识别模型,支持52种语言和方言的识别,以及一种新颖的非自回归语音强制对齐模型,能够在11种语言中对文本和语音对进行对齐。

☆一键收藏:

https://sota.jiqizhixin.com/project/qwen3-asr

②项目:UnifoLM-VLA-0

今日开源(2026-1-30):阿里千问 Qwen3-ASR 开源,AuT 编码器赋能 52 语种识别,非自回归对齐精度超越传统模型

★UnifoLM-VLA-0是UnifoLM系列中的一个视觉-语言-动作(VLA)大模型,专为通用人形机器人操控设计。该模型通过在机器人操控数据上的持续预训练,从传统的视觉-语言理解进化为具备物理常识的“具身大脑”。它深度整合了文本指令与2D/3D空间细节,显著增强了空间感知和几何理解能力,并在多样化的操控任务中表现出强大的泛化能力。

☆一键收藏:

https://sota.jiqizhixin.com/project/unifolm-vla

③项目:MOVA

今日开源(2026-1-30):阿里千问 Qwen3-ASR 开源,AuT 编码器赋能 52 语种识别,非自回归对齐精度超越传统模型

★MOVA(MOSS Video and Audio)是一个基础模型,旨在打破开源视频生成的“无声时代”。与传统的级联管道不同,MOVA能够同时合成视频和音频,实现完美的同步。该项目完全开源,提供模型权重、推理代码、训练管道和LoRA微调脚本。MOVA采用不对称双塔架构,通过双向交叉注意力机制实现丰富的模态交互。

☆一键收藏:

https://sota.jiqizhixin.com/project/mova

④项目:LingBot-VA

今日开源(2026-1-30):阿里千问 Qwen3-ASR 开源,AuT 编码器赋能 52 语种识别,非自回归对齐精度超越传统模型

★LingBot-VA是一个因果视频动作世界模型,旨在实现通用机器人控制。该项目通过自回归视频动作建模框架,将视觉动态预测和动作推理在一个交错序列中统一,同时保持其概念上的区别。其高效执行得益于双流变换器混合架构,支持异步执行和键值缓存。LingBot-VA在样本效率、长期成功率和新场景的泛化能力上表现出显著提升。

☆一键收藏:

https://sota.jiqizhixin.com/project/lingbot-va

🛠️ 框架平台、必备工具

①项目:SenseNova-MARS

今日开源(2026-1-30):阿里千问 Qwen3-ASR 开源,AuT 编码器赋能 52 语种识别,非自回归对齐精度超越传统模型

★SenseNova-MARS是一个创新的多模态Agent推理和搜索框架,通过强化学习赋予视觉语言模型(VLMs)交错的视觉推理和工具使用能力。该项目动态集成了图像搜索、文本搜索和图像裁剪工具,以应对细粒度和知识密集型的视觉理解挑战。SenseNova-MARS引入了HR-MMSearch基准,这是第一个由高分辨率图像和搜索驱动问题组成的搜索导向基准。实验表明,SenseNova-MARS在开源搜索和细粒度图像理解基准上实现了最先进的性能。

☆一键收藏:

https://sota.jiqizhixin.com/project/sensenova-mars

②项目:LLM-in-Sandbox

今日开源(2026-1-30):阿里千问 Qwen3-ASR 开源,AuT 编码器赋能 52 语种识别,非自回归对齐精度超越传统模型

★LLM-in-Sandbox是一个允许大语言模型(LLM)在代码沙盒(即虚拟计算机)中进行探索的项目,旨在激发通用Agent智能。该项目支持多种LLM提供商,包括OpenAI、Anthropic和自托管服务器(如vLLM、SGLang等),并提供灵活的输入输出功能。用户可以通过Docker容器实现隔离的执行环境,适用于科学推理、长文本理解、视频制作、旅行规划等多种任务。

☆一键收藏:

https://sota.jiqizhixin.com/project/llm-in-sandbox

今日开源(2026-1-30):阿里千问 Qwen3-ASR 开源,AuT 编码器赋能 52 语种识别,非自回归对齐精度超越传统模型

今日开源(2026-1-30):阿里千问 Qwen3-ASR 开源,AuT 编码器赋能 52 语种识别,非自回归对齐精度超越传统模型

阅读原文

跳转微信打开

AI 前线

OpenAI 关键九问:2026 AI 战局升级后迎来叙事反转

2026-1-31 18:06:24

AI 前线

Vidu Q3 登顶中国 AI 视频新王者,一句话生成 16 秒音视频,音效惊艳

2026-1-31 18:06:31

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索