-
41 个榜单 SOTA!智谱最新开源 GLM-4.5V 实测:看图猜地址、视频秒变代码
文章详细介绍了智谱最新开源的 GLM-4.5V 多模态视觉推理模型,该模型基于 GLM-4.5 基座,并在 42 个公开榜单中 41 项夺得 SOTA,成为 100B 级别最强开源多模态模型。文章通过 GeoGuessr 看图猜地址、清明上河图 Grounding、视频转前端代码、空间关系理解、UI 转 Code、图像识别和物体计数等多个实测案例,全面展示了 GLM-4.5V 在图像、视频和文档理…- 0
- 0
-
90 天定律:从落后到突围,国产 AI 的崛起周期|赛博月刊 2507
本月刊深入剖析了 2025 年 6 月全球 AI 行业的关键动态,通过“90 天定律”的视角,指出海外顶尖模型发布放缓,为国产模型提供了宝贵的追赶窗口期,并引发了开源技术狂潮。文章详细梳理了模型、图像、视频、音频、3D、机器人和应用等多个 AI 子领域的最新进展,强调了中国公司在多模态模型、图像编辑、视频生成、音频合成以及 AI 编程工具等方面的显著突破和领先态势,尤其是在 Sora 和 GPT-…- 3
- 0
-
社区供稿丨 MiniCPM-V 4.5 技术报告正式出炉
面壁智能的 MiniCPM-V 4.5 是一款 8B 参数的多模态大模型,其技术报告深入探讨了解决多模态大模型训练和推理效率瓶颈的三大核心技术。首先,文章介绍了统一的 3D-Resampler 架构,通过时空联合压缩实现高达 96 倍的视频视觉 Token 压缩率,显著提升视频理解效率和性能。其次,提出面向文档的统一 OCR 和知识学习范式,通过控制文字可见度扰动,将 OCR 和知识学习融合,摆脱…- 0
- 0
-
ICCV 2025 | 清华&腾讯混元 X 发现「视觉头」机制:仅 5%注意力头负责多模态视觉理解 | 机器之心
本文由清华大学与腾讯混元 X 组共同提出,深入探讨了多模态大模型在视觉理解中的内部机制。研究发现,在多模态训练后,仅有不到 5%的注意力头(称为“视觉头”)专注于视觉内容理解,而绝大多数注意力头仍主要处理文本信息,揭示了“视觉头稀疏性”现象。基于此洞察,文章提出了 SparseMM 方法,通过一种创新的三段式 KV-Cache 分配策略,优先为关键视觉头分配更多缓存资源,以应对多模态模型中视觉 T…- 0
- 0
-
Step-3 发布:包括发布会上没说的,都在这了
文章深入解读了最新发布的 Step-3 多模态推理模型,该模型定位为“最强开源多模态推理模型”。其核心亮点在于采用 MoE 架构(321B 总参,38B 激活)并实现了 Sota 级别的性能,尤其在 MMMU 和 AIME2025 榜单上表现突出。文章详细阐述了 Step-3 通过 AFD 分布式推理系统和 MFA 注意力机制两大核心创新,显著降低了推理成本,实现了在国产芯片上高达 DeepSee…- 0
- 0
-
本地也能玩转 AI 图片创作?腾讯 3B 开源模型实测:精准又轻便,统一生成理解,手把手教你部署
文章详细介绍了腾讯 BAC 团队最新开源的小尺寸多模态大模型 TBAC-UniImage-3B。该模型在 TIIF-Bench 测试中表现卓越,文生图长指令理解和跟随得分远超同类竞品。文章通过丰富的场景测试,包括杂志配图、科学场景、IP 设计、绘本插画和艺术创作等,全面展示了 UniImage-3B 强大的图像生成能力。此外,还重点测试了其在风格迁移、图文理解(前景/背景元素识别、细节把握)和图片…- 0
- 0
-
从「对口型」到「会表演」,刚进化的可灵 AI 数字人,技术公开了 | 机器之心
文章详细介绍了快手可灵团队最新发布的数字人技术 Kling-Avatar,该技术旨在将数字人从简单的语音对口型提升到能够根据用户意图进行生动表演的水平。Kling-Avatar 的核心是一个由多模态大语言模型赋能的两阶段生成框架。首先,一个多模态导演模块(MLLM Director)将音频、图像和文本提示整合为结构化的故事线,生成一段全局一致的蓝图视频。其次,基于蓝图视频的关键帧,系统采用并行合成…- 0
- 0
-
阿里国际 Ovis2 系列模型开源:多模态大语言模型的新突破
阿里国际化团队开源了 Ovis2 系列多模态大语言模型。Ovis2 通过创新的架构,实现了视觉和文本嵌入的结构化对齐,解决了传统多模态模型中模态间嵌入策略差异的问题。文章详细阐述了 Ovis2 的模型架构,包括视觉 tokenizer、视觉嵌入表和 LLM 三个关键组件,以及采用了包括预训练、视觉理解增强、指令对齐和偏好学习在内的四阶段训练策略。Ovis2 还引入了视频和多图像处理能力,并通过创新…- 0
- 0
-
Qwen2.5-VL-32B: 更聪明、更轻量!
文章介绍了阿里云通义千问团队新推出的开源多模态模型 Qwen2.5-VL-32B-Instruct。该模型在 Qwen2.5-VL 系列的基础上,通过强化学习,在回复的详细程度、格式规范性、数学问题准确性和图像内容识别与逻辑推理能力方面有显著提升。在性能方面,Qwen2.5-VL-32B-Instruct 在多模态任务中超越了同规模的 Mistral-Small-3.1-24B 和 Gemma-3…- 0
- 0
多模态模型
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
-
✈优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!




