-
一文读懂|DeepSeek 除夕发布新模型,多模态大一统的革命来了?
文章深入解读了 DeepSeek 最新发布的开源多模态模型 Janus-Pro。该模型创新性地采用双编码器架构,分别负责图像理解和生成,突破了传统大一统模型的性能瓶颈。文章详细分析了 Janus-Pro 的架构设计和**三阶段创新训练方法**,包括锁参数训练适配器、弃用 ImageNet 拥抱真实数据、以及优化数据配比等关键策略。评测结果显示,Janus-Pro-7B 在多模态理解和图像生成基准测…- 0
- 0
-
102. 和张祥雨聊,多模态研究的挣扎史和未来两年的 2 个“GPT-4 时刻”
本期播客由李广密对话阶跃星辰首席科学家张祥雨,深度剖析多模态人工智能的十年发展与未来趋势。张祥雨分享了个人在深度学习、模型 scaling 等方面的学术经历,并着重探讨了当前大型语言模型(LLM)在训练中遇到的“怪现象”:通用能力增强的同时,推理(特别是数学)能力反而可能下降。他分析了这与 Next Token Prediction 范式的本质缺陷相关,并介绍了 O 系列模型如何通过引入思维链(C…- 0
- 0
-
AI「视觉图灵」时代来了!字节 OmniHuman,一张图配上音频,就能直接生成视频
文章介绍了字节跳动数字人团队推出的 OmniHuman 技术方案,该方案基于单张图片和音频生成高质量的人像动画视频。OmniHuman 采用多模态混合训练策略(Omni-Conditions Training),结合扩散 Transformer 架构,能够处理不同人物占比、图片尺寸及风格的输入,并生成自然度高、动作匹配精准的视频内容。相比现有方法,OmniHuman 解决了高质量数据稀缺的问题,克…- 0
- 0
-
MiniMax 创始人闫俊杰×罗永浩!大山并非无法翻越
本期《罗永浩的十字路口》邀请 MiniMax 创始人闫俊杰,分享其 AI 创业历程与对技术变革的深刻洞察。对话涵盖 MiniMax 在多模态 AI (语音、视频、文本、音乐) 领域的国际领先地位,分析中国 AI 创业公司在人才和创新机制驱动下,如何以较少资源取得与国际巨头媲美的成果。闫俊杰详细阐述了 AI 模型研发的"第一性原理"方法论,以及多模态融合实现 AGI 的愿景。同时…- 0
- 0
-
拯救 P 图废柴,阿里上新多模态模型 Qwen-VLo!人人免费可玩
文章介绍了阿里新发布的多模态模型 Qwen-VLo,该模型在图像理解和生成能力上有显著提升,支持多种图像编辑功能,如风格替换、素材增删和添加文字等。Qwen-VLo 采用独特的渐进式生成方式,从上到下逐步构建图像并优化细节,确保最终结果和谐一致。模型支持任意分辨率和长宽比,并具备增强的细节捕捉能力。文章通过多个实测案例展示了模型的能力,包括连续生成、图像编辑和文本识别等,同时也揭示了模型对流行文化…- 0
- 0
-
k1.5 新模型登场:Kimi 如何做到满血版多模态 o1 水平(附技术报告)
文章介绍了 Kimi 推出的全新多模态模型 k1.5,该模型在短链思维(short-CoT)和长链思维(long-CoT)模式下均表现出色,尤其在数学、代码和视觉推理任务中大幅领先现有 SOTA 模型如 GPT-4o 和 Claude 3.5 Sonnet。k1.5 的核心优势在于其强化学习框架,包括长上下文扩展、改进的策略优化方法以及简洁高效的训练设计。此外,Kimi 技术团队首次公开了详细的训…- 0
- 0
-
Google 的 Nano Banana 如何实现突破性的角色一致性
本文重点介绍了 Google 的 Nicole Brichtova 和 Hansa Srinivasan 的一次讨论,内容富有洞察力。他们是 Nano Banana 图像模型背后的产品和工程负责人。他们详细介绍了如何实现前所未有的角色一致性。这一关键特性得益于 Gemini 的多模态架构、广泛的高质量数据和严格的人工评估。讨论还阐明了战略性的 “Gemini 产品体系”,其中像 Nano Bana…- 0
- 0
-
开源!强效果,高性能,严隐私?我全都要:OPPO 终端大模型实践
文章详细介绍了 OPPO AI 中心推出的开源端侧多模态大模型 AndesVL。该模型旨在解决当前端侧多模态大模型面临的性能不足、能力有限及适配性差等问题,以满足 AI 手机对高性能、强隐私和低延迟的需求。AndesVL 系列模型包含 0.6B 至 4B 四档尺寸,具备 SOTA 水平的通用多模态理解推理能力,并针对手机端侧的多语言和 GUI 理解进行了专项优化。文章深入阐述了 AndesVL 的…- 0
- 0
-
SigLIP 2:更优的多语言视觉语言编码器
本文介绍了 Google 发布的 SigLIP 2,这是一种新型多语言视觉语言编码器。SigLIP 2 通过扩展 SigLIP 的训练目标,增加了额外的目标,包括 Sigmoid 损失(一种损失函数)、全局-局部损失和掩码预测损失,以改进语义理解、精确定位和密集特征。SigLIP 2 模型在所有模型规模上都优于旧的 SigLIP 模型,包括零样本分类、图像文本检索以及视觉语言模型(VLM)的视觉表…- 0
- 0
-
Gemini 2.5:引领视频理解新纪元
Google 的 Gemini 2.5 Pro 和 Flash 在视频理解方面取得了显著进展。它们不仅实现了最先进的性能,还超越了 GPT 4.1 等现有模型。Gemini 2.5 是一种原生多模态模型,能够无缝集成音视频信息与代码。这为互动应用、内容创作等领域开启了新的可能性,并能有效提高学习效率和用户参与度。Gemini 2.5 Pro 可以将视频转换为互动学习应用,并使用 p5.js 从视频…- 0
- 0
-
智能的未来 | 戴密斯·哈萨比斯(DeepMind 联合创始人兼首席执行官)
在这篇深度访谈中,戴密斯·哈萨比斯 回顾了 DeepMind 的进展,强调了实现通用人工智能(AGI)需要对模型扩展和科学创新进行双重关注。他重点介绍了像 Gemini 3 这样的最新进展,这是一种能够处理各种数据类型的多模态人工智能模型,以及“世界模型”在使人工智能理解超越语言的时空动态方面的重要性。哈萨比斯 谈到了当前人工智能中“参差不齐的智能”现象,即模型在复杂任务中表现出色,但在更简单的任…- 0
- 0
-
Nano Banana 核心团队:图像生成质量几乎到顶了,下一步是让模型读懂用户的 intention
文章深入访谈了 Google Gemini 2.5 Flash 图像模型(昵称 Nano Banana)核心团队研究员 Nicole Brichtova 和 Oliver Wang。团队指出,当前图像生成质量已接近顶峰,未来的核心挑战在于提升模型对用户意图的理解能力,并将其从创意工具转变为信息查询工具。他们强调,将大型语言模型(LLM)的“世界知识”融入图像模型至关重要,能使其处理更复杂的需求。文…- 0
- 0
-
Gemma 3 介绍:可在单 GPU 或 TPU 上运行的最具能力的模型
谷歌 DeepMind 推出 Gemma 3,这是基于 Gemini 2.0 构建的最新开放模型,它不仅为超过 140 种语言提供多语言支持,更提升了性能。Gemma 3 具备强大的多模态能力,可以分析图像、文本和短视频;同时,它还配备了扩展的 128k-token 上下文窗口,并支持函数调用以实现任务自动化。Gemma 3 性能卓越,超越 Llama-405B 等模型,且可在单个图形处理器或张量…- 0
- 0
-
Gemini 2.0 现已向所有人开放
文章详细介绍了谷歌深思发布的 Gemini 2.0 模型系列,重点讨论了其性能、可用性和应用场景。更新后的 Gemini 2.0 Flash 已通过 API 和平台(如谷歌 AI 工作室 和 Vertex AI)正式上线,面向开发者提供可扩展、高性能的任务支持,特别是需要多模态推理的任务。此外,还推出了实验版本的 Gemini 2.0 Pro,针对编码和复杂推理进行了优化,具有 2 百万上下文窗口…- 0
- 0
-
GLM-4.6V 开源:从看懂图片到自动完成任务
智谱发布并开源 GLM-4.6V 系列多模态大模型,包括高性能云端版(106B)和轻量级本地版(9B)。该系列模型将上下文窗口提升至 128k tokens,在视觉理解精度上达到同参数规模 SOTA。核心创新是将 Function Call 能力原生融入视觉模型架构,打通从“视觉感知”到“可执行行动”的链路,为多模态 Agent 提供统一技术底座。文章详细介绍了 GLM-4.6V 在智能图文创作、…- 0
- 0
多模态AI
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
-
✈优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!











