Google 的 Nano Banana 如何实现突破性的角色一致性




内容概要

产品和工程负责人 Nicole Brichtova 和 Hansa Srinivasan 与主持人一起,共同探讨了谷歌全球知名图像模型 Nano Banana 的创作历程。她们深入剖析了模型实现突破性角色一致性背后的故事、Gemini 的多模态设计,以及人类评估在其中扮演的关键角色。此外,对话还涵盖了视觉 AI 的未来,以及用户创造力正如何推动该技术在个性化故事叙述、专业设计等领域不断演进。


目录

  • 介绍与预告

  • 欢迎 Nicole 和 Hansa

  • 创意社区的用途与“破解”模型

  • “灵光一现”时刻:实现个人角色一致性

  • 如何实现角色一致性

  • 人工和定性评估的关键作用

  • 技术突破:数据、多模态与“匠心”

  • 产品哲学:从以消费者为中心到涌现能力

  • “家族图谱”:Gemini 与专用模型

  • “Nano Banana”名称的快乐巧合

  • 未来:提升易用性与新的产品 UI

  • 下一个竞争战场:UI 与“任意到任意”模型

  • 创新步伐与使用 SynthID 应对深度伪造

  • 未来一到三年:个性化学习与赋能工作流

  • 初创企业的机会:工作流与应用层

  • 视觉叙事的“情感力量”


介绍与预告

视觉媒体总是能让人感到兴奋,它很有趣。但它不仅限于乐趣,它还直观、易懂。视觉是我们人类体验生活的很大一部分。

我很高兴看到它如此打动人心。我们现在正在让人们能讲述以前无法讲述的故事。这就像是在捕捉人们的想象力。你给了他们工具,让他们能把自己脑海中的东西,用视觉化的方式呈现在纸面上,这是他们以前做不到的。

因为他们没有工具,或者不知道如何使用工具,所以这真的很棒。


欢迎 Nicole 和 Hansa

主持人: 今天,我们请到了 Nicole Brichtova 和 Hansa Srinivasan,她们是谷歌 Nano Banana 图像模型背后的团队。这个模型最初只是一个凌晨 2 点的代码名,如今已成为一种文化现象。她们将带我们了解实现单张图像角色一致性的技术飞跃,以及高质量数据、长多模态上下文窗口 (long multimodal context windows) 和严格的人工评估 (human evals) 是如何帮助模型从单张照片实现可靠的角色一致性的,还有为什么“匠心” (craft) 和基础设施与规模 (scale) 同样重要。

我们讨论了在推动前沿技术与实现广泛可及性之间的权衡,以及这项技术的发展方向:多模态创作、个性化学习,以及结合了精细控制和自动化操作的专用用户界面 (UIs)。最后,我们将谈到实现真正的 AGI(通用人工智能)还缺少什么,以及初创企业现在应该在哪些空白领域进行建设。

请欣赏本期节目。Nicole 和 Hansa,非常感谢你们今天的加入。我们非常高兴能在这里多聊一聊 Nano Banana,它已经风靡全球了。我们想从一个有趣的问题开始:你们自己用 Nano Banana 创造了哪些个人作品?或者你们从社区中看到了哪些最有创意的东西?


创意社区的用途与“破解”模型

Nicole: 对我来说,我看到的令人兴奋的事情之一是——我之前没想到,但事后看来很明显——人们将它与视频模型结合使用,以实现跨场景的角色和场景一致性。

主持人: 目前这个工作流程的流畅度如何?实现起来有多大难度?

Nicole: 我看到人们正在混合使用这些工具,使用来自不同来源的视频模型,所以我认为它可能还不是很流畅。我知道有些产品正试图集成多个模型,以使流程更顺畅。但我认为,在 Nano Banana 发布前后,我看到的视频效果差异非常显著。

现在的视频要流畅得多,更接近视频创作过程中想要的效果,场景剪辑也感觉很自然。所以这很酷。我也不知道为什么我当初没有完全意识到人们会立刻这么做。

Hansa: 我最喜欢的一个意想不到的用法是,人们如何“破解” (hack) 这个模型,用它来学习新事物或消化信息。我上周遇到了一个人,他一直在用这个模型为各种主题创作“速写笔记” (sketch notes)。这很令人惊讶,因为文本渲染 (text rendering) 还没有达到我们想要的水平。但这个人通过非常复杂的提示词 (prompts) 绕过了这些限制,让模型输出了连贯的内容。

他用这种方法来尝试理解他父亲的工作,他父亲是一所大学的化学家,研究的是一个超级专业的课题。于是,他把父亲的讲座内容输入到带有 Nano Banana 功能的 Gemini 中,然后得到了这些非常连贯且视觉上易于理解的速写笔记。这好像是几十年来,他们父子第一次能够就父亲的工作进行对话。这真的很有趣,也是我没预料到的。

我认为人们真的在想办法解决模型的局限性。这个模型很棒,但显然它并不完美,我们还有很多需要改进的地方。令我惊讶的是,人们找到了我们没有预料到的方式来使用模型,以我们没有预料到的方式给模型提供输入,从而发挥出最佳性能,解锁了这些令人惊叹的用途。


“灵光一现”时刻:实现个人角色一致性

主持人: 你们在开发过程中,是否有过某个“灵光一现” (aha moment) 的时刻,让你们觉得“哇,这东西会非常棒”?

Hansa: 我们刚讨论过这个。

是的,我想 Nicole 有过她的灵光一现时刻。我也有一次……我们内部总会有一个演示 (demo),在开发模型时去试用它们。有一次,我用了一张自己的照片,然后输入提示词:“嘿,让盛装打扮的我走上红毯。”这完全是个满足虚荣心的提示词。

结果,生成的图像看起来就像我。然后我把它和我们以前所有的模型做了比较,没有一个模型生成的图像像我。我当时超级兴奋。

哇。然后其他人看了看,觉得:“好吧,我们明白了,你就是出现在了红毯上。”但又花了几周时间,其他人也开始用自己的照片试玩,才逐渐意识到当它真的起作用时是多么神奇。

这其实也是人们使用这个模型的主要方式,对吧?比如把自己变成一个 3D 玩偶,你想要一个玩具盒,然后把你自己的形象做成玩偶,放进去三次。这种能够表达自我、看到不同自我的方式,几乎像是在强化自己的身份认同,这真的很有趣。对我来说,那一刻就是“哦,天哪,这太棒了”的时刻。

主持人: Nano Banana 生成的“你走在红毯上”的图片,究竟在哪方面远胜于其他模型?

Hansa: 它看起来像我。这一点非常重要。

你很难判断一个模型对你不认识的人的“角色一致性”做得好不好。

所以,如果我看到一个 AI 生成的你,我可能觉得还行,但你可能会说:“哦不,我脸上的某些部分不太对。”你真的只能对自己做这种判断。这就是为什么我们现在会让团队的许多成员用他们自己的脸来进行评估 (evals),他们会看模型用他们自己的脸生成的输出,因为这真的是唯一能判断它是否像你、像你熟悉的面孔的方法。

当我们开始用自己做测试时,情况就不一样了。我看 Nicole 看得很多,所以看 Nicole 的图像和看我们评估时用的随机路人的图像,在判断模型能力方面有非常大的区别。是的,我认为这很有趣。保持身份的一致性对于这些模型变得实用和令人兴奋至关重要,但这一点却出奇地棘手。这就是为什么我们看到很多其他模型没有完全做到这一点。


如何实现角色一致性

主持人: 我正想问这个。我猜角色一致性 (character consistency) 不仅仅是规模 (scale) 带来的涌现特性。所以,也许有两个问题:第一,我知道有些内容你们不能透露,但关于如何实现这一点,你们能分享些什么?第二,这在开发模型之初就是一个明确的目标吗?

Nicole: 是的,我想肯定有些事情不方便细说,但我想说,在图像生成领域,有几种不同的技术流派,这绝对对最终效果有影响。

我得说这从一开始就是个明确的目标。这绝对是目标,因为我们知道这是我们过去发布的模型所欠缺的。

总的来说,“一致性” (consistency) 对我们就是一个目标,因为每次你编辑图像时,你总是希望保留某些部分,同时改变另一些部分。以前的模型在这方面做得不好。这使得它在专业工作流程中不太实用,同样,对于角色一致性这样的需求也不实用。

多年来,我们一直从广告商那里听到这种需求,他们试图在生活场景中推广他们的产品,图片必须 100% 看起来像他们的产品,否则就不能用在广告里。

所以我们知道需求是存在的,也知道模型有差距。我们觉得我们有了正确的“配方”,无论是在模型架构还是数据方面,终于可以实现它了。但我想,当我们最终构建出这个模型时,它所展现出的出色效果还是让我们感到惊讶。

Hansa: 是的。就像 Nicole 说的,我们觉得我们有了配方,但在你真正看到训练完成的模型并实际使用它之前,你永远不知道你离目标有多近。我想我们都对此感到惊讶。

Nicole: 是的。另一件事是,如果我们想想人们对“编辑”的期望,当你在手机应用或 Photoshop 上编辑时,你期望那些你没碰过的地方能高度保持原样。

是的。然而,根据模型的设计方式和背后的决策,这其实非常棘手,但人们又非常需要这个功能。这就像,它在技术上非常困难,尽管一个普通用户会认为这是编辑功能最基本的要求:不要弄乱我不想让你动的地方。


人工和定性评估的关键作用

主持人: 回到你看到自己走在红毯上的那一刻,“哇,这真是我”,而你的同事们花了几周时间才用自己的照片获得了同样的体验。问题是,除了“嘿,这真是我”这种定性测试之外,你们是否有什么评估标准,可以将其量化,来证明“我们已经实现了我们设定的目标”?

Hansa: 是的,我其实认为,正如 Nicole 所说,面部一致性是相当困难的,其他人很难评估。

但总的来说,我认为我们在图像生成方面发现的一个关键点是:人工评估 (human evals) 非常重要。

我认为这是一个基础……我们有一个团队,专门帮我们构建好的评估工具和实践,让真人去评估那些非常微妙的东西。比如图像生成中的面孔、美学质量,这些都很难量化。

所以,我认为人工评估对我们来说是一个重大的转折点。

Nicole: 我认为这绝对是一个组合拳。有人工评估,有……一个非常技术的术语叫“肉眼评估” (eyeballing),由不同的人来目测模型结果。

此外还有社区测试。当我们进行社区测试时,我们从内部开始,我们有谷歌和 Google DeepMind 的艺术家来试用这些模型。我们的高管也会试用这些模型。

这真的有助于建立起关于“为什么这个模型如此出色”的定性叙述。

因为如果你只看定量基准 (quantitative benchmarks),你可能会说:“哦,它比我们以前的模型好 10%”,但这并不能传达出那种情感层面的东西,比如“哦,我现在能以新的方式看到自己了”,或者“我终于可以修复那张我 5 岁时剪坏的家庭照片了”。

人们真的会这么做。比如,“我能修复它了”。我认为你真的需要那种定性的用户反馈,才能讲述那种情感故事。

这可能适用于许多生成式 AI 和 AI 功能,但我认为它对视觉媒体尤其重要,因为视觉非常主观。相比之下,像数学推理、逻辑推理这样的东西,你可以真正地用一个答案来衡量对错。

因此,你更容易进行那些客观、自动化、定量的评估。


技术突破:数据、多模态与“匠心”

主持人: 仅仅通过一张 2D 图像就能达到如此高水平的角色一致性,真的非常困难。能给我们稍微介绍一下,是哪些技术突破帮助你们实现了这种前所未见的特性吗?

Hansa: 我认为一个关键因素是,拥有能够教会模型“泛化” (generalize) 的优质数据,对吧?而且,这是一个……它基于 Gemini 模型。它是一个多模态 (multimodal) 基础模型,见过了大量数据,具有良好的泛化能力。我认为,这就像是“秘密武器”,对吧?你真的需要一个泛化能力强的模型,才能利用它来实现这个目标。

Nicole: 是的,我认为在 Gemini 这样的模型上做这件事的另一个好处是,你还能得到非常长的上下文窗口 (context window)。所以,是的,你可以提供一张你自己的照片,但你也可以提供多张。然后在输出端,你还可以进行多轮迭代,与模型进行真正的对话,这在以前是不可能的,对吧?

一两年前,我们要在你的 10 张照片上进行“微调” (fine-tuning),而且需要 20 分钟才能得到一张看起来像你的照片。这就是为什么它从未在主流中流行起来,因为它太难了,而且你也没有那么多自己的照片,这工作量太大了。

所以我认为这既得益于 Gemini 变得更好,也得益于多模态上下文窗口,以及它在长对话中保持上下文的能力。

然后,你也受益于对数据的真正关注,专注于解决问题。我们取得的很多进步,都归功于团队里有人对某个问题“着了魔”。比如,我们团队里有人对文本渲染 (text rendering) 非常执着,所以我们的文本渲染效果一直在进步,因为那个人就是对这个问题念念不忘。

Hansa: 是的,这不仅仅是投入大量数据的问题。我认为这一点非常重要……这其中包含着对细节的关注,以及你对模型所做的一切的质量把控。在每一步都有很多微小的设计决策和决策点。

我认为这种对高质量数据和选择的细节导向,是 AI 中“匠心” (craft) 的一部分,我们不常谈论这个,但我认为这超级重要。


产品哲学:从以消费者为中心到涌现能力

主持人: 你们的发布团队有多大?

Nicole: 这需要一个“村庄”的力量。

Hansa: 是的,特别是因为我们在多个产品线上发布。所以,有核心的建模团队,然后还有我们在所有平台上的紧密合作者。把他们都加起来,很容易就有几十甚至上百人。但是,从事模型工作的团队要小得多。

然后,真正让这一切变为现实的……我们有很多基础设施团队,在优化堆栈的每一个部分,以满足我们看到的巨大需求,这真的很棒。但说真的,要发布它,我们开玩笑说这需要一个“小国家”的努力。

主持人: 当你们构建这样的产品时,你们是针对特定的用户画像或特定的用例来构建的吗?还是说你们更多地是以“能力优先”的心态来构建,然后在能力涌现 (emergent capabilities) 之后,再将其映射到用户画像上?

Nicole: 两者兼而有之。我想说,在我们开始训练任何新模型之前,我们对我们希望它具备的能力有大致的设想。还有一些设计决策,比如,它在推理时 (inference time) 的速度有多快?这也会影响你要瞄准的用户画像。

是的。所以这个模型,因为它更像一个“对话式编辑器”,我们希望它反应非常快,因为你不能和一个需要一两分钟才能生成回复的模型进行对话。这是图像模型相比视频模型的好处,你不需要等那么久。

因此,从一开始,我们就觉得这是一个非常以消费者为中心 (consumer-centric) 的模型。但显然,我们也有面向开发者的产品和企业产品,所有这些功能最终也会对他们有用。但说实话,我们这次在消费者方面看到了前所未有的兴奋,这是我们以前的图像模型所没有的。

因为它反应非常快,并且通过文本提示词,让这些“专业级”的功能变得触手可及。

这就是我们开始的方式。但显然,它最终在其他领域也变得很有用。

Hansa: 是的,我认为在理念上有一个不同……以前我们做的是 Imagen 系列模型,它们是纯粹的图像生成。而在这些 Gemini 图像生成模型中,一个重大的理念转变是,“泛化” (generalization) 是一种更基础的能力。

所以,我们一方面希望这个模型擅长于此,比如呈现人物并让他们编辑自己的图像,同时看起来还像他们自己。但另一方面,也有很多能力是“涌现”出来的,它们源于我们“构建一个具备视觉信息推理能力的基础模型”这一目标。

比如,一件让我惊讶的事,呼应你之前的问题,是人们可以输入数学问题,比如一个数学问题的图纸,然后让它渲染出解题过程。你可以输入一个几何问题,然后问:“这个角是多少度?”这就是一个基础模型所涌现的能力,它同时具备了推理能力、数学理解力和视觉理解力。

是的,所以我认为……两者都有。


“家族图谱”:Gemini 与专用模型

主持人: 出于好奇,你们能分享一下吗?我们该如何理解 Gemini 及其“家族图谱”?Gemini 驱动了 Nano Banana、Veo 以及所有这些相邻的产品和模型,它们都受益于 Gemini 的泛化能力和规模。

你们是如何协同开发的?以及接下来你们想把它带向何方?

Nicole: 我们的目标一直是构建一个最强大的单一模型,它能做所有这些事情。你可以输入任何模态 (modality),然后把它转换成任何模态。

这是我们的北极星。显然我们还没到那一步。所以,在实现这个目标的过程中,我们有很多专用模型 (specialized models),它们在特定领域能给你非常好的结果。比如 Imagen 是图像生成的例子,Veo 是视频生成和编辑的例子。

所以,我们一方面在开发这些模型以推动该模态的前沿,你也从中得到了非常有用的输出,对吧?很多电影制作人正在使用 Veo 进行创作。

但同时,你也在学习很多东西,然后你可以把这些经验带回到 Gemini 中,让它也擅长那个模态。图像总是在曲线上稍微领先一点,因为它只有一帧,对吧?它无论是在训练还是推理时都更“便宜”。

所以我认为,你在图像领域看到的很多进展,我预计在 6 到 12 个月后,你也会在视频领域看到。

这一直是我们的目标。所以我们有不同的团队在开发这些模型,然后我认为在图像方面,我们现在正向 Gemini 靠拢,向那个“最强大的单一模型”的愿景迈进。

你也会在其他一些模态上看到这一点。在此过程中,我们会发布那些在该模态下非常强大、非常令人兴奋的体验。比如,V3 非常棒,因为它首次将音频带入了视频生成。G3 非常棒,因为它让你能实时地在一个世界中导航。

为了推动前沿,目前你很难在一个模型里同时做好所有这些事情。

所以在某种程度上,这些专用模型就像是一个试验场。但我预计,随着时间的推移,Gemini 应该能做所有这些事情。

主持人: 哦,这太有趣了。


“Nano Banana”名称的快乐巧合

主持人: 好的,我们必须问问这个名字。

我怀疑这个名字有点……这是一个很棒的产品。我怀疑这个名字给它带来了一点额外的推动力,因为它太好记了,太特别了。所以,这是一个快乐的巧合,还是某位创意天才知道这将是一个完美的名字?

Hansa: 这是一个快乐的巧合。

我想很多人都知道,这个模型是在 Arena(一个模型竞技场)上发布的,很多模型都在那里发布。其中一部分是你要给它起个代号 (code name)。如果有人没用过 Arena,你可以在里面输入提示词,然后会得到两个模型的回复。在它们公开发布之前,它们都只有代号。

我记得当时我们要在凌晨 2 点上线,Nicole 是我们出色的产品经理 (PM),我们还有另一位 PM Nina……有人给她发信息说:“我们该叫它什么?”她当时非常累,筋疲力尽,然后……这就是她在凌晨 2 点灵光一现想出的名字。

Nicole: 这是……不是我。是我们团队里的另一个人给模型命名的,他与我们的另一位 PM 合作。我不能抢功。

但最酷的是,首先,这个名字很有趣。我认为这很有帮助。它容易发音。它还有一个表情符号 (emoji),这对品牌推广至关重要。

她并没有过度思考……她没有。最棒的是,一旦它上线,所有人都接受了这个名字。它让人感觉非常“谷歌” (Googly),非常自然,最终看起来就像一个营销天才的杰作。

但不,这是一个快乐的巧合,它就是这么成了,而且人们很喜欢它。所以我们就顺水推舟,现在你进入 Gemini 应用,到处都能看到香蕉。

我们这么做是因为人们抱怨说,他们进入应用后很难找到这个模型。

Hansa: 所以我们让它变得更容易了。是的。没错。我认为,在公开场合,人们都在说:“Nano Banana,Nano Banana,我怎么用 Nano Banana?”我在谷歌内部甚至有同事问我:“我怎么用 Nano Banana?”我说:“它就在 Gemini 里。你只要让它生成一张图片就行了。”

是的。但我认为这就是重点,谷歌一直以来都有一个非常有趣的品牌形象,对吧?它从一开始就是一家面向消费者的公司。我认为,利用人们对谷歌“有趣、好玩”的印象,这感觉很好。

Nicole: 并且起一个有趣的名字。这也提供了一条很好的路径,让“乐趣”成为通向“实用”的门户。我认为 Nano Banana,以及这个模型本身,和你能用它做的事情,比如把自己P到红毯上,实现所有童年的职业梦想,这是一个非常有趣的切入点。

但我们欣喜地看到,一旦人们进入应用并开始使用 Gemini,他们就会开始用它做其他事情,这些事情在他们的日常生活中变得很有用。比如,你用它来学习、解决数学问题,或者用它来了解其他东西。所以,我认为,有时候“找点乐子”的价值可能被低估了。

不仅是在命名上,也在我们构建的产品上,因为它能吸引人们进来,让他们兴奋,这能帮助他们发现模型在其他方面的出色能力。

Hansa: 是的,我想其他的用户,比如我的父母和他们的朋友也在用。我想就是因为它有这个名声,它很简单,很有趣,让人觉得尝试起来没什么门槛。

然后你试了,你会觉得:“实际上,这个东西用起来很简单。交互起来很容易。”它没有那种……你知道,技术有时候会让人望而生畏,尤其是现在的 AI。

我认为聊天机器人的自然交互方式已经打破了很多障碍,但可能更多的是在年轻人中。

而这种“乐趣”……是的,我妈妈用它制作各种图片,玩得很开心,然后她意识到她可以用它来移除照片背景里的人。

这些都是非常实用的功能,对吧?从一个很傻的起点开始,变得非常实用。然后人们意识到,他们可以用它来生成图表,或者帮助他们理解事物。所以我认为这里面也有一个很大的“易用性” (accessibility) 因素。


未来:提升易用性与新的产品 UI

主持人: 你们想把它带向何方?也许可以从模型方面和产品方面分别谈谈?

Nicole: 在产品方面,我认为有几个领域。在消费者方面,我仍然认为我们在让这些东西变得更易用方面有很长的路要走。

你会注意到,很多 Nano Banana 的提示词长达 100 多个词,人们真的会去复制粘贴它们到 Gemini 应用里,费劲去让它工作,因为回报是值得的。

但我认为我们必须跨过这个针对消费者的“提示词工程” (prompt engineering) 阶段,让事情对他们来说变得非常简单易用。在专业方面,我认为我们需要实现更精确的控制、更强的鲁棒性 (robustness) 和可复现性,使其在实际的专业工作流程中真正有用。

所以,是的,我们在编辑一致性、不改变像素方面做得很好,但我们还没有做到 100%。而当你是专业人士时,你需要做到 100%。你真的需要那种精确的,甚至可能是基于手势的控制,来控制画面中的每一个像素。所以我们肯定需要朝这个方向努力。

然后,还有一个我非常兴奋的大方向,那就是“信息可视化” (visualizing information)。

就像我一开始提到的那个关于“速写笔记”的例子,有人“破解”了 Nano Banana 来实现这个用例,你可以想象一下,未来你能用它做任何事情。很多人都是视觉学习者。

我认为我们还没有真正发掘 LLMs(大语言模型)的潜力,让它们以你最自然的接收方式,来帮你消化和可视化信息。有时候它是一张图表,有时候是一张图片,有时候可能是一段短视频,来帮助你学习生物课上的某个概念。

所以我对这个全新的领域感到非常兴奋。我希望模型能变得更好,能超越现在 95% 的输出都只是文本的阶段。文本虽然有用,但它不是我们现在在现实世界中消费信息的方式。

主持人: 这真的很有趣。那么,在产品方面,你是否在暗示你们可能希望进行垂直整合,围绕它构建更多的产品?同时,你是否也在暗示,随着时间的推移,与这些模型的交互方式可能不仅仅是通过纯粹的语言和提示词,而是更多地通过 UI(用户界面)?

Nicole: 是的。我绝对认为聊天机器人是人们的一个简单入口,因为你不需要学习新的 UI,你只要和它对话,说出你想做的任何事情。

但我认为,对于视觉模态来说,这种方式开始变得有点局限。我认为在思考“未来的新视觉创作画布是什么样子”方面,还有很大的空间。

以及你如何在构建它的时候,不让它变得过于复杂?因为随着这些模型能做的事情越来越多,你很难在一个非常开放的界面中向用户解释清楚限制在哪里、如何绕过它、以及如何高效地使用它。

所以我很高兴看到有人在朝着这些方向构建产品。对我们来说,我们在谷歌有一个叫 Labs 的团队,由 Josh Woodward 领导,他们做了很多这种前沿思考和实验。他们和我们紧密合作,他们会采用我们的前沿模型,思考“娱乐的未来是什么?创作的未来是什么?生产力的未来是什么?”

他们构建了像 NotebookLM 和视频方面的 Flow 这样的产品。我很期待 Flow 也许能成为这样一个地方,你可以在那里进行一些创作,思考未来的创作会是什么样子。

Hansa: 我认为在短期内,很明显,这个模型还有不完美的地方。

所以在短期内,它显然应该在你期望它工作的时候都能正常工作,而不仅仅是“大部分时间”。

我们必须让它变得无缝,修复所有那些在性能上有点不一致的小问题。

从长远来看,我认为 Nicole 已经说得很好了,对我来说,为了实现真正丰富的多模态生成……比如,现在如果你让 Gemini 解释某件事,它通常只会用文本解释,除非你明确要求图片。

但如果你想想过去 10 年、20 年里,那些真正成功崛起的学习平台,比如可汗学院 (Khan Academy) 是从 YouTube 起步的,维基百科 (Wikipedia) 上有大量的图片。

它非常注重图像。如果你查找任何数学知识,你都会看到图表。所以,这应该成为更自然流程的一部分,成为你使用这些模型的一部分。

要从模型的角度实现这一点,这又回到了我们之前谈到的,多模态的理解和模态间无缝的泛化能力。

Nicole: 也许另一个有趣的领域是,当我们考虑让这些模型更主动地在你需要时调取代码、图像或视频时……我职业生涯的起点是一名咨询顾问,所以,我过去做了大量的幻灯片 (slide decks)。

我现在也还在做。我认为在某些用例中,你其实并不想陷入创作的细节中。比如,你只是想向利益相关者更新项目进展。

你可能想引入一些上下文,也许是会议纪要,也许是几个要点,也许是你过去做过的其他幻灯片。然后你可能只想让 Gemini 去帮你完成所有工作。

比如,把幻灯片整合起来,排好版式,创建合适的视觉效果,让它变得易于消化。这可能是你不想亲自参与的事情,这更接近于“代理” (agentic) 行为。而我认为,对于另一些创意工作流,你其实是想要自己创作的,你想深入细节,你想思考什么样的 UI 能让用户更容易地实现目标。

所以,如果我在设计我的房子,而且我真的对设计房子很感兴趣,那么我可能真的想自己动手玩一玩,试试不同的纹理、不同的颜色,或者看看如果我把这堵墙拆掉会怎么样。

所以我认为这里存在一个光谱:从非常“放手”的——“让模型自己去为某个任务调取相关的视觉材料”,一直到“你如何让一个创意过程变得更有趣,移除那些繁琐的部分,消除我们现有工具中的技术障碍”。

Hansa: 这就像是混合了两种需求:既要给用户精细的控制权,比如他们想要的精确控制;同时在另一个极端,又希望模型能够理解用户的请求,并预判出需求和应有的结果,然后完成所有中间的工作。

这几乎就像你今天雇佣一个专业人士来做某件事一样,对吧?比如你雇佣一个设计师,你给他们一份规格说明 (spec),然后他们就去工作了,利用他们的专业知识完成所有出色的工作。所以,这些模型也应该能做到这一点,但它们今天在很多领域还做不到。


下一个竞争战场:UI 与“任意到任意”模型

主持人: 你们认为这个领域的下一个竞争战场是什么?

Nicole: 我认为在让这些模型变得更强大方面,还有很多工作要做。这个“单一模型、任意输入、任意转换” (take anything and transform it into anything else) 的想法,我认为还没有人真正实现它。

但我确实认为,为了真正推动普及,大概有两件事。一是用户界面 (user interfaces)。我们仍然非常依赖聊天机器人,就像我们谈到的,它在某些方面很有用,是一个很好的入口,但可能并非对所有事情都有用。

所以我认为,我们需要开始更深入地思考:“用户是谁?他们想做什么?技术如何能帮上忙?然后你该围绕它构建什么样的产品来实现它?”


创新步伐与使用 SynthID 应对深度伪造

主持人: ……这可能是其中之一。你们认为 5 到 10 年后,技术前沿还会像过去几年这样快速发展吗?

Nicole: 5 到 10 年后感觉就像是 20 年后。

这个领域……你们可能也看到了,这个领域发展得太快了。如果你两年前问我,我会告诉你这个领域发展得很快。如果你今天问我,我会告诉你它比两年前发展得更快。

主持人: 好的,我要问一个截然不同的问题。我知道谷歌对于“深度伪造” (deep fakes) 这类事情非常谨慎和关注。

我必须得说,当你们看到这个模型的能力如此强大时,内部肯定有过一场激烈的讨论:“好吧,我们如何确保人们不以错误的方式使用它?”在谷歌内部,这样的讨论是如何进行的?你们对最终的结果满意吗?

Nicole: 我认为这也是一个不断演进的前沿。

因为它是一种平衡……你既想给人们使用这些工具的创作自由,对吧?你希望用户能以一种不感到过多限制的方式来控制和使用这些工具,同时你又想防止最坏的伤害发生。

我认为这永远是我们花很多时间讨论的平衡点。

所以,很明显,当你看模型的输出时,会有一个可见的水印 (watermark),标明这是由 Gemini 生成的,这立即表明了这是 AI 生成的内容。

然后,在我们用模型产生的每一个输出中……无论是图像、视频还是音频……都嵌入了 SynthID,这是一种隐形水印 (invisible watermarking)。

这些就是我们用来验证内容是否由 AI 生成的可见和不可见的方式。

我们对此投入了大量精力,我们相信这非常重要,要给用户提供工具,让他们在看到某些东西时能明白,那不是真实的视频或图像。

然后,显然,当我们在开发这些模型时,我们会在内部以及与外部合作伙伴进行大量的测试,以找出……随着模型能力越来越强,你会发现新的攻击向量 (attack vectors),以及你必须防范的新方式。

所以,这对我们来说是模型开发中非常重要的一部分。我们在这方面持续投入,随着模型变得更好,能做的事情变多,我们也必须开发新的缓解措施,以确保我们不会造成伤害,但同时仍然给予用户创造力和控制权,让这些模型在产品中变得可用。

Hansa: 我的意思是,这是一个非常非常难把握的平衡。

因为总会有人出于善意使用工具,也总会有人出于恶意使用它。

我认为这很难界定。它是一个工具吗?它是否需要承担责任?所以,我们非常严肃地对待这个问题。

显然,用户也需要对他们使用模型的行为负责。但 SynthID 确实是一项重要的技术,它让我们能够向人们发布这些功能,同时我们也有信心,我们仍然可以验证内容,并且有工具来对抗错误信息 (misinformation) 的风险。

但这真的是一个非常棘手的话题,我看到每个人都在非常严肃地对待它。

关于如何平衡这两者,我们内部有很多很多的讨论。

主持人: SynthID 现在是行业标准吗?

Hansa: 这是谷歌的标准。我相信,谷歌的每一个模型,比如 Imagen 系列、Veo,当你在任何产品界面使用它们时,都会带有 SynthID。


未来一到三年:个性化学习与赋能工作流

主持人: 好吧,你们说 5 到 10 年太远了,因为事情发展得太快。那我们就看未来 1 到 3 年。谢谢。

两个问题。第一,今天我们只能梦想的事情,未来一到三年哪些会成为可能?第二,这将给我们的生活方式带来怎样的改变?

Nicole: 我真心希望一两年后,你能真正拥有“个性化导师”、“个性化教科书”。太棒了。

我的意思是,没有理由你和我应该从同一本教科书学习,如果我们的学习方式和起点不同的话。但这就是我们现在的做法,对吧?我们的学习环境就是这样设置的。

我认为,在所有这些技术突破的加持下,这应该是非常有可能实现的。你拥有一个 LLM 导师,它能了解你的学习风格、你喜欢的东西……“也许你喜欢篮球,所以我需要用篮球的类比来给你解释物理学,”对吧?

所以我对学习变得更加个性化感到非常兴奋,这感觉非常有可能实现。当然,我们必须确保模型不会“胡说八道” (hallucinate),在事实性 (factuality) 上有很高的标准。

所以我们需要以现实世界的内容为基础 (grounding)。但我对此非常期待。

这真的会为人们消除很多障碍,对吧?回到你关于“这将带来什么影响”的问题。

我认为,这会让学习变得更容易,基本上,你可以用一种为你量身定制的方式学习任何东西,这是你现在无法做到的。

主持人: 这会成为谷歌的一个产品领域吗?

Nicole: 应该有人去研究一下。

Hansa: 是的,关于它将如何改变我们的生活和工作方式,我认为……在开发这些技术的过程中,我已经看到了它如何改变了我们的工作方式。因为我们显然经常使用它们。

我快要结婚了,我们用我们的模型制作了“婚礼通知卡” (save-the-dates)。

所以我真的认为我们会看到……而且,在工作中……我认为创新之所以加速,部分原因是我们拥有了这些模型。你有代码助手,你可以用模型来筛选信息、分析海量数据。它极大地提升了我们自己的工作效率。

就像,我今年能做的工作量和两年前相比,简直是数量级的增长。我认为这在科技行业是真实的。但在很多其他行业还不是,因为这种技术还没有整合到他们的工作流程或工具中。

所以,有些人会说:“哦,它会取代我。”但至少据我所知,它实际上只是改变了一个人能完成的工作量。这对企业或经济意味着什么,我不确定。但我认为,这意味着我们将看到人们被赋予更多能力,有望在相同的时间内做更多的事情。

比如,你可能不必……我有些在咨询行业的朋友,他们花了大量时间……他们说:“我刚花了两个小时做幻灯片,调整格式,移动 Logo。”希望未来他们不必再做这些。他们可以真正花时间思考幻灯片的内容应该是什么,思考如何与客户合作。

我希望这在未来一到两年内就能看到。


初创企业的机会:工作流与应用层

主持人: 鉴于你们看到的这些能力的发展轨迹,你们认为有哪些有趣的领域是谷歌自己可能不会涉足,但初创企业应该去做的?

Nicole: 我认为有大量的空间,即使只是在创意工具领域。我认为,人们在探索“未来的 UI 到底是什么样子?创意控制该如何实现?如何将一切整合在一起?”方面,还有大量的空间。

我们看到很多创意领域的人,他们需要跨越 LLMs、图像、视频和音乐进行工作,这意味着他们必须去四个不同的工具才能完成。

很多人会用 LLMs 来构思创意。比如,“给我一些概念,我有一个想法。”当你满意后,你把它带到图像模型,开始思考:“我的视频里想要哪些关键帧?”你花大量时间在那里迭代。

然后你把它带到视频模型,这又是另一个界面。在某个时刻,你又想添加声音和音乐,把它们混合在一起。最后,你可能还想做一些精细的编辑,于是你又回到了某些传统的软件工具。

感觉上,这种基于“工作流” (workflow) 的工具,可能会在很多不同的垂直领域涌现出来。创意只是其中一个例子。但是,也许会有一个针对咨询顾问的工具,让他们能更高效地制作幻灯片、演示文稿和给客户的提案。

所以我认为那里有大量的机会,而一些大公司可能不会进入这些领域。

Hansa: 是的,有很多关于“我们如何让这项技术在 X 工作流中有用?”的机会。比如,销售、财务……我正在说很多我并不了解的公司内部流程,比如财务工作流,但我猜想,那里有很多任务可以被自动化,可以变得更高效。

是的。我认为初创企业在理解特定客户用例、需求,那种利基市场 (niche) 需求,并做好“应用层” (application layer) 方面,处于有利地位。而我们(谷歌)真正关注的是基础技术。


视觉叙事的“情感力量”

Hansa: 我只是对有这么多人对这个模型感到兴奋这件事感到非常兴奋,如果这说得通的话。

我生活中的很多人,比如我的阿姨、叔叔、我的父母、朋友,他们用过聊天机器人,他们问问题,获取信息。我妈妈喜欢问聊天机器人关于健康的信息。

但是,视觉媒体总是能让人感到兴奋,它很有趣。但它不仅限于乐趣,它还直观、易懂。视觉是我们人类体验生活的很大一部分,所以我很高兴看到它在情感上、在兴奋程度上如此打动人心。这对我来说是这个项目中最令人兴奋的部分。

主持人: 我的孩子们很喜欢它。我三岁的儿子把我们的狗绳——就是那种磨损了的棕色绳子——系在自己身上。他看起来像个勇士。我给他拍了张照片,然后把他变成了一个“勇士超级英雄”。

是的,完全正确。这让他感觉自己是超人。我丈夫会用……他用谷歌的 Storybook 给他读故事,内容是关于他在学校学到的教训,比如他在操场上和另一个孩子发生了冲突,或者适应新学校。它创造了这些看起来像他、像我丈夫、像我、像我们的狗和女儿的角色,出现在这些有趣的故事和我们试图教给他的道理中。这正合你提到的“个性化” (personalization)。

所以我真的、真的非常喜欢这个未来。对他来说,在这种环境中成长将是完全不同的体验。

Hansa: 这太棒了,对吧?因为这是一个只写给一个人或五个人的故事,你以前永远不会去创作它,对吧?其他人可能也不想读。当然,如果你愿意的话,我很想读。

但我认为,我们现在真的在让人们能够讲述那些你以前无法讲述的故事。在某种程度上,就像相机变得普及之后,让任何人都能捕捉现实一样;现在,你正在捕捉人们的想象力。

你给了他们工具,让他们能把自己脑海中的东西,用视觉化的方式呈现在纸面上,这是他们以前做不到的,因为他们没有工具,或者不知道如何使用工具。这真的太棒了。

Nicole: 这个比喻很好。

主持人: 非常感谢你们接受我们的采访。

Nicole: 很高兴能邀请到你们。


AI 前线

LangChain Agent 年度报告:输出质量仍是 Agent 最大障碍,客服、研究是最快落地场景

2025-12-23 22:36:04

AI 前线

FAANG 系统设计面试:设计一个聊天系统 (WhatsApp, Facebook Messenger, Discord, Slack)

2025-12-23 22:36:11

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索