在 GPT-5.1 中塑造模型行为 —— OpenAI 播客 Ep. 11




内容概要

主持人 Andrew Mayne 与 OpenAI 后训练(post-training)研究主管 Christina Kim 以及专注于模型行为的产品经理 Laurentia Romaniuk 共同探讨了 GPT-5.1 的开发目标。讨论涵盖了向推理模型作为默认选项的转变、定义和塑造模型个性的挑战,以及在模型可控性与安全性之间取得平衡的重要性。他们还深入探讨了用户反馈如何影响产品更新、记忆功能在提升用户体验中的作用,以及关于如何充分利用不断发展的 AI 能力的建议。

目录

  • 介绍

  • GPT-5.1 的目标与向推理模型的转变

  • GPT-5 与 GPT-5.1 的区别

  • 解析模型切换器

  • 理解用户反馈

  • 衡量情商方面的进展

  • 什么是模型个性?

  • 模型可控性、偏见与不确定性

  • ChatGPT 中记忆功能的优势

  • 展望未来与使用建议

介绍

Andrew Mayne: 大家好,我是 Andrew Mayne,这里是 OpenAI 播客。今天的嘉宾是负责 OpenAI 后训练(post-training)的研究主管 Christina Kim,以及专注于模型行为的产品经理 Laurentia Romaniuk。

我们将讨论 GPT-5.1,是什么让这个模型更好,团队如何致力于让其个性可控(steerable),以及他们对未来的展望。

历史上第一次,聊天界面中的所有模型都是推理模型(reasoning models)。虽然对大多数用户来说,“个性”是一个更大的概念,它关乎模型的整体体验。用户应该能够在对话中获得想要的体验。这其中的艺术在于,如何挖掘出模型那些表现得像个性的特质,同时又不破坏可控性。

GPT-5.1 的目标与向推理模型的转变

Andrew Mayne: 我非常兴奋能讨论这些模型以及它们随时间的变化。现在用“模型”这个词感觉有点奇怪,因为它们似乎远不止于此。一切都始于研究,当规划 GPT-5.1 时,你们的目标是什么?

Christina Kim: 对我们来说,主要目标之一是解决大量关于 GPT-5 的反馈。同时,我们也做了大量工作将 5.5 版本转变为推理模型。对我个人而言,5.1 版本最令人兴奋的是,历史上第一次,聊天中的所有模型都是推理模型。

所以现在的模型可以决定“思考”,也就是我们所说的思维链(chain of thought)。它会根据提示词决定思考多少。如果你只是向模型打招呼说“嗨”或“在吗”,它不会进行思考;但如果你问一个比较难的问题,它就会决定需要思考多少。这给了它时间来优化答案,并在必要时使用工具,然后再回来给你答案。这有点像丹尼尔·卡尼曼(Daniel Kahneman)所说的系统 1 和系统 2 思维。

是的,将推理模型作为所有人的默认模型,意味着大家都能获得更聪明的模型。我认为更聪明的模型意味着全面的提升,特别是在指令遵循(instruction following)等方面。对于很多看似不需要太多推理的用例,拥有更高的智能、让模型在回答前先思考,确实很有帮助。我们在各项评估(eval)中都看到了全面的提升。

GPT-5 与 GPT-5.1 的区别

Andrew Mayne: 当你作为产品经理需要向人们解释有什么不同时,这可能是个挑战。你会如何解释 GPT-5 和 GPT-5.1 之间的区别?

Laurentia Romaniuk: 首先,这很难,因为变化太大了。但在这种情况下,我们希望回应社区在 ChatGPT-5 发布时反馈的问题。

我们听到的反馈之一是,模型感觉直觉较弱,不够温暖。当我们深入研究时,发现了一些原因。首先,这不仅是模型如何回答的问题(即模型的先天行为),还涉及到模型周围的因素。

例如,我们的模型之前的上下文窗口(context window)没有携带足够多的用户过往信息。这会让用户感觉模型忘记了你告诉它的重要信息。如果你说“我今天过得很糟”,而模型在 10 轮对话后就忘了,这会让人感觉非常冷漠。这是我们在这次发布中调整的内容。

部分原因确实是模型的回答方式,但在 GPT-5 中我们还引入了一个新功能:自动切换器(auto switcher),它会在聊天模型和推理模型之间切换。这两种模型的回复风格略有不同,这可能会让人感到突兀或冷漠。比如你正在和模型谈论你今天过得很糟,提到部分原因是得到了糟糕的癌症诊断,结果模型把你切换到了“思考”模式,给出了一个非常临床化的回答,而之前的模型还在像朋友一样引导你解决问题。

因此,我们试图做出的很多改变实际上是总体上的调整。即便我们在底层做了很多改动,我们仍要确保这个模型让人感觉更温暖。

我们要表达的另一点是关于指令遵循。5.1 在遵循自定义指令(custom instructions)方面要好得多。这是我们听到的另一个反馈,即我们发布的每个模型都有自己的怪癖和略微不同的行为,我认为只要用户能控制它,比如说“嘿,这很奇怪,停下来”,大家其实不介意。

但如果模型不能延续上下文,如果它不能记住自定义指令,那就是个问题。因此,我们努力增强了自定义指令功能,使其更一致地传递指令,以解决部分反馈。

最后我要说的是,很多东西都是个人偏好。这就是为什么我们推出了风格和特征类功能,比如个性设置,这实际上允许用户引导模型进入特定的回复格式,让他们对 ChatGPT 的回复方式有更多的控制权。

解析模型切换器

Andrew Mayne: 切换功能很有趣,因为现在有了多个模型,而不仅仅是一个。你阐述了为什么需要这样做。当我们谈论切换器和不同模型时,我知道对大多数人来说这可能有点令人困惑,你会如何向大家拆解这个概念?

Laurentia Romaniuk: 我认为我们的模型拥有非常不同的能力,要时刻跟进确实很难。部分工作是让用户在应用中不断尝试不同的东西,但产品工作的一部分确实是确保我们有正确的用户界面(UI)来引导用户选择正确的模型。

这可以是模型切换器,也可以是模型切换器通过学习来了解哪种答案在不同语境下对用户最有帮助,并查看不同的评估结果。例如,对于我们的推理模型,如果人们想要非常科学准确且非常详细的内容,我们可能会查看评估结果,看我们是否满足了这类提示词的需求,从而预测何时将用户切换过去。

Andrew Mayne: Tina,关于切换器,以及现在每个人(包括免费版用户)使用的基础模型都是推理模型这一事实,这在实际影响上意味着什么?

Christina Kim: 我认为在研究方面有很多悬而未决的问题,关于我们该如何思考这一点。就像你说的,这是一个更快的模型,但这并不意味着它必须是“笨”的。我们的想法是希望为每个人提供尽可能智能的模型。

所以我认为这为更多思考打开了大门:利用这种非常先进的前沿模型,我们可以做哪些更有趣的事情?比如像深度研究(deep research)这样的功能,让模型思考几分钟,也许这更适合在后台作为工具调用。

因此,关于我们想要构建什么,有很多研究上的开放性问题。但我确实认为我们将进入一个拥有“模型系统”的世界,而不仅仅是你拥有的某一个模型,还有许多不同的工具。它不仅仅是单一的,比如当我们想到 5.1 时,人们只是假设它是一组单一的权重,但我认为它实际上是这个推理模型、那个轻量级推理模型、自动切换器(它本身也是一个模型)以及各种由不同模型支持的工具。随着我们获得更聪明的模型,这个系统正在开启更有趣的用例和产品应用。

理解用户反馈

Andrew Mayne: 拥有 8 亿用户,你们可能会收到大量的用户反馈。除了巨大的体量外,你们如何梳理并理解这些反馈,从而知道如何利用它们?

Laurentia Romaniuk: 我认为很多时候这实际上始于对话链接。很多时候,当我们能实际看到用户的对话时,我们就能确切地看到对话中发生了什么,并开始解剖问题以定位解决方案。

举个例子,如果我们收到用户反馈说:“嘿,我和模型的体验很奇怪,它说了一些非常冷漠的话”,或者“句子感觉很生硬”。如果我能看到那个对话链接,我就能说:“哦,那个用户处于某个实验组中。”这是一个很好的例子,说明为什么特定的实验可能在某些情况下对某些用户有边缘效应。

但至少对于自动切换器(将原本的 5.1 聊天切换到 5.1 推理),我们会查看来自用户的不同信号,以弄清楚这对他们是否有效?每个回答的事实性表现如何?延迟情况如何?因为即使想要更好的答案,也不是所有用户都愿意等待。这需要在各种信号之间进行平衡,既是艺术也是科学,以找出何时切换以及怎样最有效。

衡量情商方面的进展

Andrew Mayne: 当试图从智力角度(比如 IQ)改进模型时,我们有基准测试和评估。但当谈到 EQ(情商)时,你们怎么做?如何衡量这方面的进展?

Christina Kim: 是的,这是一个非常开放的领域。实际上,我的研究团队议程中的一部分就是我们所说的“用户信号研究”。这是训练奖励模型(reward models),并在强化学习(RL)期间获取信号,我们可以将这些信号与用户产品数据进行比对。

这类研究真的很有趣,因为我认为我们可以获得很多关于意图的信息。当我们考虑 EQ 时,它其实只会随着模型变得更聪明而变得更好,因为它真的是在试图理解用户想要什么,用户需求的背景是什么,以及考虑到对话中有这么多其他信息和用户的记忆历史,模型应该如何做出最佳回应。

Laurentia Romaniuk: 此外,我认为 EQ 还有一个要素。当我想到一个高情商的人时,我会想到他们的倾听能力、记住你说过的话的能力,以及捕捉 Tina 所提到的微妙信号(用户信号)的能力。

正如我之前提到的,其中一部分实际上是确保上下文窗口携带正确的信息,确保记忆被正确记录,或者拥有最能引起用户共鸣的风格。随着我们推出的个性化功能与 5.1 相结合,部分目的就是确保用户在与模型交互时能拥有一种与他们产生共鸣的风格,这也能让人感觉到 EQ。

什么是模型个性?

Andrew Mayne: 你如何定义模型的个性?

Laurentia Romaniuk: 我认为有两种定义方式。一种是我们所说的“个性功能”,如果可以重命名,我会叫它“回复风格”或“风格与语气”。我们在名称上反复推敲了很多次,名称可能还会变。个性的这一方面非常具体,比如模型回答时有哪些特征?它是简洁的吗?回答篇幅长吗?用多少表情符号?

但对于大多数用户来说,“个性”是一个更大的概念,它是模型的整体体验。稍微拟人化一点来说,如果把它比作我,我个性的一部分是我今天选择穿的鞋子、毛衣,以及我的发型。

这就是 ChatGPT 应用程序给人的感觉,对吧?它使用的字体、响应的快慢(即应用程序本身的延迟)。其中包含了太多来自于我称之为“马具(harness)”的东西。“马具”包括上下文窗口、我们是否限制用户速率以及何时限制。因为如果我们限制了速率并将用户发送到一个能力略有不同的模型,这对用户来说就像是不同的体验。

许多用户将这称为个性。所以“个性”是一个有点被滥用的术语。这项工作的艺术在于听取社区关于个性的说法,并找出如何将其映射回 ChatGPT 内部和模型内部导致用户体验偏差的组件上。

Andrew Mayne: 从研究角度来看,塑造个性有多难?

Christina Kim: 在进行后训练(post-training)时,显然我们要平衡太多不同的事情。即使有研究支持,这也非常像一门艺术。因为我们真的在思考:我们要支持哪些不同类型的能力?有哪些不同类型的东西?

在强化学习中,当制定奖励配置时,我们要做出所有这些不同的选择,试图决定我们要达到的最终目标是什么,并进行所有这些非常微妙的调整,以确保我们能击中所有想要的目标,但又不会丢失很多用户所称的“温暖”之类的特质。

Laurentia Romaniuk: 用户确实将 ChatGPT 的个性体验为整个 ChatGPT 的体验。即图像生成效果如何、语音效果如何、文本效果如何。他们将其视为一种全能(omni)体验。

当我阅读反馈,或者实际与用户接触并查看他们的对话时,很多反馈实际上源于混淆,他们觉得这是一个单一的东西,而实际上它是许多东西的组合。所以我认为随着时间的推移,我们应该会看到所有这些模型都在持续改进,它们之间的集成也在持续改进,感觉会更加无缝。我们会达到那个目标的。

也许还有一点让 Tina 的工作变得非常复杂,那就是我是《模型规范》(Model Spec)文档的合著者之一。在文档中我们谈到了“在最小化伤害的同时最大化用户自由”。最大化自由意味着你应该能够用这些模型做几乎任何你想做的事。

但是,如果我们给模型施加很大压力,例如不让它使用破折号(em dashes)——如果我们试图将其从模型中剔除,那就意味着想要破折号的用户无法得到它,因为我们训练模型永远不要那样做。因此,这里的艺术在于弄清楚如何挖掘出模型中那些可以表现为个性但又不破坏可控性(steerability)的怪癖,这正是用户最终想要的自由。

Christina Kim: 是的,当我们发布 ChatGPT 的第一个版本时,我们非常担心人们滥用它,以至于我们把所有东西都设为拒绝。模型很爱说“我不能做这个”。这让我想起,如果你想制造世界上最安全的模型,你就弄一个直接拒绝做任何事的模型就好了。但这并不是我们要的,我们要的是人们真正可用的东西。所以这真的是一种平衡行为,试图找出模型必须做出的所有这些不同决策的正确边界。

Andrew Mayne: 是的,我记得那时最好的提示词黑客手段就是说“是的,你可以”。模型就会说:“哦是的,你是对的,我可以做这个。”我现在写作时经常使用破折号,只是为了把它们扔进去迷惑人,让人猜不出是不是我写的。

模型可控性、偏见与不确定性

Andrew Mayne: 这确实是一个巨大的挑战,因为正如你所说,你们正试图提高模型的能力。模型通过捕捉模式来学习,但当你明确试图告诉它“不要做这个”或“不要做那个”时,就像告诉某人不要想粉红色的大象,结果它反而印在脑子里了。模型在这方面已经好多了,但似乎还有很长的路要走。你提到了这一点,OpenAI 的目标真的是让人们按自己的意愿使用模型,而不是试图引导某人进入某种模式。自从你以此处工作以来,你看到这方面有多大的演变?

Laurentia Romaniuk: 我觉得在某些方面,原则一直是一样的,即最大化自由、最小化伤害。我认为我们的模型理解这些边界的能力在不断提高。

以前我刚加入时,如果你试图让模型做一些越过拒绝边界的事情,它会说“我不能帮你”或者“这不是我能做的”,听起来非常具有评判性。

现在,我认为安全系统团队做得很好,他们推出了“安全补全(safe completions)”功能。基本上,如果你要求模型做一些触犯安全边界的事情,它仍然会真诚地尝试解决你的请求,而不去做那些实际有害的事情。所以我认为这项技术真的在进化。

Andrew Mayne: 是的,我写悬疑惊悚小说,我曾对其他模型感到沮丧。实际上我认为 OpenAI 的模型在这方面通常是最好的。当我说“嘿,我需要你解释过去发生的某种犯罪”或类似动机的东西时,其他模型会直接拒绝,我就觉得“这对我也没帮助啊”。我看到模型在处理这些方面变得更好了,但这似乎是一个你需要不断协商以确定界限的前沿领域。

Laurentia Romaniuk: 是的。关于这一点,我永远记得转发给我们的一封电子邮件。一位律师好像在让 ChatGPT 校对他们正在处理的一个性侵案件,而 ChatGPT 删除了所有的攻击内容,因为它不涉及图形暴力和血腥,特别是非自愿性行为。

但对那位律师来说,这是一件非常糟糕的事情。他们说:“嘿,如果我真的提交了这个,我就完全削弱了我客户的案件。”

我以前是图书管理员。图书馆处理信息的获取问题。理论上,人类可以谈论和想要探索的任何事情和任何想法都应该在图书馆中找到。我认为 ChatGPT 也是如此,关键在于找到将这些规则情境化(contextualize)的正确方法。

在我提到的律师案例中,保留内容是合理的。但如果是写给前任的复仇邮件,那就是另一回事了。所以部分工作只是推进技术,以便我们能够处理这种程度的细微差别。我们在不断进步,但总有更多工作要做。

Andrew Mayne: 随着这些模型在智能上的提升,我注意到它们在处理偏见方面也变好了。这似乎是有意的努力。

Laurentia Romaniuk: 没错。我想大概一个月或一个半月前我们发了一篇博客文章,介绍我们在这一进展上的一些情况。我们在模型中真正关注的是它们如何处理主观领域。

我们希望确保我们的模型能够表达不确定性(uncertainty),能够接纳用户带来的任何想法并真诚地回答这些问题,同时如果有客观事实的话,始终锚定在客观事实中。所以这是用户应该开始在我们的模型中看到的变化,它们应该能够以更开放的方式回答这些未知问题,允许用户真正自主引导对话的走向。

另外,我认为团队所做的一件非常酷的事情是,有一群研究人员和模型行为团队的一些人一直在研究这些模型的创造力。对我来说,这是 5.1 中的一个隐藏功能,因为这个模型的表达范围现在要广得多。

当然,模型有一个自然的默认设置,可能感觉没有太大不同。但同样,如果你试图把它推向极致,让它以一种非常非常高雅的方式或非常非常简单的方式说话,实际上你可以在创造力空间用这些模型做更多的事情。

Christina Kim: 我认为这正是让后训练感觉像一门艺术的原因,因为我们试图改进的所有这些不同类型的任务和能力并没有一个标准答案(ground truth)。如果你只是想做一个擅长数学的模型,那其实不难,因为有很多答案,很多问题都有明确的答案。但当你面对如此主观的事情,且真的取决于上下文和用户,很难确定什么是实际的最佳理想答案。所以我对这类工作真的感到很兴奋。

Andrew Mayne: 是的,这很酷。我记得早期人们会说,“啊,它写得不怎么样。”我就想,它可能写得和某些在线论坛上的普通人一样好。而现在看来它确实有了显著的进步。

Christina Kim: 是的,即使你在第一个提示词中没有注意到,可能只需要让它改变写作方式。我认为这也是我们需要努力的地方,即在 ChatGPT 中找到一种方法,在每次发布时都能引导出这些扩展的能力。

ChatGPT 中记忆功能的优势

Andrew Mayne: 你希望未来的行为走向何方?你希望把它做到多大程度的可定制化?

Christina Kim: 随着 5.1 的发布,我们做了很多工作试图给人们提供自定义个性。我认为这实际上是向前迈出的很好的一步。我们要服务超过 8 亿的周活跃用户,我认为单一的模型个性(无论你怎么定义个性)实际上不可能服务所有人。

所以我认为我们确实希望进入一个这样的世界:随着模型变得更聪明,它们的可控性也更强。你应该能在聊天中获得你想要的体验。

Laurentia Romaniuk: 我把这看作是我们如何将正确的功能放在用户面前,帮助他们将这些模型引导到他们想要的定制水平。我认为我们现在正在做的个性工作是第一步。我们将测试、迭代、学习。但这其中有很多内容。

抱歉再说一个轶事,但我记得我哥哥第一次使用 Pro 版,他是生化研究的博士。他给了一个提示词,然后说:“啊,这就像本科生的回答。”

我说:“你能告诉它你是这个实验室的前沿研究员,使用这些工具进行这类科学研究,并要求它以你的学术水平回应吗?”他照做了,然后说:“天哪,模型刚刚提出了我的实验室两周前才突破但尚未发表的东西。”

这些模型极其强大,但仅仅知道如何定制它,哪怕只是像他那样在开场白中说明,也能产生巨大的力量。我不确定人类是否已经完全弄懂了这一点。所以无论是个性引导还是我们需要放入 ChatGPT 的其他工具,以帮助推进人类对这些模型的理解以及如何充分利用它们,我认为这是我们要面临的任务。

Andrew Mayne: 在之前的一期节目中,我采访了负责 OpenAI 科学部门的 Kevin Weil 和与 OpenAI 合作的科学家 Alex Rives(他也是范德堡大学的教授)。他也经历了同样的体验,谈到如果你给它一点预热(priming),模型在做这些领域的工作时就会突然变得更有能力。

这有点像提示词工程(prompt engineering)。提示词工程是试图弄清楚如何引导基础模型。随着时间的推移,一旦我们理解人们试图做这些任务,你就可以训练模型,让它不必期待那第一部分的指令。你认为我们现在是否正在进入那个阶段,即你不必告诉它你是研究生就能做到这一点?

Christina Kim: 我认为是这样,特别是现在有了更多东西,比如模型拥有更多关于你是谁以及你的背景的记忆。我认为随着模型变得更智能,模型应该能够推断出所有这些事情,并能够以对你的专业知识有意义的方式与你交谈。

Laurentia Romaniuk: 是的,所以我认为其中很大一部分实际上应该是这些推断出来的东西。我想可能还有某种程度的可控性。这只是我作为一个产品经理(PM)的个人看法,不一定每个 PM 都同意我,但我认为用户应该始终知道我们在推断关于他们的什么信息,以及它是如何引导模型的,这样他们就可以随时回去并拥有工具来更改设置。

例如,你可以在设置面板中打开或关闭记忆,或删除它们。我认为既能推断用户真正想要什么并主动为他们解决问题(使他们不必为此写提示词),又能确保用户始终拥有控制权而不只是盲目推断,这两者结合非常酷。

Andrew Mayne: 能解释一下记忆功能是如何工作的吗?

Laurentia Romaniuk: 是的,记忆基本上就是模型会根据与你的对话写下它所知道的关于你的事情,以便稍后引用。这非常好,因为这样你就不用每次都重复自己了。你不用说“我是 Laurentia,我是 OpenAI 的产品经理,我负责模型行为”,因为它已经知道了,因为你之前已经告诉过它。

然后它实际上可以在未来的对话中使用这些信息。这也帮助它在回应你时思考答案。它拥有那个背景,我认为这确实让它的答案更有根基,成为对你最有用的回应。

Andrew Mayne: 嗯。我有用 Pulse,这太棒了。每天早上我都会收到小更新,因为有记忆功能,它会跟踪我的对话,为我创建这些小的定制文章。它会抓取研究和其他东西展示给我。这是我从未想过记忆功能带来的巨大优势之一,现在我看到它不仅仅是在对话之外,而是根据对话主动为我寻找东西。这很酷。

Laurentia Romaniuk: 是的,我认为这很酷。虽然我们俩都不直接负责那个功能,但看到我们在上游所做的工作(无论是构建伟大的模型还是围绕我们要的能力塑造评估)实际上能让我们的 ChatGPT 团队去构建这些阐述模型能力的伟大功能,这很酷。

所以是的,它们可以学习你的偏好、习惯;是的,它们可以为你创作精彩的故事或根据你的兴趣找到很棒的信息。这种主动功能是帮助用户充分利用这些模型的一种方式。

Andrew Mayne: 似乎这正在成为一种让模型更个性化的有趣方式。当我在没有记忆的模式下使用时,感觉确实不同。确实感觉像是冷启动,就像“你好,你好吗?”,我会想“哦,我们这段对话是在哪发生的?”这是否是当人们告诉你“嘿,感觉有些不同”但又无法准确表达时的挑战之一?

Laurentia Romaniuk: 是的,最难处理的反馈是轶事,其次是聊天截图,因为没有附加元数据告诉我们在哪里出了问题。所以我实际上很喜欢 ChatGPT 中的分享功能。当我们这边有这种链接时,我们可以检查它,看看模型进入这个对话时有什么样的上下文,发生了什么,这样我们可以调试用户的反馈。

Andrew Mayne: 这是个很好的点,因为有人问我:“嘿,那个东西回答得不对。”我就问:“什么模型?”他们说:“我在用 ChatGPT。”我就说:“好吧。”我们需要稍微深入挖掘一下,我想分享反馈或分享整个对话可能更有意义。

展望未来与使用建议

Andrew Mayne: 展望未来,你最兴奋的是什么?

Laurentia Romaniuk: 我觉得这些模型的能力简直令人难以置信。它们能做这么多事情,我迫不及待地想看到人们用它们构建什么。我迫不及待地想看到 ChatGPT 应用接下来的发展。我看到了太多的机会。我认为总的来说,人们开始真正觉醒并看到你能做什么。这就是让我兴奋的地方。

Christina Kim: 是的,我不想剧透太多。但我非常兴奋,我忘了是谁在推特上说的了,大概意思是“智能便宜到无法计量(intelligence too cheap to meter)”。我觉得我们必须让人们拥有如此难以置信的智能模型。正如我在我们要发布 Chat 时常说的,这只是它的一种形态。

有了这些智能模型,有太多可能的事情。就像 Laurentia 说的,我也对我们将利用这些更智能的模型进行的各种新产品探索感到非常兴奋。因为我想我们在大语言模型(LLM)的进步中看到过,一旦我们获得更聪明的模型,它就会解锁新的用例。我认为随着新用例的出现,应该会有新的形态,所以我对此非常兴奋。

Andrew Mayne: 你对用户获得最佳体验有什么建议?

Laurentia Romaniuk: 我的建议是,我总是告诉别人,尝试问你那些超级难的问题。那些你非常了解的事情。我以前是滑雪运动员。我对如何滑好雪有很多看法。我喜欢在这方面对模型进行压力测试,看看它是如何变化和改进的。

事情是这样的,我们一直在发布更新,所以很容易说“是的,我听说它擅长编程,但没成功”或者“我听说它可以帮我开发应用,但我试了不行”。这在今天可能是真的,但在 3 个月后,对那个用户来说可能就是一个完全不同的局面了。所以请坚持下去,继续玩,继续尝试。这是充分利用这些模型的最好方法。

你也可以要求模型帮你想出一个更好的提示词。

Andrew Mayne: 很棒的观点,我也这么建议我的父母。它在这方面已经好多了。以前你问它“我该怎么提示你?”,模型会猜测说我想大概是这样。但看过了这么多例子后……

Laurentia Romaniuk: 是的,我总是试图找出我可以问它的最佳问题是什么。我会问它:“为了从你这里得到最多,我应该问你什么问题?”

Andrew Mayne: 问一个深刻的个人问题。你不必回答,虽然如果你不回答会很尴尬。你在 ChatGPT 中设置的风格或个性选择是什么?

Christina Kim: 我可能有偏见,但我就是用默认设置。毕竟那是我们要训练的东西。

Laurentia Romaniuk: 对我来说,我经常切换它们,我认为这也是我工作性质使然。我想了解所有这些不同设置对所有用户来说是什么感觉。所以我觉得我每隔一天就在尝试不同的东西。

话虽如此,我认为最让我聊得开心的可能是 Nerd(书呆子/极客)风格的组合,这是模型的一种非常探索性的回应风格,它喜欢拆解事物。

然后因为我来自阿尔伯塔(Alberta),也许只有我这样。那是加拿大的一个省,就像加拿大的德克萨斯,我和马、牛一起长大。所以我认为我内心某部分喜欢让它像个阿尔伯塔乡村人一样跟我说话,这很棒。

除了当我需要写一份专业文档时,模型说“你好啊(howdy)”,我就想,“哦太好了,不,让我们把那个阿尔伯塔人从这份产品需求文档(PRD)里请出去。”

Andrew Mayne: 非常酷。非常感谢你们。


AI 前线

对谈张亚勤:我预演中的 AGI 地图

2025-12-24 22:22:35

AI 前线

快手高欢深度解读:多模态理解如何成为 AIGC 视频生成的“幕后功臣”?

2025-12-24 22:22:44

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索