淘宝直播数字人：LLM 文案生成技术

文章详细介绍了淘宝直播团队如何运用大语言模型（LLM）技术优化数字人直播的文案生成。核心挑战在于生成适合直播口播、信息准确且具备真人风格的文案。文章重点阐述了两方面技术实践：一是基于语义的口播文案改写，利用 DPO 算法优化模型，解决数字、符号、英文等的错误读法问题，准确率达 97%；二是通过分析真人直播 ASR 数据，学习口语化表达，并引入带有“思考过程”的蒸馏模型，有效减少文案的机械感。此外，文章还详细描述了如何整合多源信息，包括问评买、实时权益、商品详情图素材理解、商家个性化人设等，以丰富文案内容和结构。这些技术共同构建了淘宝直播更逼真、高效的数字人直播能力。

本专题是我们打造智能数字人的部分实践总结。我们将探讨六大核心环节：LLM文案生产赋予数字人思考和内容生成能力，如同其“大脑”；LLM互动能力则聚焦对话逻辑与拟人化交流，是实现自然交互的关键；TTS（语音合成）技术负责将文字转化为富含情感、个性化的“声音”；形象驱动技术让语音与表情、口型、肢体动作精准同步，塑造逼真视觉形象；音视频工程解决实时渲染、低延迟传输与高质量画面输出的技术挑战；最后，服务端工程构建稳定、弹性、高并发的后端支撑平台，确保数字人服务高效稳定运行。欢迎大家一起交流进步。

第一篇：《淘宝直播数字人LLM推理优化：模型蒸馏与路径压缩实践》

引言

随着AIGC浪潮的到来，将AI和直播场景结合的数字人直播带货逐渐走入大家的视野。从AIGC的角度而言，数字人无疑是一个完美的落脚点和试验田。我们是淘宝直播AIGC团队，整个数字人链路的组成是非常丰富的，AI算法模块上主要包含了CV（Computer Vision）视觉、TTS（Text To Speech）语音、LLM（Large Language Model）大模型三部分，部分方向上的交叉还组成了多模态的模块，当然整体架构上还必须和工程模块要有紧密的配合。

业务背景介绍

在介绍数字人LLM文案生成前，先简单介绍下文案使用的业务背景。目前在数字人直播场景下，标准版和高级版店家主要通过对单商品在后台话术库中提前生成离线的AI话术（旗舰版支持实时驱动生成话术、音频和形象），话术经过TTS转成音频后，最终交付给形象侧驱动生成数字人形象和唇驱等。在开播前店家把生成好的目标商品添加至宝贝口袋中，开播后推流即可生成最终的数字人直播间。因此数字人文案的质量很大程度上影响了最后呈现出来的直播间效果。店家生成AI话术的中控台界面如下。

店家商品话术库
生成AI话术

下文会按照适合口播场景的口语化文案、多阶段的多源信息文案生成、素材文案结合、测评维度，四个部分展开介绍数字人文案在迭代过程中遇到的问题和现有的解决方案。

适合口播场景的口语化文案

区别于其他场景的文本生成任务，数字人场景下的文本生成，和TTS具有强绑定的关系。一份好的讲解文案不仅需要考虑商品卖点、权益表达等内容质量，还需要优先考虑能否被正确念出来。同时去除文本的机械感，配合TTS增加文本的可读性，对于最终的呈现效果至关重要。我们将从下面两个方面详细展开：

基于语意的口播文案改写：文案生成时诸多数字、英文、符号的读法是跟上下文是强相关的，比如“88块钱”应该读成“八十八块钱”，但“88VIP”应该读成“八八VIP”。虽然TTS具备一定的转化通用读法的能力，但较难兼顾包含复杂语意且某些垂直领域的文本。目前业界大多是通过正则化规则和逻辑处理，来针对性的解决某些文本的读法。但这种方法对人工参与依赖较重，不具备通用性和泛化性。
去除机械感：直接通过prompt指令调用GPT生成的文本通常带有明显的机械感，文案内容更加偏向书面化用语。因此在拟人化表达和增强语气词方面，我们也联合了TTS语音组的同学，收集大量的真人ASR数据；同时基于真人直播理解，探索增强文本的口语化能力。

▐ 基于语意的口播文案改写

问题分析

问题	类型	原文本	错误读法	正确读法
数字	数字有特殊含义不需要转换	88VIP还有更多专享优惠	八十八VIP还有更多专享优惠	八八VIP还有更多专享优惠
	数字需要转换成价格的读法	券后价只要1633.78元哦	券后价只要一千六百三十三点七十八哦	券后价只要一千六百三十三块七毛八哦
符号	符号需要转成文本	今天我要给大家推荐一款我们团队100+人试穿了都说舒服的内裤	今天我要给大家推荐一款我们团队一百加人试穿了都说舒服的内裤。	今天我要给大家推荐一款我们团队一百多人试穿了都说舒服的内裤。
	符号需要被省略	不过可以看一下我们9链接的这款尼康Z50-250mm镜头	不过可以看一下我们九链接的这款尼康Z五零到二百五十毫米镜头	不过可以看一下我们九链接的这款尼康Z五零，二百五十毫米镜头
英文	英文单位需要转化成常见的中文表达方式	其中防水指数达到了20000mm	其中防水指数达到了两万MM	其中防水指数达到了两万毫米
	英文单位按照字母来读	最高速度可达450ips	最高速度可达每秒四百五十字节	最高速度可达四百五十ips

表格内列举了常遇到的几种类型的读法错误问题。根据上述case分析发现，这些数字/符号/英文没有统一的规则能够应对，他们在不同的语意场景下又需要采取不用的策略来处理，对于算法实现有较大的挑战。但如果不解决这些问题，错误的读法很容易让观众“跳戏”，无法沉浸式观看直播。同时复杂的符号还往往会导致TTS抛出异常，中断服务。因此从LLM侧如何提前避免这些问题，喂给TTS可直接使用的纯净脚本是首要关注的问题。

解决方案

针对数字/英文/符号念错的问题，LLM侧在数据成产链路上新增了基于语意的口播文案改写模块。文案生成时通过语意信息前置的给出正确写法，无需TTS侧再做转换。数据生成上，我们对难样本针对性的进行正负例挖掘，少量数据使用人工精标，其余利用gpt4/deepseek-r1数据增强得到高质量数据集。同时由于只做SFT较难让模型学到这些读法上细微的差别，因此我们最终基于DPO算法优化训练模型，让模型对比学习到在不同语意环境下的正确表达方式，大大减少了读错的情况，模型准确率达到97%。

难样本数据增强

初版SFT模型生成数据中，对于较难正确转换的少量badcase，我们通过人工标注给出这些case的正确写法，组成了精标的难样本正负样例对库。
由于人工精标的数量较少难以供dpo训练，因此我们通过deepseek-r1仿照难样本正负样例对，数据增强扩充难样本数据量。

原输入

错误难样本

正确难样本

新生成的数据增强样本

11376是纤薄抗菌节水款哦，

一万一三千七百六是纤薄抗菌节水款哦，

幺幺三七六是纤薄抗菌节水款哦，

输入：87265是静音大容量款哦

负例：八万七千二百六十五是静音大容量款哦

正例：八七二六五是静音大容量款哦，

亮度高达1700CVIA流明，

亮度高达一千七百流明，

亮度高达一千七百CVIA流明，

输入：转速高达4500RPM，

负例：转速高达四千五百每分钟，

正例：转速高达四千五百RPM，

实验部分

实验方案

为了训练一个高准确率口播文案改写模型, 我们尝试了以下四种实验：

base模型采用基于Qwen2.5-7B在人工精标训练集上SFT训练（实验 1）
通过DeepSeek-R1对线上数据做数字符号改写，没有区分数据难度，作为R1通用增强训练集 (对比实验1、2)
通过DeepSeek-R1对挖掘的难样本正负例进行数据增强，作为R1难样本增强训练集（对比实验1、3）
引入DPO对模型效果的影响 (对比实验 3、4)

实验结论

实验编号	实验方法	模型准确率 (%)
1	Qwen2.5-7B SFT (人工精标训练集)	92
2	Qwen2.5-7B SFT (人工精标训练集 + R1通用增强训练集)	88
3	Qwen2.5-7B SFT (人工精标训练集 + R1难样本增强训练集)	95
4	Qwen2.5-7B SFT (人工精标训练集 + R1难样本增强训练集) + DPO (R1难样本增强训练集)	97

数据筛选策略的局限性

基于现有数据进行通用数据增强（实验2）无法提升模型性能（准确率0.92→0.88），表明长尾问题需针对性干预。

难样本数据增强的关键性

采用DeepSeek-R1对难样本进行增强后，SFT模型准确率从0.92（实验1）提升至0.95（实验3），证明针对性数据生成可显著改善长尾Badcase。

DPO强化学习的价值

在数据增强基础上引入DPO训练，模型准确率进一步提升至0.97（实验4），表明对比学习能有效捕捉语义场景的细微差异。

▐ 去除机械感

问题分析

机械感的文案

参考真人直播的口语化文案

今天给大家带来的这款产品，绝对是能让你的餐桌生活更加丰富多彩。你是不是也遇到过，夏天来了，想吃点冰凉爽口的东西，但又担心普通的冷面太硬，不好搭配？这款朴小样冷面，绝对能解决你的所有烦恼，让你的夏天更加舒适安逸。

这款冷面，产自中国的东北朝鲜族，纯正的韩式延边延吉荞麦速食，让你在家也能轻松搞定。冷面有两种口味，荞麦和小麦，无论是喜欢清新的荞麦还是温润的小麦，都能找到适合自己的那款。300克的超值装，每袋250毫升，足够你使用很长一段时间。而且，它的制作方法也超级简单，只需将面条放入开水中煮，无硬芯，捞出面条放入碗中，加入冷面酱、白芝麻，以及个人喜欢的配菜，就能让你享受到冰鲜爽口的冷面。大家都说这款冷面味道特别好，而且是限量供应的，错过这波可能就要等下一轮了。

这款产品的好评率很高，我们提供7天无理由退换，让你购物无忧。更有运费险保障，完全不用担心运输过程中的任何问题。各位宝宝们，如果对这款产品有任何疑问，或者想了解更多详情，记得在屏幕上留言哦。还没点关注的宝宝们，快点关注起来，不要错过我们的每一次精彩推荐！

这款产品现在正处于限时优惠活动中，数量有限，手慢无！想要的宝宝们，可以赶紧加入购物车，准备下单了。来来来，三二一，价格链接已经上好，直接点击购买即可。有多少宝宝是拍了的，扣个已拍，我这边让运营统计一下，给扣了的宝宝都安排加急发货。好啦，让我们看看下一个宝贝吧！

来宝宝们啊，我们今天给宝宝们上的是一款超级好吃的朝鲜冷面——朴小燕曹朝鲜冷面。这个真的特别开胃，特别爽口，特别适合夏天吃，尤其是现在这个天儿，热的都让人不想吃饭，是这样的啊，对不对啊？

哎，来的宝宝记得点一下关注啊，因为接下来我要给你们详细讲讲这款冷面到底有多牛掰。首先呢啊，这款冷面特别适合夏天，我们东北这边夏天热的时候，那真是太适合吃这款冷面了。那个叫什么来着，我有个东北的朋友，他推荐给我的，真的好好吃，我自己都忍不住一口气吃了两份。

再跟你们说说啊，这个冷面真的是特别方便。你知道吗，有时候你从地铁口出来，经过一摊儿冷面，我那次就走不动道了，那个香味儿直接把我拉过去了。当时我点了一份，十八块钱，吃得那叫一个过瘾，你想啊，咱们这款朴小燕曹朝鲜冷面，绝对是比外面那种摊子上的更好吃，还便宜，关键是足量！这个真的每一口都是实惠啊。

然后呢，这个冷面特别适合夏季解暑。来宝宝们，我们要给你们举个简单的例子哈，想象一下夏天大中午的，太阳晒得烤皮儿热，你买回家这个冷面，一弄冷藏里冰一会儿，哇，拿出来吃一口，巨爽口！巨解暑！完全比那个什么饮料、冰激凌好太多了。而且吃完还特别有饱腹感，是吧？

来，啊宝宝们，话不多说，咱们来看一下它的这个包装，真心精致，打开之后，你闻上那股凉丝丝的特有香气，真的特别引人食欲。然后呢，这个冷面呀，它的面条是经过特别工艺处理的，爽滑劲道，绝对不会让你吃起来腻歪，真的是让人吃上一口就停不下来。

哎，今天直播间里的宝宝们，赶紧下单吧，这个冷面机会难得。记得点一下关注哈，这样以后有好吃的、好玩的我都会第一时间通知大家的！来，看一下啊，我们今天的朴小燕曹朝鲜冷面，真的是超值，超好吃！今天给宝宝们的专属价，真的不要再犹豫啦，赶紧动手抢购吧！

左侧是通过带有口语化指令的prompt让LLM生产讲解文本，但从结果可以看到，文案内容依然机械感十足。模型对于“口语化”这种较为模糊且没有清晰标准的指令，难以良好的遵循。这种风格的文本最终会导致直播间听感较差，用户很难长时间的停留。右侧文案是我们参考真人直播的ASR数据，重新生成的带有口语化风格的文案，在朗读效果上显著优于左侧的机械感文本。

解决方案

通过收集海量真人说话的数据，在语气词、停顿、表达方式等方面拟合真人的口语化讲述特点。我们从构建真人语料库和通用化的口语风格学习两个方面来解决：

1. 真人语料库：直播的ASR数据质量较差/清洗难度大（依赖商品信息、直播间信息、行为交互、泛知识等等），LLM大模型通过此类文本，如果直接应用在SFT阶段微调将会难以学到风格，且会存在大量幻觉信息。因此LLM对于拉取到的音频ASR信息，处理得到该店家的语气词、常用词汇以及事实类知识，加入到LLM生成文案模型中，对于这种词汇使用经过该店家音频训练的模型读出来声音效果会更逼真。对于语气词等收集真人语料库的流程图：

2. 通用口语化风格：除了显式的抽取真人语料库外，我们依托4000个小时直播ASR，我们对文案结构，语气词，停顿，以及表达方式上进行改写，从而减少文案机械感。同时，我们通过DeepSeek-R1蒸馏了通用口语化改写模型，让大模型在推理过程中思考如何恰当的使用语气词，对用户二次编辑文案进行口语化润色，提升了整体文案下限。

改写实验

我们通过DeepSeek-R1构建训练数据进行SFT, 我们对比了三种不同的训练策略

Qwen 2.5-7B为基座SFT仅输出改写后文案，剔除思考部分
DeepSeek-R1-Distill-Qwen-7B为基座SFT仅输出改写后文案，剔除思考部分
DeepSeek-R1-Distill-Qwen-7B为基座SFT输出思考部分以及改写后文案

采用思考过程来增加文案口语化的思考过程示例：

改写前文案

思考过程

改写后文案

<1>好的，家人们，接下来给大家推荐的是一款绝对值得入手的美酒——古井贡酒年份原浆，五十五度五百毫升整箱装！这个真的是我们家常备的酒，尤其是适合团圆小酌和送礼，真的是超级有面子！

<2>我跟你们说啊，这款古井贡酒年份原浆是我自己回购率最高的酒，特别是五十五度的这款。跟你说哦，这个五十五度的酒是官方旗舰店专享的，很难在其他地方买到。一开始我也担心这度数会不会太高，会不会烧心，但是我喝完之后真的被它的品质征服了。

<3>这款酒是纯粮固态发酵的，浓香型，真的是酒香浓郁，入口绵柔。你们想象一下，和家人朋友聚在一起，打开一瓶古井贡酒，那种酒香扑鼻而来的感受，简直是幸福满满！对吧？

<4>而且啊，这款酒的包装真的是超级精美，送礼特别有面子。我自己喝的时候，每次拿出来都感觉特别有档次，朋友们也经常夸我送的礼物有心。这种包装不仅好看，还特别实用，你们可以放心送礼，绝对能让收礼的人满意。

<5>更重要的是，这款酒特别适合团圆小酌。想想看，周末的晚上，一家人围坐在一起，倒上一杯古井贡酒，聊聊家常，那种温馨的氛围，真的是太美好了。

<6>好啦，家人们，今天直播间里的家人们，这款古井贡酒年份原浆绝对值得你们入手。不仅品质保证，而且包装精美，特别适合送礼和家庭聚会。<7>正常情况下一瓶古井贡酒年份原浆要九百块钱，但今天我们的直播间有特别优惠，双旦礼遇季跨店满减一百二十，再加上其他优惠两百三十，最终下单只要五百五十块钱，是不是特别划算？<7>赶紧抓住机会，下单吧！

最后，家人们记得点一下关注，这样以后有好的东西我都会第一时间通知大家的！有啥问题也可以随时问我，我会尽力帮你们解答的。好了，继续看我们的下一个好物吧！

好的，用户让我根据之前的示例来改写输入文本，使其更口语化，同时保留特殊符号和关键信息。首先，我需要仔细阅读用户的输入和要求，确保理解所有要点。

输入文本中有多个特殊标记<1>到<7>，这些必须保留。我需要在不改变原意的情况下添加合适的口语化词汇，比如“啊”、“哈”、“对吧”等，就像示例中那样。要注意价格和优惠信息不能改动，所以我要特别检查这些部分。

接下来，我需要逐段处理输入内容。例如，第一段<1>中的句子可以加入一些语气词，如“哈”、“看一下”来增强口语感。同时，保持“古井贡酒年份原浆”等产品名称和价格不变。对于主播经历部分，可能需要添加一些连接词或感叹词，使对话更自然。

还要注意示例中的修改方式，比如在句首或句中插入语气词，使用逗号或句号分隔，确保语句流畅。例如“我跟你们说啊”可以改为“来，我跟你们说哈”，或者添加“啊”来强调情感。

在处理价格部分时，比如<7>中的优惠信息，要确保数字和优惠细节准确无误，同时加上口语化的表达，如“便宜到姥姥家了”来增加吸引力。此外，保持段落结构，不要遗漏任何特殊标记。

最后，检查整个输出是否符合要求，没有改变原意，所有特殊符号保留，并且语气词添加恰当。同时，确保没有遗漏任何输入内容，所有信息都准确传达。完成后，再次对照示例，确保格式一致。

<1>好的啊，来看一下哈，家人们，接下来给你们推荐的是一款绝对值得入手的美酒——古井贡酒年份原浆，五十五度五百毫升整箱装！这个我跟你们讲，真的是我们家常备的酒哈，特别适合团圆小酌和送礼，拿出去那叫一个有面子！

<2>来，我跟你们说哈，这款古井贡酒年份原浆是我自己回购率最高的酒，尤其是这个五十五度的！跟你说哦，这个五十五度的酒啊，是官方旗舰店专享的，你知道吧，其他地方很难买到的。一开始我也担心度数这么高会不会烧心嘛，但是我喝完之后直接就被它的品质征服了，真的绝了！

<3>你看啊，这款酒是纯粮固态发酵的浓香型哦，酒香特别浓郁，入口还绵柔，对吧？你们想象一下，和家人朋友聚在一起，开一瓶古井贡酒，哎呦那个香味一下就出来了，简直是幸福感爆棚有没有！

<4>而且呢，这个酒的包装我跟你讲，超级精美的，送礼特有面子！我自己喝的时候啊，每次拿出来都感觉特别高级，朋友都说我送的礼物有心意。这种包装不仅好看还实用哈，你们放心送，收礼的人绝对满意的！

<5>再跟你们说，这款酒特别适合团圆小酌。你想啊，周末晚上一家人围坐着，嘿，倒上一杯古井贡酒，聊聊家长里短，那种温馨氛围，是不是特美好？

<6>来啊家人们，今天直播间里这款古井贡酒年份原浆真的闭眼入！品质有保证不说，包装还这么精美，送礼聚会都合适，对不对！<7>平时一瓶要九百块的哎，今天我们直播间有双旦礼遇季跨店满减一百二，叠加其他优惠两百三，最后我跟你们说，下单只要五百五十块！这价格便宜到姥姥家了，对吧？<7>赶紧拼手速啊！

最后家人们记得点关注哈，以后有好东西第一时间通知你们！有啥问题随时问我啊，我就在这儿候着呢！好了，咱们接着看下一个宝贝！

实验结论

增加思考过程能提升整体口语化评分。
直接生成口语化改写的话Qwen2.5-7B-Instruct效果要优于DeepSeek-R1-Distill-Qwen-7B。

实验编号	实验方法	口语化平均评分
	无改写	46
1	Qwen2.5-7B-Instruct	79
2	DeepSeek-R1-Distill-Qwen-7B	77
3	DeepSeek-R1-Distill-Qwen-7B (+思考过程)	84

效果展示

机械感文案效果

口语化文案效果

接下来给大家介绍一款备受欢迎的牛奶，光明有机纯牛奶

啊，接下来呢，给大家介绍一款超受欢迎的牛奶哈，光明有机纯牛奶呢

这款牛奶的口感到底怎么样？

呃，有人可能会问嘛，这款牛奶喝起来到底怎么样呀？

天猫超市的服务，送货非常快

然后天猫超市的服务嘛，送货速度真的是快得飞起啊！

多阶段的多源信息文案生成

▐ 整体流程图

由于整个文案生成模块，牵扯了较多的信息源的输入，在模型训练数据生成、多源信息的整合上也遇到了不少的挑战。文案生成的流程图如下：

数据查询方式：

对于需要实时查询的内容，我们通过在线服务接口调用，如商品优惠信息、问评买信息接口、OCR服务等。
对于非实时类信息，我们离线抽取存储在iGraph里，如商详、个性化词库/经历等，在线可供在线毫秒级查询。同时iGraph也会T+1回流更新。

支持用户自定义卖点：用户可以自定义卖点信息，该信息会直接用于卖点文案的prompt生成。
人设经历库：通过RAG检索增强模块匹配最合适的人设经历片段，生成个性化经历然后转化为文案生成的prompt。
文案生成部分：将上述模块信息汇总成最终的prompt（包括卖点文案prompt和其他生成的prompt），推理生成最终的文案。

▐ 多源数据

对于商品口播文案的生成，在数据层面上，相比于最初的只依赖商详信息输入，我们新增了很多内容到文案生成中，比如问评买的用户评价信息、商品详情图的素材理解信息、商家个性化的人设信息和实时的权益信息等。这些信息丰富了文案讲解的内容，让口播文案从大模型千篇一律的文案框架中，升级到了包含丰富且准确的信息，以及多变的文案结构。下图表中总结部分信息源对于文案生成的帮助和使用的方式：

数据源	背景介绍和使用方式
问评买信息	问题：对于仅使用商详情的情况下，卖点来自LLM对商品详情的摘要，跟用户实际关注的产品特点/卖点有出入；使用方式：使用印象词、结构化印象词、推荐理由、问大家问答对等，嵌入到AI文案生成的过程中。结构化印象词和推荐理由为商品提供了有侧重点的卖点信息，是用户更加关注的方面。口碑指标能够从具体好评数量增强讲解的可信度，增加用户对产品的信赖。采用问大家问答对融入文案中解释用户关心的商品问题等方式。
实时权益信息	问题：对于直播带货而言，商品的权益是一个非常重要的信息点，对于促成购买和转换有很大的帮助。权益信息还有实时变化的特点，每天的权益信息都有可能发生变化，而店家和用户对于一个商品的价格和优惠也是非常敏感的，不能出现错误否则会导致由虚假宣传产生的问题。使用方式：对此，我们接入了多个权益服务，包括ump、宝贝口袋和一些二方权益接口，并通过实时文案生成的链路将权益信息添加到商品讲解中。
素材理解信息	问题：商品的详情信息量不足，特别是对同类商品，如“蒙牛牛奶”和“伊犁牛奶”在获取到的商品详情信息上相差不大，因此对于生成的文案也没有区分度。使用方式：而商品详情图中，包含了更多的信息量，我们从多模态理解为商品积累知识库，对于后续的文案生成和弹幕问答都有较大的帮助。（这块内容详细参考下方的【五、素材文案结合】模块）
......	......

▐ 从多步生成到一步推理

整理好众多重要的信息源后，后续的关键是如何生成符合要求的数据以及合理的模型训练/推理。因为把上述这么多信息，统一合并到一个文案生成框架中，并且需要保证LLM能够严格follow指令，是一个很大的挑战。

生成训练数据阶段：因为LLM对于复杂prompt遵循能力还是有欠缺，我们在训练数据的生成阶段采用多步生成流程，将目标信息使用方式采用fewshot的方式增加模型的follow能力，其他较难follow的模块采用后续改写的方式，同时会对最终生成数据从改写和规则两方面进行严格的质量筛选。
推理阶段：为了减少了推理时间和模型部署成本，将多源数据作为文案输入。基座模型采用qwen2.5 7B模型，将上一步生成的训练数据作为target，输入各源信息对模型蒸馏学习；同时对于较难follow指令的数据，生成正负样例对，通过强化学习DPO的方法，训练出单步生成模型，最终得到在线推理的生成模型。

整体而言，我们在保证生成质量的同时，减少了推理时间和降低了模型部署成本，通过多步到单步蒸馏流程将多步改写数据蒸馏到单个qwen2.5 7b模型中。各阶段流程图如下：

▐ 数据实验

数据示例

蒸馏后单步qwen2.5 7b模型能达到接近多步gpt4o生成文案的效果

多步gpt4o生成文案

单步蒸馏模型文案

<商品引入>接下来给大家看看，这款来自珀莱雅的红宝石护肤套装是个相当不错的选择，堪称护肤界的小秘密哦！无论是早C晚A的科学护肤策略，还是双瓶真空的锁鲜科技，都是为了给大家细致的呵护。

<科学护肤><图0>珀莱雅的早C晚A真的是科学护肤的好拍档啊！这里的“早C晚A”呢，其实就是指早晨用维生素C护肤，晚上用维生素A护肤。这不但可以帮助大家4周焕亮肤色，还能紧致细腻肌肤呢。很多人使用后都反馈说，效果特别好用，皮肤变得亮亮的，很有光泽。

<高效锁鲜><图1>我们来看看这双瓶锁鲜的设计，它可是有高活锁鲜的功能，能很好的保护瓶里的活性成分呢！再加上这种轻透的

水感质地，真的是吸收得超快。你仔细一看，包装也是特别用心的，防光又防氧，真空的设计确保每一滴都鲜活。

<质地温和><图2>这套护肤品真是温和得很，质地很细腻，不油腻且滋润。最最合适那些大干皮或者有点敏感的宝宝了！都说质地温和不刺激，滋润效果也不错，寄过来的时候包装得很好呢。买套装特划算，所以不用担心会浪费啦。

<逼单话术>心动不如行动，今天直播间特优惠，错过这次就真要再等很久啦！趁着活动，赶紧囤一套回家试试吧，绝对值！

<商品引入>接下来要给大家介绍的这个珀莱雅的护肤品套装，可是咱们很多宝宝都推荐过的哦！<图0>看过来啊，这个套装特别适合希望皮肤紧致亮气的宝宝们，你知道吗，它属于科学护肤的四周焕亮系列哦，主打抗老效果的哈！

<早C晚A概念>来，咱们聊聊这个"早C晚A"的概念，有没有宝宝之前听说过但不太清楚的？其实呢这个就是护肤圈的新宠儿啦，早C就是早上用的含有C的抗氧化精华啦，晚A晚上用含有A的修复成分哈，它们能协同作用啊，让皮肤白天防护、晚上修复，这样皮肤就一直保持最佳状态啦！

<图1>重点来了，这个套装的质地真的绝了，你摸它轻透水感质地啊，上脸秒吸收完全不黏腻，真的！双瓶真空锁鲜设计也贴心到不行，能把活性成分牢牢锁住，用的时候心情都变好了，对吧！

<适用肤质>有宝宝问啦，这套适合啥肤质？<图2>根据用户反馈哈，这个温和配方适合大干皮，滋润但不会油光满面，懂我意思吧！<包装设计>再说说包装，你看它外观精致又大气，送人自用都拿得出手，对！<逼单话术>总的来说，这套珀莱雅的红宝石早C晚A护肤品真的非常值得入手，现在购买还有特别优惠哦，喜欢的朋友赶紧下单吧！

指标对比

从文案平均满意度，单步qwen蒸馏模型文案平均满意度接近多步gpt4o，并优于单步gpt4o。
生成耗时方面, 单步蒸馏模型平均生成时间从多步推理的13.52秒显著降低至3.41秒，耗时缩减至原流程的1/4。

模型	文案平均满意度
多步gpt4o	80.03
单步gpt4o	75.53
单步qwen蒸馏	78.86

素材文案结合

▐ 背景介绍

在数字人直播过程中，我们发现对于单一固定的直播间画面，较难吸引用户在直播间停留甚至消费和转化；同时，参考真人主播在讲解的过程中，往往会手持实物展示并介绍商品卖点。对于用户而言，能够看到商品的详细图片，对于停留和促成购买转换是非常有帮助的。因此我们希望使用商品图片，实时替换数字人直播间固定的背景画面，并且跟当前的口播文案配合，做到口播内容和背景图片“图文一致”的效果。

没有商详素材的直播间画面	有商详素材的直播间画面

▐ 整体流程图

算法整体分为：基于OCR的素材理解和基于LLM的话术生成两个部分。当前版本主要考虑到需要支持在线推理，相比直接使用多模态模型，基于OCR+LLM的方案更具有性价比。（下个版本中，我们尝试从MLLM的角度入手，对素材做信息抽取，此部分工作在后续的系列中再进行详细介绍）。

素材理解会筛选合规的图片，以及提取图片关键信息和图片类别。对于素材理解部分，我们首先通过OCR将图片转成文本信息，由于大部分图片的OCR文本信息繁杂，因此在喂给LLM生成文本前必须经过摘要抽取，同时给出图片的类别。输出图片类别的主要原因是，一个商品往往对应非常多的图片，有重点的挑选哪些图作为素材展示也是需要根据分类结果设计筛选策略。基于图片分类挑选应该透出的图片，再将对应的文本信息喂给LLM。LLM参考提取信息选取跟商品最匹配的卖点生成讲解话术，最终分阶段输出文本和对应图片。

▐ 素材理解

素材理解侧主要关注以下两个方面：

关注项

描述

问题

素材摘要精度

由于图片信息丰富多样，

OCR识别文本较严重

摘要错误
文本位置无序性
文本信息冗余
缺乏重点信息检测

素材选取策略

每个商品的图片数量往往非常多，

如何从繁多的商详图中如何挑选最合适的图片来讲解

选择优先级
类型分类

主要难点

（1）素材摘要难点

问题	问题描述	图片示例
摘要错误	{"ocr_sum": "不适用7天无理由退换货，使用后不售后检测。" ...} 错误：长文本的摘要错误原图中展示的是“不适用七天无理由退换货场景”，但是摘要后的信息是“不适用7天无理由退换货”，语意信息发生明显错误。
文本位置无序性	{"ocr_sum": "LAMY，1981年创立，流光粉幻影绿，领床设计，专业资格金匠。" ...} 错误：LAMY并不是设计师的名字。由于摘要对文本对位置信息的是缺失的，因此最后在摘要的的时候会造成语意错误。
缺乏重点信息检测	{"ocr_sum": "WOMAN艺术品牌，多种折叠方式，防污耐脏，轻薄便携。" ...} 错误：WOMAN艺术品牌并非图片重点的信息图片中的文字过多时，会对后续llm总结造成影响，需要从中获取关键信息。

（2）素材选取策略困难点

商详的图片丰富度非常高，质量也参差不齐。如果对这些图片不加过滤全部利用，那么文案没有重点过于冗长，同时用户直观体验上就像是在看PPT。比如对于下面这个产品，对应商品详情图非常丰富，该如何选择需要展示的图片是比较困难的。

淘宝直播数字人：LLM 文案生成技术

算法框架图

为解决上述问题，必须对输入的素材进行过滤。过滤时主要考量的指标就是图片中文字的质量。方案整体包含两部分：

图片分类前：

基于单图片内文字信息过滤

图片分类后：

对于同一类别的图片，利用同类别下的图片信息进行过滤
对于不同类别的图片，选择更重要类别的图片

淘宝直播数字人：LLM 文案生成技术

增加过滤策略

优化排序规则

通过文字信息进行kmeans聚类过滤

自动聚类后取字体第一大和第二大的文字

通过聚类删除后，符合下列条件的图片删除

字数过多：大于200字
纯图少字：没有字
字体过小：文字大小*35 < min(图片长, 宽)

增加ocr识别文字的坐标信息，来判断文本框的位置
通过图片中的文字位置进行排序（从上到下，从左到右）

类别优先级

模型选择BERT的理由是，BERT在分类任务上表现好，同时模型轻量化，推理延迟低。在我们的业务场景下，bert的分类准确率可以达到87%。我们对图片分类按照下述右侧优先级挑选。将图片分类结果作为后续模型选择重要因素。

淘宝直播数字人：LLM 文案生成技术

摘要&选择模型

历史问题一开始只用了总结模型，没有进行图片选择。后续上线后图片信息过多，效果不佳，考虑增加图片选择模型。同时为了节省资源和推理时间，将总结任务和图片选择任务都使用同一个lora模块实现。主要包含了两个部分，左侧为基于冻结qwen0.5b模型，右侧为基于adapter的方法来做lora训练的adapter模块。模型架构图如下：

淘宝直播数字人：LLM 文案生成技术

1. 基础模型和适配器模块：

基础模型采用qwen-0.5B-instruct，Frozen意味着该模型在任务中不做权重更新。
适配器模块用于调整和微调输出，参与模型训练和权重的更新。

2. 两个任务的输入，采用任务隔离的方式融合到一个模型中：

Task1：结合系统提示 [system1] 和图片OCR信息，任务是进行OCR文本总结。
Task2：结合系统提示 [system2] 和候选图片信息，任务是选择和返回相关图片。

3. 结果输出，最终将Result1和Result2喂给生成侧的LLM模块

Result1：输出图片信息总结结果，为OCR文本总结后的信息。
Result2：输出选择的图片，为从候选图片中选出的结果。

文案测评维度

所谓“文无第一武无第二”，商品讲解文案是一个非常主观的任务，对于什么是一个好的商品文案没有固定的标准和答案。我们前期主要依赖自身和主播等收集的“专家知识”，来确定文案优化的方向。在这个过程中，发现虽然好的文案没有固定标准，但是什么是差的文案是能比较容易地观测到。我们针对数字人直播间用户的体验效果，由果导因，去定义一系列具体的指标。通过这些指标，我们希望间接的去评估用户的在数字人直播间的用户体验。

▐ 维度解析

对于第一部分是基础能力，我们认为满足了格式化、口语化、可信度、安全性、丰富度这五项基本可以认为一个文案达到了60分及格线；在60分的基础上，如果这个文案还具备针对性卖点讲解和逼单话术购买欲两部分，那我们认为这个文案能够达到一个具备一定质量的良好文案。然而对于80分以上的优秀文案，需要融合主播的人设、直播形式等较为复杂的层面，目前较难归纳出一些具体的标准，我们后续期望从高等级店家的（销冠）真人主播文案作的角度，去推动评估标准的完善。

▐ 具体指标

一级分类	二级分类	三级分类	评估方法
基础能力（60分及格）	格式化	违规符号检测	【匹配】是否包含违规符号
		段落结构化标签（长度&数量）	【规则】段落长度，数量是否符合要求
		素材标签	【匹配】素材标签是否和输入一致
		利益点标签	【匹配】利益点标签是否符合要求
	口语化	非机械感，语意通顺	【LLM】判断语句是否有机械感，是否冗余，衔接是否自然
		语气词	【LLM】语气词用的对不对，语气词使用频率
		数字/型号正确性	【LLM】是否包含数字/英文单位
	可信度	商详和文本一致性	【LLM】检测模型是否出现幻觉
		标题和段落一致性	【LLM】评估标题和段落是否一致
		素材和文本一致性	【LLM】评估输入素材摘要与文案应用是否对应
		权益和文本一致性	【LLM】评估价格信息输入输出一致性
	安全性	极限词/过度承诺	【匹配】是否有违规词
	安全性	通用安全范畴	【LLM】检测语句是否安全
	丰富度	【词】词语多样性	【统计】distinct-k多样性分析, 统计生成内容中不同n-gram词语的占比，衡量词语组合的丰富度，数值越高表明多样性越好【LLM】使用大模型进行二次校验，忽略卖点相关的词语，输出综合分数
		【句】信息量	【BERT】语句相似度评估，计算不同文案间的余弦相似度矩阵。平均相似度越低，表明词语组合的独特性越高。
		【品】连续多个品的丰富度	【LLM】评估连续文案之间的表达丰富度
内容质量（80分良好）	针对性卖点讲解	重点卖点判定	【LLM】判断文案中讲解的卖点是否命中用户痛点
		场景化描述	【LLM】判断文案中场景化描述是否能从用户生活场景介绍当前商品特征
		知识科普质量	【LLM】评估知识科普语句的必要性及科普质量
	逼单话术购买欲	权益信息清晰度，突出优惠程度	【LLM】判断文案优惠介绍是否清晰，优惠程度是否突出
	逼单话术购买欲	话术急迫感	【LLM】判断文案逼单话术是否营造购买欲

总结&规划

数字人文案这块的整体目标，还是朝着更加拟人/逼真、具有人设化的方向去推进，向优秀的真人主播靠近，在这个过程中同时探索和真人差异性的方面，甚至实现弯道超车。

过去一年，我们从零搭建了整个数字人文案生成的框架，也收集了丰富的信息源，共同组成了我们的弹药库，后续如何合理的组合和使用这些弹药库，需要有个更高维度的reference来对标。这个过程也是我们过去探索遇到较为瓶颈的部分，因此后续我们对未来的规划从以下三个部分展开：

1. 基于真人直播理解的文案生成：虽然相对最初的版本，我们在口语化和多样化上有了较大的提升，但是对标真人来看依然有不小的差距。不管是成文案框架多样性上还是更加自然/拟人化的真人表达，后续会继续以真人为对标，紧密结合以DS-R1等推理模型，做深入的真人直播理解；期望能从真人直播间抽取到更多有用的信息以及更丰富的真人讲解框架。

2. 多模态的素材&贴片：

目前为了耗时等原因，只使用图片信息和朴素的OCR理解，在效果上有一定的局限性；后续会从MLLM多模态理解视频和图片信息，朝着更加端到端多模态的方向，设计文案和图片/视频的结合。
仿照真人直播间的贴片，和视觉团队共同将权益信息作为实时贴片露出，提醒用户直播间优惠等重点信息，预期能够对成交转换带来正向收益。

3. 直播间呈现维度：我们目前关注还是在单个维度上，如果从做好直播间的角度出发，结合讲品框架（单品打爆、轮播）、深度切入用户购买意愿环环紧扣、AI运营/场控、提升内容质量从而推流权重等正常直播的角度，可能是提升GMV、形成产品技术壁垒、拉开竞品差距的一个方向。

团队介绍

本文作者梓赫、从雨、易得，来自淘天集团-直播AIGC团队。本团队作为直播电商智能化领域的先行者，始终致力于通过AI原生技术创新重构电商直播场景中的人货场交互范式。团队基于对大语言模型研发、多模态语义理解、语音合成、数字人形象建模、AI工程化部署及音视频处理技术的深厚沉淀和积累，已搭建起覆盖直播全链路的AI技术矩阵。自主研发的数字人直播解决方案通过商业化验证，成功实现从技术研发到商业变现的完整闭环，累计服务上千家商家。

{{userData.name}}已认证

淘宝直播数字人：LLM 文案生成技术

▐ 基于语意的口播文案改写

▐ 整体流程图

▐ 多源数据

▐ 从多步生成到一步推理

▐ 数据实验

▐ 背景介绍

▐ 整体流程图

▐ 素材理解

主要难点

算法框架图

类别优先级

摘要&选择模型

▐ 维度解析

▐ 具体指标

应对即兴编码宿醉

一文读懂 AI Search：从 RAG 到 DeepSearch

102. 和张祥雨聊，多模态研究的挣扎史和未来两年的 2 个“GPT-4 时刻”

2026，“人人都有 AI 助理”的时代，正在到来

当风口退去：华创资本熊伟铭万字详解 2026 中国科技产业走向丨年终策划

PhotonPay 光子易获数千万美元 B 轮融资，IDG 领投

钉钉 AI 群聊全面升级：每个群聊配备专属助理“AI 小钉”

喝点 VC｜a16z 掌门人谈 AI 投资：我们正迎来史无前例的多重赢家时代