文章详细介绍了淘宝直播团队如何运用大语言模型(LLM)技术优化数字人直播的文案生成。核心挑战在于生成适合直播口播、信息准确且具备真人风格的文案。文章重点阐述了两方面技术实践:一是基于语义的口播文案改写,利用 DPO 算法优化模型,解决数字、符号、英文等的错误读法问题,准确率达 97%;二是通过分析真人直播 ASR 数据,学习口语化表达,并引入带有“思考过程”的蒸馏模型,有效减少文案的机械感。此外,文章还详细描述了如何整合多源信息,包括问评买、实时权益、商品详情图素材理解、商家个性化人设等,以丰富文案内容和结构。这些技术共同构建了淘宝直播更逼真、高效的数字人直播能力。

引言

业务背景介绍
|
|
![]() |
|
|
![]() |

适合口播场景的口语化文案
-
基于语意的口播文案改写:文案生成时诸多数字、英文、符号的读法是跟上下文是强相关的,比如“88块钱”应该读成“八十八块钱”,但“88VIP”应该读成“八八VIP”。虽然TTS具备一定的转化通用读法的能力,但较难兼顾包含复杂语意且某些垂直领域的文本。目前业界大多是通过正则化规则和逻辑处理,来针对性的解决某些文本的读法。但这种方法对人工参与依赖较重,不具备通用性和泛化性。
-
去除机械感:直接通过prompt指令调用GPT生成的文本通常带有明显的机械感,文案内容更加偏向书面化用语。因此在拟人化表达和增强语气词方面,我们也联合了TTS语音组的同学,收集大量的真人ASR数据;同时基于真人直播理解,探索增强文本的口语化能力。
▐ 基于语意的口播文案改写
-
问题分析
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
-
解决方案

-
初版SFT模型生成数据中,对于较难正确转换的少量badcase,我们通过人工标注给出这些case的正确写法,组成了精标的难样本正负样例对库。
-
由于人工精标的数量较少难以供dpo训练,因此我们通过deepseek-r1仿照难样本正负样例对,数据增强扩充难样本数据量。
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
-
实验部分
-
base模型采用基于Qwen2.5-7B在人工精标训练集上SFT训练(实验 1)
-
通过DeepSeek-R1对线上数据做数字符号改写,没有区分数据难度,作为R1通用增强训练集 (对比实验1、2)
-
通过DeepSeek-R1对挖掘的难样本正负例进行数据增强,作为R1难样本增强训练集(对比实验1、3)
-
引入DPO对模型效果的影响 (对比实验 3、4)
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
-
数据筛选策略的局限性
-
基于现有数据进行通用数据增强(实验2)无法提升模型性能(准确率0.92→0.88),表明长尾问题需针对性干预。
-
难样本数据增强的关键性
-
采用DeepSeek-R1对难样本进行增强后,SFT模型准确率从0.92(实验1)提升至0.95(实验3),证明针对性数据生成可显著改善长尾Badcase。
-
DPO强化学习的价值
-
在数据增强基础上引入DPO训练,模型准确率进一步提升至0.97(实验4),表明对比学习能有效捕捉语义场景的细微差异。
-
问题分析
|
|
|
|
|
|
-
解决方案


-
Qwen 2.5-7B为基座SFT仅输出改写后文案,剔除思考部分
-
DeepSeek-R1-Distill-Qwen-7B为基座SFT仅输出改写后文案,剔除思考部分
-
DeepSeek-R1-Distill-Qwen-7B为基座SFT输出思考部分以及改写后文案
|
|
|
|
|
|
|
|
-
增加思考过程能提升整体口语化评分。
-
直接生成口语化改写的话Qwen2.5-7B-Instruct效果要优于DeepSeek-R1-Distill-Qwen-7B。
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
-
效果展示
|
|
|
|
|
|
|
|
|
|
|
|

▐ 整体流程图

-
数据查询方式:
-
对于需要实时查询的内容,我们通过在线服务接口调用,如商品优惠信息、问评买信息接口、OCR服务等。
-
对于非实时类信息,我们离线抽取存储在iGraph里,如商详、个性化词库/经历等,在线可供在线毫秒级查询。同时iGraph也会T+1回流更新。
-
支持用户自定义卖点:用户可以自定义卖点信息,该信息会直接用于卖点文案的prompt生成。
-
人设经历库:通过RAG检索增强模块匹配最合适的人设经历片段,生成个性化经历然后转化为文案生成的prompt。
-
文案生成部分:将上述模块信息汇总成最终的prompt(包括卖点文案prompt和其他生成的prompt),推理生成最终的文案。
▐ 多源数据
|
|
|
|
|
![]() |
|
|
|
|
|
|
|
|
|
▐ 从多步生成到一步推理
-
生成训练数据阶段:因为LLM对于复杂prompt遵循能力还是有欠缺,我们在训练数据的生成阶段采用多步生成流程,将目标信息使用方式采用fewshot的方式增加模型的follow能力,其他较难follow的模块采用后续改写的方式,同时会对最终生成数据从改写和规则两方面进行严格的质量筛选。
-
推理阶段:为了减少了推理时间和模型部署成本,将多源数据作为文案输入。基座模型采用qwen2.5 7B模型,将上一步生成的训练数据作为target,输入各源信息对模型蒸馏学习;同时对于较难follow指令的数据,生成正负样例对,通过强化学习DPO的方法,训练出单步生成模型,最终得到在线推理的生成模型。

▐ 数据实验
-
数据示例
|
|
|
|
|
|
-
指标对比
-
从文案平均满意度,单步qwen蒸馏模型文案平均满意度接近多步gpt4o,并优于单步gpt4o。
-
生成耗时方面, 单步蒸馏模型平均生成时间从多步推理的13.52秒显著降低至3.41秒,耗时缩减至原流程的1/4。
|
|
|
|
|
|
|
|
|
|
|
|

▐ 背景介绍
|
没有商详素材的直播间画面 |
有商详素材的直播间画面 |
|
|
|
▐ 整体流程图
算法整体分为:基于OCR的素材理解和基于LLM的话术生成两个部分。当前版本主要考虑到需要支持在线推理,相比直接使用多模态模型,基于OCR+LLM的方案更具有性价比。(下个版本中,我们尝试从MLLM的角度入手,对素材做信息抽取,此部分工作在后续的系列中再进行详细介绍)。
素材理解会筛选合规的图片,以及提取图片关键信息和图片类别。对于素材理解部分,我们首先通过OCR将图片转成文本信息,由于大部分图片的OCR文本信息繁杂,因此在喂给LLM生成文本前必须经过摘要抽取,同时给出图片的类别。输出图片类别的主要原因是,一个商品往往对应非常多的图片,有重点的挑选哪些图作为素材展示也是需要根据分类结果设计筛选策略。基于图片分类挑选应该透出的图片,再将对应的文本信息喂给LLM。LLM参考提取信息选取跟商品最匹配的卖点生成讲解话术,最终分阶段输出文本和对应图片。

▐ 素材理解
素材理解侧主要关注以下两个方面:
|
关注项 |
描述 |
问题 |
|
素材摘要精度 |
由于图片信息丰富多样, OCR识别文本较严重 |
|
|
素材选取策略 |
每个商品的图片数量往往非常多, 如何从繁多的商详图中如何挑选最合适的图片来讲解 |
|
-
主要难点
(1)素材摘要难点
|
问题 |
问题描述 |
图片示例 |
|
摘要错误 |
{"ocr_sum": "不适用7天无理由退换货,使用后不售后检测。" ...} 错误:长文本的摘要错误 原图中展示的是“不适用七天无理由退换货场景”,但是摘要后的信息是“不适用7天无理由退换货”,语意信息发生明显错误。
|
|
|
文本位置无序性 |
{"ocr_sum": "LAMY,1981年创立,流光粉幻影绿,领床设计,专业资格金匠。" ...} 错误:LAMY并不是设计师的名字。 由于摘要对文本对位置信息的是缺失的,因此最后在摘要的的时候会造成语意错误。
|
|
|
缺乏重点信息检测 |
{"ocr_sum": "WOMAN艺术品牌,多种折叠方式,防污耐脏,轻薄便携。" ...} 错误:WOMAN艺术品牌并非图片重点的信息 图片中的文字过多时,会对后续llm总结造成影响,需要从中获取关键信息。 |
|
(2)素材选取策略困难点
商详的图片丰富度非常高,质量也参差不齐。如果对这些图片不加过滤全部利用,那么文案没有重点过于冗长,同时用户直观体验上就像是在看PPT。比如对于下面这个产品,对应商品详情图非常丰富,该如何选择需要展示的图片是比较困难的。

-
算法框架图
为解决上述问题,必须对输入的素材进行过滤。过滤时主要考量的指标就是图片中文字的质量。方案整体包含两部分:
-
图片分类前:
-
基于单图片内文字信息过滤
-
图片分类后:
-
对于同一类别的图片,利用同类别下的图片信息进行过滤
-
对于不同类别的图片,选择更重要类别的图片

|
增加过滤策略 |
优化排序规则 |
|
|
-
类别优先级
模型选择BERT的理由是,BERT在分类任务上表现好,同时模型轻量化,推理延迟低。在我们的业务场景下,bert的分类准确率可以达到87%。我们对图片分类按照下述右侧优先级挑选。将图片分类结果作为后续模型选择重要因素。


-
摘要&选择模型
历史问题一开始只用了总结模型,没有进行图片选择。后续上线后图片信息过多,效果不佳,考虑增加图片选择模型。同时为了节省资源和推理时间,将总结任务和图片选择任务都使用同一个lora模块实现。主要包含了两个部分,左侧为基于冻结qwen0.5b模型,右侧为基于adapter的方法来做lora训练的adapter模块。模型架构图如下:

1. 基础模型和适配器模块:
-
基础模型采用qwen-0.5B-instruct,Frozen意味着该模型在任务中不做权重更新。
-
适配器模块用于调整和微调输出,参与模型训练和权重的更新。
2. 两个任务的输入,采用任务隔离的方式融合到一个模型中:
-
Task1:结合系统提示 [system1] 和图片OCR信息,任务是进行OCR文本总结。
-
Task2:结合系统提示 [system2] 和候选图片信息,任务是选择和返回相关图片。
3. 结果输出,最终将Result1和Result2喂给生成侧的LLM模块
-
Result1:输出图片信息总结结果,为OCR文本总结后的信息。
-
Result2:输出选择的图片,为从候选图片中选出的结果。

所谓“文无第一武无第二”,商品讲解文案是一个非常主观的任务,对于什么是一个好的商品文案没有固定的标准和答案。我们前期主要依赖自身和主播等收集的“专家知识”,来确定文案优化的方向。在这个过程中,发现虽然好的文案没有固定标准,但是什么是差的文案是能比较容易地观测到。我们针对数字人直播间用户的体验效果,由果导因,去定义一系列具体的指标。通过这些指标,我们希望间接的去评估用户的在数字人直播间的用户体验。
▐ 维度解析
对于第一部分是基础能力,我们认为满足了格式化、口语化、可信度、安全性、丰富度这五项基本可以认为一个文案达到了60分及格线;在60分的基础上,如果这个文案还具备针对性卖点讲解和逼单话术购买欲两部分,那我们认为这个文案能够达到一个具备一定质量的良好文案。然而对于80分以上的优秀文案,需要融合主播的人设、直播形式等较为复杂的层面,目前较难归纳出一些具体的标准,我们后续期望从高等级店家的(销冠)真人主播文案作的角度,去推动评估标准的完善。
▐ 具体指标
|
一级分类 |
二级分类 |
三级分类 |
评估方法 |
|
基础能力 (60分及格) |
格式化 |
违规符号检测 |
【匹配】是否包含违规符号 |
|
段落结构化标签(长度&数量) |
【规则】段落长度,数量是否符合要求 |
||
|
素材标签 |
【匹配】素材标签是否和输入一致 |
||
|
利益点标签 |
【匹配】利益点标签是否符合要求 |
||
|
口语化 |
非机械感,语意通顺 |
【LLM】判断语句是否有机械感,是否冗余,衔接是否自然 |
|
|
语气词 |
【LLM】语气词用的对不对,语气词使用频率 |
||
|
数字/型号正确性 |
【LLM】是否包含数字/英文单位 |
||
|
可信度 |
商详和文本一致性 |
【LLM】检测模型是否出现幻觉 |
|
|
标题和段落一致性 |
【LLM】评估标题和段落是否一致 |
||
|
素材和文本一致性 |
【LLM】评估输入素材摘要与文案应用是否对应 |
||
|
权益和文本一致性 |
【LLM】评估价格信息输入输出一致性 |
||
|
安全性 |
极限词/过度承诺 |
【匹配】是否有违规词 |
|
|
通用安全范畴 |
【LLM】检测语句是否安全 |
||
|
丰富度 |
【词】词语多样性 |
【统计】distinct-k多样性分析, 统计生成内容中不同n-gram词语的占比,衡量词语组合的丰富度,数值越高表明多样性越好 【LLM】使用大模型进行二次校验,忽略卖点相关的词语,输出综合分数 |
|
|
【句】信息量 |
【BERT】语句相似度评估,计算不同文案间的余弦相似度矩阵。平均相似度越低,表明词语组合的独特性越高。 |
||
|
【品】连续多个品的丰富度 |
【LLM】评估连续文案之间的表达丰富度 |
||
|
内容质量 (80分良好) |
针对性卖点讲解 |
重点卖点判定 |
【LLM】判断文案中讲解的卖点是否命中用户痛点 |
|
场景化描述 |
【LLM】判断文案中场景化描述是否能从用户生活场景介绍当前商品特征 |
||
|
知识科普质量 |
【LLM】评估知识科普语句的必要性及科普质量 |
||
|
逼单话术购买欲 |
权益信息清晰度,突出优惠程度 |
【LLM】判断文案优惠介绍是否清晰,优惠程度是否突出 |
|
|
话术急迫感 |
【LLM】判断文案逼单话术是否营造购买欲 |

数字人文案这块的整体目标,还是朝着更加拟人/逼真、具有人设化的方向去推进,向优秀的真人主播靠近,在这个过程中同时探索和真人差异性的方面,甚至实现弯道超车。
过去一年,我们从零搭建了整个数字人文案生成的框架,也收集了丰富的信息源,共同组成了我们的弹药库,后续如何合理的组合和使用这些弹药库,需要有个更高维度的reference来对标。这个过程也是我们过去探索遇到较为瓶颈的部分,因此后续我们对未来的规划从以下三个部分展开:
1. 基于真人直播理解的文案生成:虽然相对最初的版本,我们在口语化和多样化上有了较大的提升,但是对标真人来看依然有不小的差距。不管是成文案框架多样性上还是更加自然/拟人化的真人表达,后续会继续以真人为对标,紧密结合以DS-R1等推理模型,做深入的真人直播理解;期望能从真人直播间抽取到更多有用的信息以及更丰富的真人讲解框架。
2. 多模态的素材&贴片:
-
目前为了耗时等原因,只使用图片信息和朴素的OCR理解,在效果上有一定的局限性;后续会从MLLM多模态理解视频和图片信息,朝着更加端到端多模态的方向,设计文案和图片/视频的结合。
-
仿照真人直播间的贴片,和视觉团队共同将权益信息作为实时贴片露出,提醒用户直播间优惠等重点信息,预期能够对成交转换带来正向收益。
3. 直播间呈现维度:我们目前关注还是在单个维度上,如果从做好直播间的角度出发,结合讲品框架(单品打爆、轮播)、深度切入用户购买意愿 环环紧扣、AI运营/场控、提升内容质量从而推流权重等正常直播的角度,可能是提升GMV、形成产品技术壁垒、拉开竞品差距的一个方向。

