文章详细介绍了淘宝直播数字人项目中 TTS(语音合成)技术的全流程实践。从直播数据语料构建入手,通过语音信号处理、文本标注和说话人聚类三大环节提升数据质量。在模型优化方面,文章展示了从 V1 到 V4 的迭代过程,包括前端正则化和多音字优化、后端发音准确性提升、韵律情感拟人化增强,以及最新的 CosyVoice 架构融合。技术方案针对直播场景的特殊需求(如中英文混读、直播韵律风格)进行了针对性优化,并通过客观指标和音频示例验证了效果提升。团队还展望了端到端语音大模型等未来发展方向。淘天集团直播 AIGC 团队基于深厚的技术积累,已实现数字人直播解决方案的商业化落地。

背景介绍
在数字人直播场景中,语音合成(Text To Speech,TTS)技术承担着关键桥梁作用:一方面需承接大语言模型生成的个性化讲解文案,如商品卖点解读、用户互动应答;另一方面需驱动数字人唇形动作与语音高度同步,构建自然逼真的虚拟主播形象。

针对直播场景的业务规模化需求,TTS围绕直播数据语料构建、语音合成模型优化、韵律情感拟人化增强等部分进行探索,从数据处理、模型优化到SDK上线,完整的TTS技术架构示意图如下:


直播数据语料构建
TTS模型训练数据的质量对于最终语音合成的效果有决定性影响,语料构建的目标要求语音质量干净、无杂音,并且精确的文本和标点是实现语言内容准确合成的前提。虽然主流中英文TTS模型可以在公开数据集上训练,但是直播场域下的语音数据和公开数据差异较大,缺少直播说话风格、环境背景音等,影响生成的直播效果。
传统TTS依赖录制素材进行音色克隆,这类数据虽然处理成本低,但收集成本高,难以规模化,并且主播录制和真实直播说话风格也不一致,录制时不自然,缺少直播感,也会影响最终生成的直播效果。幸运的是,我们可以利用淘宝直播内大量真实主播回放数据,收集成本更低,数据分布更加丰富,但直播语音相比于播客、网文等“字正腔圆”的语音数据更“脏”,包含背景声、电噪音、多说话人等,对提取优质训练语料有很大影响;同时,一场直播回放就长达十几小时,处理出足够的训练数据,对捞取特定说话人的语料效率有很高的要求。因此,搭建一套优质高效的数据处理管线,构建直播数据语料是非常重要的。
▐ 业务整体链路
业务整体链路如下,我们将数据处理 & 模型训练解耦开,依托MVAP平台的大量显卡资源和离线调度,定时处理直播回放表中的最新数据,同时离线迭代直播语音基座模型。下单后的用户如果有历史直播回放,则进行在线微调,直接推荐出历史音色,避免用户上传直播片段去筛选的繁琐过程;如果用户没有直播过,则使用预先配置的公模音色。

▐ 数据处理流程
依托于积累的直播数据,我们搭建了一套完整的数据处理流程,旨在提升TTS模型的训练数据质量。该流程由三个核心环节组成:
-
语音信号处理:对音频进行归一化、人声分离、VAD、音频去噪、停顿截断等操作清洗并提高语音质量,同时从音频质量分数角度过滤低质量音频。
-
文本标注(语音理解):对处理后的音频进行ASR转写、标点修复、拖音韵律标记等,同时利用交叉验证从音频转写准确度过滤低置信文本。
-
说话人聚类:对分离后的音频进行聚类,确保音色的独立性,同时从聚类簇时长角度过滤直播。
由此,通过一层层的“漏斗”,逐步提高直播TTS模型最终的训练数据质量。

-
语音信号处理
归一化
不同主播在不同环境、不同设备下的直播的音频采样率、响度等不一致,直接训练会影响TTS模型处理数据帧率和音频音量。因此需要通过归一化方法将不同分布下的音频采样率、响度等进行统一,避免模型训练时受到无关变量干扰。
背景声&说话人分离&去噪
直播时有BGM的情况较多,会影响模型学习主播声音,我们采用UVR_MDXNET模型,用于人声与伴奏的分离,并采用Resemble Enhance算法进一步提高提取到的语音质量,得到干净的主播说话片段;由于直播场景中经常会有多人直播,需要进一步通过Speaker Diarization算法区分出不同说话人的音色片段。最后,通过这种方式提取到的片段可能存在说话人重叠情况,例如难以分离检测的主播捧场的话外音,所以通过多说话人模块进行检测过滤。
VAD/停顿截断
说话人分离后的音频片段进一步通过语音活动检测(Voice Activity Detection, VAD),来判断人声的起止点,避免切割到的片段开头结尾发音被截。同时,主播在直播讲品间穿插看弹幕,会在意想不到的地方停顿过长时间,导致VAD切分后的音频可能存在过长的静音片段,影响TTS模型的合成韵律。因此,我们通结合语音能量特征进一步进行更细粒度的静音检测,对停顿时长过长的片段进行裁剪,避免模型到过长停顿。
-
停顿截断
|
停顿截断前 |
停顿截断后 |
|
|
|
质量分过滤
针对语音信号处理后的音频,我们进一步基于DNSMOS分、时长等进行过滤,MOS分低的音频可能存在电流音、语音理解度差,时长过短的音频提取到的特征有限,时长过长的音频上下文信息建模较难。
-
语音理解
ASR
文本标注利用自动语音识别(ASR)模型,识别音频对应的文本信息,得到TTS模型训练所需的文本输入,准确的ASR识别结果对于TTS文本模态的数据质量非常关键。
在直播领域中,存在大量的专业术语,如3C、快消、美妆行业中各种各样的中英文品牌名、型号等,为了提高ASR识别准确率,我们采用热词的方式加强对特定术语的先验信息,对Seaco-Paraformer进行微调。同时,我们选用在大规模英文数据集上预训练的Whisper-large-v3-turbo模型,利用两个ASR交叉验证的结果进一步提高中英文识别的置信度,过滤低置信度的音频-文本对,并基于伪标签数据+少量真实标注数据对ASR模型进行迭代。
具体迭代方式如下,第一轮首先利用少量标注数据、伪标签数据和合成数据组成的Dataset v1训练ASR基线模型v1,利用两个ASR模型对伪标签数据识别的置信度和CER结果进行分析,保留高置信度数据,修复难例数据,丢弃劣质数据,形成Dataset v2,再逐步迭代并补充更多的伪标签数据,多轮迭代后形成最终优化模型。

-
客观指标对比
|
模型 |
avg CER |
CER_en |
CER_zh |
|
seaco-paraformer |
0.0752 |
0.3397 |
0.0612 |
|
seaco-paraformer-finetune |
0.0714 |
0.3304 |
0.0587 |
|
whisper-larger-v3-turbo |
0.1816 |
0.4637 |
0.1849 |
|
whisper-larger-v3-turbo-finetune |
0.0711 |
0.3093 |
0.0614 |
标点修复
ASR结果的逗号、句号标签是基于语义信息的,和音频信息的关联度低,例如句号对应的位置可能并未出现语音停顿(多打)、或者语音停顿位置未打上标签(少打),这都会影响模型韵律学习。因此,我们结合ASR标点和音频未发声片段,对多打/少打的标点符号进行修复。
-
修复示例
音频:
ASR文本:
"来,我要开始了,现在屏幕是正常滚动着的哈。我要来开始喽,十秒钟的一个时间来把福利给大家安排到家,先安排到位。这个福利啊十九八。"
标点修复后文本:
"来,我要开始了,现在屏幕是正常滚动着的哈。我要来开始喽,十秒钟的一个时间。来把福利给大家安排到家,先安排到位这个福利啊@十。九。八。"
拖音/停顿韵律
在真实直播场景中,直观听感上较为明显的韵律,主要表现为拖音(单字发声片段长)和停顿(不发声片段),我们针对这两种韵律进行区分打标,基于标点修复中统计的字尾时长在一定区间的片段,结合音频短时能量特征进行区分,标记出拖音和停顿韵律。
-
拖音/韵律标记示例
|
停顿效果 |
拖音效果 |
|
|
带韵律标记的文本 |
五十六五十七五十八(0.382)@这个六千六。(停顿标记) |
这种价格(0.461)→姐姐们这种镯子我真的卖过一万多哟一万三千多块钱卖过一万三千七。(拖音标记) |
|
字符能量 |
|
|
-
说话人聚类
历史直播回放中往往有多个主播直播,为了区分出不同的音色,我们首先提取语音embedding,基于余弦相似度作为评价指标,采用无监督聚类算法对语音特征聚类,每个类别尽可能对应单一音色。同时,在聚类后统计每个说话人的时长,将时长过短的类别簇删除,并通过数据优选策略选择每个类别簇排名靠前的优质数据和参考prompt,最终训练得到不同的直播历史音色。
-
聚类后降维示例


直播TTS模型优化
完整的语音合成技术通常包含TTS前端和后端:

TTS前端:TTS前端是语音合成中的第一步。主要是文本归一化如缩写、数字和特殊字符的处理,进而确定每个字的发音单元。中文通常使用音素作为发音表示,其他语言则主要采用国际音标作为发音表示。
TTS后端:通常包括声学模型和声码器,声学模型负责将文本前端处理模块输出的音素序列转换为音频的中间表征,如梅尔谱。声码器则将声学模型生成的中间表征转换成实际的声音波形。
我们主要从模型发音准确性和韵律情感拟人化出发,对直播TTS模型进行迭代优化:针对直播场景各种各样的case,例如3C场景中的单位、数字等,进行前端正则化和多音字优化;针对直播中的中英文混语种朗读,进行了后端模型优化,整体让多音字、中英文朗读更准确;针对直播韵律复刻,结合拖音/韵律标签,进行了韵律模型迭代,让朗读更加自然,韵律更有直播味。
▐ 前端优化
-
正则化
主流的正则化方式大多是通过规则和逻辑处理,或者提供给用户编辑的交互功能,如2025标注为“数值读法”,从而保证发音准确“二零二五”。为了避免让用户操作过于繁琐,同时提高正则化准确性,我们采用规则 + LLM语言模型结合的方案,规则主要处理特定的英文品牌名映射表、单位符号等等,LLM模型则针对数字、型号等难以通过规则覆盖的场景进行改写。规则表的好处是线上修复快,直接基于逻辑改写,但无法利用语义信息,上限低;LLM的好处上可以基于语义判断,上限高,但修复线上问题迭代周期长。
-
规则示例
|
类型 |
文本 |
规则正则化 |
|
型号数字 |
索尼IMX906 5000万像素主摄。 |
IMX 九零六 五千万 |
|
iphone16 32G手机。 |
iphone 十六 三十二G收集 |
|
|
单位读法 |
5800mAh超耐久大电池 |
mAh -> 毫安时 |
|
采用4nm工艺制程 |
nm -> 纳米 |
|
|
符号 |
它的屏幕是1920X1200的高清大屏 |
x -> 乘 |
|
特定品牌名 |
iQOO |
iQOO -> 爱酷 |
-
LLM模型
规则无法结合语义判断文本的念法,例如:“搭配67W快充,价格1W元”和“1-2”,这里的“W”和“-”就是规则难以处理的难例。我们基于人工标注的改写前后数据,训练大语言模型结合语义理解改写,使得生成的AI文案直接就是正则化后的文案
屏幕方面,采用了高分辨率的2560x1600像素,搭配上90Hz的刷新率,让视觉体验更上一层楼,支持Dolby Vision,让视觉效果更加震撼。屏幕方面,采用了高分辨率的二五六零乘一六零零像素,搭配上九十赫兹的刷新率,让视觉体验更上一层楼,支持Dolby Vision,让视觉效果更加震撼。这款苹果,用的是A13芯片,2019年10月上市的,到现在都依然深受大家的喜爱。这款苹果,用的是A十三芯片,二零一九年十月上市的,到现在都依然深受大家的喜爱。
-
评测效果
|
前端规则 |
Qwen2.5 7b-instruct(few-shot) |
Qwen2.5 7b-instruct(微调) |
|
|
准确率 |
66%(99/150) |
68.7%(103/150) |
94.7%(142/150) |
-
多音字
针对多音字,我们对G2P模型进行优化,收集了大量的中文多音字数据,其中开放场景 200 万条、直播间场景交叉验证数据 40 万条、人工标注数据 1.6 万条。为了降低数据收集成本,对于人工标注数据的挑选,我们使用了文本预训练模型,提取无监督特征聚类然后采样的方法,预训练模型低置信度重标的方法,提高效率。错误率由基线模型 5.81% 降低至 3.25%,直播场景上基本解决了多音字发音问题。
-
多音字特征聚类
以“了”字为例,聚类结果如下:

如果直接采样Class0和Class3类别则难以采到,而对应的类别又输入多音字中的corner case,通过无监督聚类后,均匀采样,可以保证尽可能采样到生僻的多音字数据,保证数据分布平衡,优化G2P模型。
Class 3对应“了”发音
'今天这款八十三哪姐妹们八十三块钱,真的是买不(_了_)吃亏,买不了上当的这样子一个价格啊。''我我我妈自己用的,我给她往里放的,五折三放的水杯呀,我他是放饭盒,饭盒放不下饭盒放不(_了_),这个布是软的,你一放它就把这子放那布挤到旁边去了也可以放哦。''好嘞,你自己去搂吧啊,幸亏我给你们剩几个链接,要不都给你们上不(_了_),就得上爆品,上爆品还得上懵了呢。'
▐ 后端模型优化
-
V1:两阶段架构
直播TTS模型采用的是主流语言模型+声学模型的两阶段架构。在语音大模型VALLE之前,TTS通常建模为回归问题,难以有效利用大量数据,VALLE则将语音合成建模为离散信号的分类问题,采用NLP的思路预测每个音频token的采样概率,从而参考NLP用大规模数据做语音合成大模型,提高零样本能力和音色克隆能力。
为了得到音频token,需要将连续的语音信号转换为离散的中间表征:如Encodec算法,类似于语音领域的VQVAE,使用RVQ量化残差,通过时频域重构损失、感知损失、量化损失等训练Encoder-Decoder结构;Hubert算法,则类似于语音领域的BERT,通过CNN encoder转换为隐变量,随机mask后通过transformer结构重建,通过MLM训练。Encodec偏声学特征,易于重建,Hubert则偏语义特征,易于生成。
因此,TTS模型架构第一阶段采用易于生成的语音离散编码作为中间表征,同时结合音素特征和文本语义特征,补充更多的信息,易于LLM对中间表征进行建模;第二阶段则利用Acoustic Model将中间表征转换为易于重建的梅尔谱,再采用声码器将梅尔谱重建为波形。

-
V2:发音准确性
由于前期直播数据积累不够多,TTS模型V1版本采用的是基于开源数据集训练的模型。在V2版本上,我们着重对发音准确性做了优化,从正则化、多音字、中英文等多个方面提升TTS合成效果,同时在积累的直播数据上训练了TTS基座模型,提升了零样本音色克隆的相似度,大幅减少了需要数据的时长。
针对中英文发音准确性,我们首先优化了模型细粒度特征提取和融合,让模型训练时具有学习中英文韵律的能力;接下来利用积累的中英文混数据对ASR进行优化,提高模型学习的中英文语料质量;最后利用大规模直播数据 & 优化ASR提取的文本训练直播底模V2版本,整体方案和效果如下。
-
中英文朗读优化方案 & 效果

|
测试文案 |
CosyVoice 2.0(zero-shot) |
直播底模V2版本(zero-shot) |
![]() |
|
|
-
V3:韵律情感拟人化
在直播底模V2的基础上,V3版本进行了韵律情感拟人化设计,为了让生成语音听起来更有直播感觉和主播风格,我们通过挖掘直播数据的韵律和情感信息,让模型学习韵律情感特征,同时通过韵律标签控制拟人化风格。具体来说,韵律优化主要是学习朗读时语速的变化,以及自然的停顿拖音;情感优化则主要是学习朗读时情绪的起伏波动和高低音的变化,让TTS听起来更像真人。同时,我们进一步筛选了韵律底模所需的数据质量,提升了整体音质效果。
由于直播语料的情感类别标签非常稀疏,诸如“开心、伤心”这些情感标签并不适用直播场景,并且情感类别标签粒度太粗,而情绪具有连续的表现空间,某个音调/停顿拖音的变化听感上表现出的情绪也不同。因此,我们将韵律和情感拆开分析,基于语音能量特征设计了停顿/拖音标签,来建模朗读时的韵律,避免让模型隐式学习,提高韵律可控性,同时利用参考音频为模型注入高低音变化信息,优化语音情感。
韵律优化
基于Text Encoder提取特殊符号(停顿:@ 拖音:→)的embedding,再结合音素和语音中间表征,通过韵律符号标签,显式控制生成想要的停顿/拖音效果,从文案角度可控;推理时,我们基于主播历史数据建立主播韵律表,记录直播回放数据中主播的拖音/停顿习惯,推理时自动读取生成人设化韵律,人设化韵律不足则采用通用韵律提升整体效果。
|
通用韵律效果 |
|
|
测试文案 |
接下来我给大家介绍一下INNOCOCO 泰国进口的纯椰子水,他和AGF速溶冻干黑咖啡粉一样,都是进口品牌,有五百二十多用户都说它味道特→别好,喝起来非常清爽,有淡淡的椰子香,非→常纯正香甜(食品中英文) |
|
生成音频(直播韵律底模微调) |
|
|
人设化韵律效果 |
|
|
测试文案 |
接下来要给大家介绍的是一款非常受欢迎的纯牛奶——光明→有机纯牛奶。有没有朋友在喝牛奶时特别挑剔口感呢?这款牛奶可是→有两千三百多用户反馈它的口感非常好,奶味非常浓郁,喝下去之后那种醇→厚的滋味让人一整天都充满能量。 |
|
生成音频(直播韵律底模微调) |
|
情感优化
声学模型通过学习语义特征到梅尔谱两个分布的变换关系,通过梅尔谱注入声学信息。因此,我们通过分析语音信号能量特征,挑选有情绪起伏的参考音频来重建出高低音变化更明显的语音。
|
测试文案 |
接下来要给大家介绍的是一款非常受欢迎的纯牛奶——光明有机纯牛奶。有没有朋友在喝牛奶时特别挑剔口感呢?这款牛奶可是有两千三百多用户反馈它的口感非常好,奶味非常浓郁,喝下去之后那种醇厚的滋味让人一整天都充满能量。 |
|
情感优化后 |
|
-
V4:CosyVoice架构融合
最近,我们针对最新的CosyVoice 2.0架构进行了方案设计和实验探索,融合了直播TTS模型V3架构中优化后的模块。目前主流的 TTS 大模型在输入语义信息的时候均使用 BPE 等 自然语言处理 LLM 中文本 token,但我们实验发现,基于 Qwen2.5 0.5B LLM 模型,使用十万小时级别的语音进行训练,相比纯音素的模型,模型发音准确度在直播领域的效果无法达到线上要求。通过多次实验,我们针对BPE方式训练存在的多音字、中英文朗读等问题,仍然利用文本序列建模,保留V3中额外的细粒度特征进行训练,整体提高了朗读准确性。
结合最新的 CosyVoice2 模型和自研的多音字模型,既保留了 Qwen2.5 的通用 LLM 框架便于加速,也实现了更精准的中英文发音。我们使用搭建的数据处理链路,沉淀了 15W 小时的高质量中英文 TTS 数据训练基础模型,细粒度特征 token 数量一共约 27B。
具体方案 & 当前效果

-
CosyVoice2 继承 Qwen2.5-0.5B 模型,参数量相比当前线上模型提升一倍,模型容量更高;设计了更强的 tokenizer,码本更大,表征能力更强。
-
结合自研的特征融合方案,解决 CosyVoice2 多音字、生僻字等发音不准的问题;相比当前 TTS 模型 zeroshot 测试中,最优稳定性大幅提升。
-
Qwen2ForCausalLM backbone 可以利用 vLLM 框架进行加速,引入额外特征之后,对 vLLM 框架改造 input_embedding 作为输入,实测 LLM 并发速度部分比线上快一个数量级。
-
客观指标对比
针对淘宝直播内的部分商家做了详细的文案CER、相似度、DNSMOS客观指标测试以及人工评分,从V1到V3版本,部分商家的平均客观指标变化如下。
|
直播基座模型 |
CER |
Similarity |
DNSMOS |
|
V1 |
0.0542 |
0.8195 |
3.2209 |
|
V2 |
0.0380 |
0.8650 |
3.0653 |
|
V3 |
0.0228 |
0.8505 |
3.2517 |
|
V4 |
0.0269 |
0.9284 |
3.3626 |
从V1到V2,我们对发音准确性进行了优化,同时利用大规模直播数据训练底模,整体提升了CER和音色克隆相似度,但由于初期沉淀的大规模直播数据MOS相比公开录音数据更低,因此V2版本的DNSMOS水位有所下降;V3版本我们则在韵律优化的前提下,进一步提升了CER过滤条件以及优选策略,在克隆相似度指标基本维持情况下,进一步提升了CER和合成音质;V4整体融合了CosyVoice的语言和声学模型架构,相似度和音质整体有更明显的提升。
-
音频示例
|
测试文案 |
音色1 |
音色2 |
|
|
|
|
|
|
|
|

未来展望

未来展望
-
利用预训练LLM/强化学习提高韵律复刻能力
-
端到端语音理解&生成大模型
-
韵律 & 音色特征解耦
-
BGM / 方言 / 其他语种 等新玩法

团队介绍
