Askio ChatAi 的技术分享

艾因大约 3 分钟

技术测的一些技术方案分享

当前支持定制化语音模型的有讯飞和腾讯等厂商，但是价格都非常昂贵

腾讯云

讯飞

讯飞的商用价格为单个语音模型1w/每年。

![4f9b3d560a8b428d93d9c2023e3d0d93](file:///C:/Users/Administrator/Pictures/Typedown/4f9b3d56-0a8b-428d-93d9-c2023e3d0d93.png?msec=1690107287050)

语音合成的两种方式：TTS和VCS

TTS和VCS是两种不同的技术，分别用于语音合成和语音转换。

TTS（Text-to-Speech）是一种语音合成技术，它将文本转换为人类可以听懂的语音。使用TTS技术，计算机可以自动将文本转换为语音，而无需人类语音演讲者的参与。TTS技术可以用于语音助手、自动语音应答系统、有声读物等领域。

VCS（Voice Conversion System）是一种语音转换技术，它可以将一个人的语音转换成另一个人的语音，而不改变语音的内容和意义。VCS技术可以用于语音模仿、语音变声、语音匹配等领域。

虽然TTS和VCS都涉及到语音技术，但它们的应用场景和技术原理都有所不同。TTS主要用于将文本转换为语音，而VCS则用于语音转换和模仿。

当前我只研究了一下TTS相关的合成技术，没有研究VCS相关的技术，以下都是属于TTS的模型训练方式

当前主流的模型有基于Vits模型衍生出来的一系列模型和类似FastSpeech的Parallel模型，都可以在极低的训练数据下产生不错的效果

这两种模型的实现方式是非常类似的，训练过程也基本一致。

训练一个语音模型需要经历以下的步骤

准备预训练模型，也可以称为底模

准备训练的数据集，一般10-20短10秒以内的语音文件

对数据集进行降噪，并进行语音识别

最终标准的训练数据为10-20组短语音文件和对应的中文识别文字

进行训练（通常采用GPU进行），大约100个训练周期，约为10-20分钟，可以生成一个微调模型，也就是最终的语音模型。

该模型的效果取决于底模（预训练模型）+训练数据和训练时长决定，按照上面的训练方式可以实现大约70%的相似效果。

# Askio ChatAi 的技术分享