Speech Synthesis

语音合成数据准备流程

在开发高质量的文本转语音(TTS)系统时,数据准备是至关重要的第一步。本文简要总结了从原始音频到最终训练数据集的转换过程、一些适合训练语音合成模型的开源语音数据库。

开源音频编码器soundstream-light

SoundStream是Google提出的端到端神经音频压缩模型,能够以低码率获得高保真重建,适用于实时语音、在线会议与多媒体应用。我创建了一个开源项目soundstream-light,将精简的C++推理实现与官方TFLite模型整合,打包成Python模块和跨平台命令行工具。

用TTS生成游戏音库

在游戏开发中,高质量的语音通知对于增强玩家体验至关重要。本文将分享如何利用IBM Watson的文本转语音服务生成基础音频,并通过Adobe Audition进行后期处理,制作出专业级的游戏通知音效。