MixDAO
声音克隆是热门的AI应用领域。当AI能精准克隆人类的声音,并能按照人物原型的思想与你对话时,你会想要体验哪些产品功能?
# 案例
在 podcast.ai 推出的第一集播客节目里,嘉宾是已故的乔布斯,在长达20分钟的对话,讨论了关于乔布斯的大学、对计算机的看法、工作状态以及信仰等等。根据 podcast.ai 的说法,乔布斯的声音是由人工智能语言模型使用苹果创始人的录音生成的。
Joe Rogan Podcast With Steve Jobs
基于GPT-3 模型,声音全文件
百度网盘二维码扫描可见
MixDAO
AI Voice Clone 应用于电影、游戏等配音也是最热门的领域之一。目前也有较为成熟的产品。
# 现状
技术到达了什么阶段?
- 理论界
近些年,声音合成学习相关前沿论文层出不穷,如 Tacotron,Tacotron2,MelGAN,Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis 等。
|
模型名 |
模型全称 |
1806.04558 |
SV2TTS |
Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis |
1802.08435 |
WaveRNN (vocoder) |
Efficient Neural Audio Synthesis |
1703.10135 |
Tacotron (synthesizer) |
Tacotron: Towards End-to-End Speech Synthesis |
1710.10467 |
GE2E (encoder) |
Generalized End-To-End Loss for Speaker Verification |
- 应用层
一些知名的开源项目如:
Mocking-Bird
gitee.com/mirrors/Mocking-Bird
特性
-
支持普通话并使用多种中文数据集进行测试:aidatatang_200zh, magicdata, aishell3, biaobei, MozillaCommonVoice, data_aishell 等。
-
适用于 Pytorch,已在 1.9.0 版本(最新于 2021 年 8 月)中测试,GPU Tesla T4 和 GTX 2060
-
可在 Windows 操作系统和 linux 操作系统中运行(苹果系统 M1 版也有社区成功运行案例)。
-
仅需下载或新训练合成器(synthesizer)就有良好效果,复用预训练的编码器 / 声码器,或实时的 HiFi-GAN 作为 vocoder。
-
可将训练结果保存在服务器端,供远程调用。
Real-Time Voice Cloning
github.com/CorentinJ/Real-Time-Voice-Cloning
Resemble AI
resemble.ai
# 提案
想不想动手实现这么一款AI产品?教会机器模仿你或者TA的声音一样说话。
# 招募
NLP 算法工程师 - 对TTS 及声音克隆技术有强烈兴趣,深耕NLP 领域,熟悉常用的深度学习模型,对前沿研究方向如 tacotron、glow-tts、MelGAN、HiFiGAN 等有了解或有兴趣钻研理解。
前端工程师 - 熟悉 react 生态技术,能独立完成web 端编码落地,能加入创建中文的Mozilla Common Voice 社区,能独立完成web端项目,并积极参与到日常产品演进与技术调研落地实践中。
同时也欢迎产品、设计、运营来一起探索此类AI产品。
联系小助手
备注:语音ai产品
本文来自微信公众号“无界社区mixlab”(ID:mix-lab)。大作社经授权转载,该文观点仅代表作者本人,大作社平台仅提供信息存储空间服务。