/Voice Clone 声音克隆产品设计 #提案

Voice Clone 声音克隆产品设计 #提案


MixDAO

声音克隆是热门的AI应用领域。当AI能精准克隆人类的声音,并能按照人物原型的思想与你对话时,你会想要体验哪些产品功能?



# 案例

在 podcast.ai 推出的第一集播客节目里,嘉宾是已故的乔布斯,在长达20分钟的对话,讨论了关于乔布斯的大学、对计算机的看法、工作状态以及信仰等等。根据 podcast.ai 的说法,乔布斯的声音是由人工智能语言模型使用苹果创始人的录音生成的。


Joe Rogan Podcast With Steve Jobs
基于GPT-3 模型,声音全文件
百度网盘二维码扫描可见


MixDAO

AI Voice Clone 应用于电影、游戏等配音也是最热门的领域之一。目前也有较为成熟的产品。

replicastudios.com

# 现状

技术到达了什么阶段?

- 理论界

近些年,声音合成学习相关前沿论文层出不穷,如 Tacotron,Tacotron2,MelGAN,Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis 等。

论文

模型名

模型全称

1806.04558

SV2TTS

Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis

1802.08435

WaveRNN (vocoder)

Efficient Neural Audio Synthesis

1703.10135

Tacotron (synthesizer)

Tacotron: Towards End-to-End Speech Synthesis

1710.10467

GE2E (encoder)

Generalized End-To-End Loss for Speaker Verification

- 应用层

一些知名的开源项目如:

Mocking-Bird
gitee.com/mirrors/Mocking-Bird

特性

  • 支持普通话并使用多种中文数据集进行测试:aidatatang_200zh, magicdata, aishell3, biaobei, MozillaCommonVoice, data_aishell 等。
  • 适用于 Pytorch,已在 1.9.0 版本(最新于 2021 年 8 月)中测试,GPU Tesla T4 和 GTX 2060
  • 可在 Windows 操作系统和 linux 操作系统中运行(苹果系统 M1 版也有社区成功运行案例)。
  • 仅需下载或新训练合成器(synthesizer)就有良好效果,复用预训练的编码器 / 声码器,或实时的 HiFi-GAN 作为 vocoder。
  • 可将训练结果保存在服务器端,供远程调用。

Real-Time Voice Cloning
github.com/CorentinJ/Real-Time-Voice-Cloning


Resemble AI
resemble.ai


# 提案

想不想动手实现这么一款AI产品?教会机器模仿你或者TA的声音一样说话。

# 招募

NLP 算法工程师 - 对TTS 及声音克隆技术有强烈兴趣,深耕NLP 领域,熟悉常用的深度学习模型,对前沿研究方向如 tacotron、glow-tts、MelGAN、HiFiGAN 等有了解或有兴趣钻研理解。

前端工程师 - 熟悉 react 生态技术,能独立完成web 端编码落地,能加入创建中文的Mozilla Common Voice 社区,能独立完成web端项目,并积极参与到日常产品演进与技术调研落地实践中。

同时也欢迎产品、设计、运营来一起探索此类AI产品。



联系小助手

备注:语音ai产品





本文来自微信公众号“无界社区mixlab”(ID:mix-lab)。大作社经授权转载,该文观点仅代表作者本人,大作社平台仅提供信息存储空间服务。