Notice: 函数 _load_textdomain_just_in_time 的调用方法不正确。 newspaper-x 域的翻译加载触发过早。这通常表示插件或主题中的某些代码运行过早。翻译应在 init 操作或之后加载。请查阅调试 WordPress来获取更多信息。（这个消息是在 6.7.0 版本添加的。） in /var/www/html/wp-includes/functions.php on line 6121 Voice Clone 声音克隆产品设计 #提案 – 大作社

最新文章2023-11-29

Voice Clone 声音克隆产品设计 #提案

MixDAO

声音克隆是热门的AI应用领域。当AI能精准克隆人类的声音，并能按照人物原型的思想与你对话时，你会想要体验哪些产品功能？

# 案例

在 podcast.ai 推出的第一集播客节目里，嘉宾是已故的乔布斯，在长达20分钟的对话，讨论了关于乔布斯的大学、对计算机的看法、工作状态以及信仰等等。根据 podcast.ai 的说法，乔布斯的声音是由人工智能语言模型使用苹果创始人的录音生成的。

Joe Rogan Podcast With Steve Jobs
基于GPT-3 模型，声音全文件
百度网盘二维码扫描可见

MixDAO

AI Voice Clone 应用于电影、游戏等配音也是最热门的领域之一。目前也有较为成熟的产品。

replicastudios.com

# 现状

技术到达了什么阶段？

- 理论界

近些年，声音合成学习相关前沿论文层出不穷，如 Tacotron，Tacotron2，MelGAN，Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis 等。

论文	模型名	模型全称
1806.04558	SV2TTS	Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis
1802.08435	WaveRNN (vocoder)	Efficient Neural Audio Synthesis
1703.10135	Tacotron (synthesizer)	Tacotron: Towards End-to-End Speech Synthesis
1710.10467	GE2E (encoder)	Generalized End-To-End Loss for Speaker Verification

- 应用层

一些知名的开源项目如：

Mocking-Bird
gitee.com/mirrors/Mocking-Bird

特性

支持普通话并使用多种中文数据集进行测试：aidatatang_200zh, magicdata, aishell3, biaobei, MozillaCommonVoice, data_aishell 等。

适用于 Pytorch，已在 1.9.0 版本（最新于 2021 年 8 月）中测试，GPU Tesla T4 和 GTX 2060

可在 Windows 操作系统和 linux 操作系统中运行（苹果系统 M1 版也有社区成功运行案例）。

仅需下载或新训练合成器（synthesizer）就有良好效果，复用预训练的编码器 / 声码器，或实时的 HiFi-GAN 作为 vocoder。

可将训练结果保存在服务器端，供远程调用。

Real-Time Voice Cloning
github.com/CorentinJ/Real-Time-Voice-Cloning

Resemble AI
resemble.ai

# 提案

想不想动手实现这么一款AI产品？教会机器模仿你或者TA的声音一样说话。

# 招募

NLP 算法工程师 - 对TTS 及声音克隆技术有强烈兴趣，深耕NLP 领域，熟悉常用的深度学习模型，对前沿研究方向如 tacotron、glow-tts、MelGAN、HiFiGAN 等有了解或有兴趣钻研理解。

前端工程师 - 熟悉 react 生态技术，能独立完成web 端编码落地，能加入创建中文的Mozilla Common Voice 社区，能独立完成web端项目，并积极参与到日常产品演进与技术调研落地实践中。

同时也欢迎产品、设计、运营来一起探索此类AI产品。

联系小助手

备注：语音ai产品

本文来自微信公众号“无界社区mixlab”（ID：mix-lab）。大作社经授权转载，该文观点仅代表作者本人，大作社平台仅提供信息存储空间服务。

TAGS: AI产品声音模型