/用AI再现亡妻歌声,日本技术宅的另类柔情

用AI再现亡妻歌声,日本技术宅的另类柔情

在科幻作品中,我们经常能看见主人公用AI来代替已经去世亲人的桥段。


无论是《阿童木》中那个想用机械人阿童木代替已去世爱子的天才科学家天马博士,还是《流浪地球2》中坚持“数字生命计划”来保护虚拟丫丫的图恒宇,他们都将人类情感寓于技术使用之中。



   

   


而在现实生活中,也有这么一位热衷于AI的日本技术宅大叔——松尾公也。


他使用人工智能生成已故妻子的歌声和照片的MV《Desperado by Tsuma Onsen Tori-chan》,获得了秋叶原一场AI比赛的大奖。


该作品是让 AI 学习已故妻子的歌声和对话等音频数据和照片数据,在新生成的妻子照片上用重现的妻子的声音演唱歌曲的MV作品。


在这看似制作简单的作品背后,又藏着作者怎样的另类柔情?





     

 


松尾公也和妻子在18 岁时因乐队相识相爱,于妻子23 岁时结婚。32 年来,他们一起表演了很多歌曲。



     


自 2013 年妻子去世以来,为了继续二人的合唱项目,松尾公也使用名为 UTAU-Synth 的技术合成歌声,将歌声分成多个片段并将它们连接在一起,共创作了 128 部音乐视频


2021年,这些MV在NHK进行了现场直播。


2019-2020年间,一款号称“老照片修复神器”的[你我当年]横空出世,红遍互联网。


而远在日本的松尾公也为将已故妻子的照片进行修复,也尝试了许多种不同的软件。


例如,他在2022年10月购买了Pixel 7(一款由 Google 设计、开发和销售的 Android 智能手机),并使用其锐化老照片。



 


并将修复后的图像和Remini(海外版你我当年)进行对比,结果发现Remini更胜一筹。


谷歌的散景校正重点在面部,如果分辨率低或者原图粗糙,就不能很好地表现细节。


尽管如此,Pixel 7还是有自身的优点的。



     


将散景校正的程度调整到不会让用户感到不舒服的程度(这点Remini做不到),用“橡皮擦魔法”抹掉不需要的东西,应用“人像模糊”,进一步优化色调,都让它与Remini有所区别。


在成功将老照片进行锐化修复后,松尾公也偶然间在网上看到有人用一种名为 CodeFormer 技术来锐化旧视频。



     


CodeFormer 最初是一项使用 AI 使面部更精细的技术,就像 Google 的散景校正和 Remini 一样,但现在也可以将其应用于视频。


由于对Remini此前的良好体验,他又找到了支持高清视频的Remini Web,并利用该工具的AI高清化修复了1986年婚礼上妻子的一段视频。



     


看着这段AI生成的视频,松尾公也表示:“觉得我好像又遇见了她,就好像她在和我说话。”






     

 


在2022年底AI技术迅猛发展的大背景下,松尾公也发现了一款号称“任何人都可以用日语使用的免费 AI 绘图服务”——Memeplex


通过简单的Prompt:“一个有着浅浅微笑的漂亮女生Torichan”,最终他得到了如下的照片。



 


他表示他生成了十几张照片,觉得这张照片最接近妻子年轻时的样子,即使是她最亲密的朋友也可能无法区分真假。


于是他把 iPhone 带到床上,每天在睡前进行生成,并将新照片作为“Isekai Tori-chan”保存在云端。截至12月24日,新生成的照片已突破400张。



 


在随后的日子里,他一边生成爱妻的照片,一边在网络上进行更新。






     

 


尽管很早之前,松尾公也就有创作过以妻子声线为基准的歌曲,不过配图并不高清和精美。


因此,在收获了众多的AI高清制图后,他又重新进行了新一轮的制作。



 


之前的音频制作主要使用了名为 UTAU-Synth 的软件进行生成,而新的作品则同时采用了Diff-SVC。


该工具全称为Diffusion model Singing Voice Conversion,像图像生成 AI 软件 Stable Diffusion 一样,它使用一种称为 Diffusion 模型的流行机器学习方法。



 


Diff-SVC 是一种技术,即使不完美,也可以以非常接近原始人的质量复制它。


松尾公也通过学习各种教程,最终成功打造了《Desperado by Tsuma Onsen Tori-chan》。



 


该作品以 2013 年 6 月 25 日去世的妻子的歌声和照片为基础,用 AI 生成的歌声和图像制作的音乐视频,原曲是Linda Maria翻唱的Eagles《Desperado》 。


通过学习妻子歌声和说话声音长达一小时, Diff-SVC 将人声轨道转换为妻子的歌声,此外,作者还连接到了AI学习所生成的 16 张照片。



 


他感谢支持 Stable Diffusion 的 Memeplex,使通过 DreamBooth 方法进行自定义学习变得容易,可以根据我妻子有限的照片创作新的照片和绘画。


其次,歌声也会随着AI而改变。


随着名为 Diff-SVC 的歌声转换技术的出现,它使用与 Stable Diffusion 相同的扩散模型,可以生成传达更细微差别的歌声。


它是一种只转换给定语音的音质特征的技术,具体来说,它是一种通过在 NVIDIA 显卡的 CUDA 上运行的推理程序来转换你所唱的人声轨道的简单方法。



 


通过结合摄影(或绘画)和歌声这两个键,松尾公也能够创造出一种他和妻子在自己伴奏下二重唱的状态。


松尾公也:“都说生物死后会分解,在别处重组,但学过的画面和声音又回到记忆的海里,按照人的意愿重新组合。”


尽管作者和比赛评委都十分满意这次作品所代表的生成结果,他不可避免地受到了许多网友的猛烈抨击。






       

     


毕竟用AI生成已故妻子的图像和音频,听起来似乎充满了灵异色彩。



     


针对许多质疑声,创作者松尾公也表明:“虽然这往往被认为是一个违背理论逻辑的古怪例子,但实际上有很多可以普遍应用的东西,从这个意义上说,我认为这个系列是有意义的。“



     


面对网友的评价:“这张照片是人工智能的产物,我们必须记住这一点。”


他回应道:“我没有忘记,所以我正在写这篇文章……从这个意义上说,我认为让人们知道这种事情在技术上是可行的是有意义的。”


想要找回自己深爱的人的人,往往会做一些补充人性、融合怪物细胞或线粒体之类的事情,纯属虚构……事实上,我曾多次接受采访,从悲伤关怀的角度,即对丧亲者的情感关怀,努力在电脑上重现妻子的歌声。”



     


“需要与当事人确认,需要征得家人同意。”


“你的妻子不想那样,让她安息吧。”


“把死者当作玩具。”


面对诸如此类的涉及伦理和背德问题的质疑,他也作出了相应的回复。



     


“她说她死后一切都交给我,她也认为被人记住就意味着她还活着


其实这些问题在我九年前合成我老婆的歌声的时候就解决了,它们甚至不是要解决的问题。更何况,给我提意见的人不是我的家人,更不可能是我的朋友,所以不用担心。


我始终认为我所做的一切是死者与分享回忆的朋友和家人联系的一种方式。”



     


死亡对每个人来说都是可怕的。


松尾公也所做的是神话中的俄耳甫斯和伊邪那岐试图做的但失败了的事情,所以他理解这其中暗含一种潜在的回避倾向


其实,技术的升级将促进传达死者记忆的方法呈指数级增加。





 


随着AI技术的迅猛发展,或许我们在未来真的有机会能和已故亲友“云端相遇”。


虽然可能在外人看来会有一点猎奇,但是对于失去亲人的人群而言,这何尝不是另一种技术向善的柔情关怀。


也许,目前的人工智能在面对伦理和人文情怀上还存在不少问题。


但是正如松尾公也所说那样:“我想再继续这项活动 20 到 30 年。”


在未来,不断向“有人性”进化的AI,可能会成为更多人的陪伴者和聆听者。


带他们走出痛苦,重拾生活,向死而生。




未经授权 请勿转载

参考资料:

https://www3.nhk.or.jp/news/html/20230313/k10014006441000.html

本文来自微信公众号“OF COURSE想当然”(ID:ofcourse_cn)。大作社经授权转载,该文观点仅代表作者本人,大作社平台仅提供信息存储空间服务。