前些天写过一篇使用讯飞有声的个人主播功能克隆声音的方法,这方法简单是简单,但最终声音效果也是不太理想,你看现在很多AI合成语音都可以做到以假乱真了,所以我还是要继续探索哒。
于是,我又找到了一个方法。其实就是上次提到过的百度AI Studio里面的一个项目,Paddle speech,之前看到页面那么多代码以为有很大难度没敢去尝试,这次试了试才发现很简单的,代码那些无视就行~
今天就跟大家分享一下这个方法,注意这是一个针对小白的声音克隆教程,要点是不要被页面上的代码干扰到,一步步跟着我点击就成了😂
01,注册飞桨 aistudio.baidu.com/aistudio,登陆后点开“项目”。搜索“语音合成”,找到图中红圈项目点击进入。
02,点击蓝字“运行一下”,会自动复制项目内容。
03,弹出的窗口中选择A100 32GB,确定。
04,待进入以下页面后点击就二个箭头,运行全部Cell
05,运行完毕点击左下角untitiled streamlit.py.打开这个页面后点击图中的“在浏览器”打开。
06,开始上传音频啦,Brows files在页面中间位置。上传好音频文件后点击下面的检查数据。
音频文件要求:无背景音人声音频,wav格式,2到10秒,最好十条以上,数据越多越好啦。要求24000hz采样率,可以用adobe的au,或是Audacity录制,其它录制方法大多需要转换一步。转换的话据说可以用格式工厂,不过我的格式工厂不支持这个数字,所以在au里面进行的转换。au里打开文件另存时改采样率为24000就可以。
07,声音文件通过检查后来到最后一步。微调训练。
步数100到2w,可以先设几百看看效果,以后可以多跑。不过如果音频质量不够好数据量小的话跑再多步数效果也不会好,我试了一千多步,和三百没啥差别。
09,训练完成,我们的克隆也就完成了。
合成声音。声码器有三种,wavernn最慢效果也最好(特别慢,合成一段声音比训练几百步都要慢好多),Pwgan速度和效果都适中。
总结:因为我只用了十三条语音数据,跑出的效果和讯飞有声差不多,甚至还有些许不如......毕竟讯飞有声是二十条🌝,不过理论上来说加大数据,肯定会有更好的效果。想尝试的同学可以动手啦!
Yay! 🤗
Your content has been boosted with Ecency Points
Use Ecency daily to boost your growth on platform!
Support Ecency
Vote for new Proposal
Delegate HP and earn more, by @winniex.
😅感觉还是有点复杂啊……
就是看上去复杂,等我多录些声音去跑,最终效果如果很好你也可以试试😜