有内味了！MIT文本转语音神器，少量数据集还原角色声音 | 在线免费

十三 2020-03-08 13:43:43 来源：量子位

十三发自凹非寺
量子位报道 | 公众号 QbitAI

文本转语音，又出了个神器。

这个工具来自MIT，并且还是在线、免费，可以用它来生成各种字符的44.1 kHz声音。

这些声音是使用多种音频合成算法和定制的深层神经网络实时生成的。

最惊艳的是，这个工具只需要少量的文本数据，还能保留文本所表达出来的韵律，可以说是相当的“声情并茂”了。

使用起来非常简单，主页中的“Source”提供了几部电影或动画，“Character”提供了里面的一些角色。

只需要在文本框中输入不多于140字符的文本，点击生成，就能很快输出对应角色、带有韵律的语音。

文本转语音，有内味儿了

效果怎么样？我们先来看看几个例子。

首先是《Portal 2》中的GLaDOS的声音。

The Enrichment Center would like to announce a new employee initiative (inishutive) of forced voluntary participation. If any Aperture Science employee would like to opt out of this new voluntary testing program, please remember, science rhymes with compliance.

音频播放器

00:00

使用上/下箭头键来增高或降低音量。

接下来是《My Little Pony》中Fluttershy的声音。

As we speak I am contacting (cawnt tacting) my secret network of spies across the USA (you ess ay) and your IP (iypea) is being traced right now so you better prepare for the storm, maggot. The storm that wipes out the pathetic (puh thetic) little thing you call your life.

音频播放器

00:00

使用上/下箭头键来增高或降低音量。

最后，是来自《Doctor Who》中Tenth Doctor的声音。

Harry tells me you’re quite the science whiz. You know, I’m something of a scientist myself.

音频播放器

00:00

使用上/下箭头键来增高或降低音量。

嗯，确实有内味儿了！

好玩，但可以更完美

当然，我们也可以从一些例子中听出来，出来的声音并不是完美的，作者对此也做出了解释。

为什么有些句子听起来像机器人或者声音比较嘶哑？

这个工具生成音频文件的采样率为44100 Hz，而大多数深度学习文本到语音实现使用的是传统采样率，为16000 Hz。

这样处理的一个优点就是产生的音频质量比较高，但是代价也是明显的。

使用一个外部程序(例如 Audacity)来降低音频的采样率，这样就可以让声音听着不那么像机器人。

为什么有些字发音不正确？

这是因为和标准数据集相比，字符数据集非常小，标准音频通常有超过40小时的对话，包含许多不同的词汇。

而这个工具的字符数据集，每个字符只有30至120分钟的对话。

当然，作者也表示，由于英语拼写的不一致，即使是人类也无法100% 准确地说出不熟悉的单词。其中一些问题将来可能会得到解决。

传送门

工具地址：
https://fifteen.ai/app

MIT 文本转语音

十三

有内味了！MIT文本转语音神器，少量数据集还原角色声音 | 在线免费

十三发自凹非寺
量子位报道 | 公众号 QbitAI

文本转语音，有内味儿了

好玩，但可以更完美

传送门

相关阅读

清华钱班学生两度转行，从入门到一作发Science只用2年，明年回国做PI

美国名校「起义」！哈佛MIT斯坦福揭竿而起，状告特朗普政府，吴恩达力挺

MIT开发出纸张太阳能电池，效率翻18倍，重量不到原来百分之一

MIT发现美国选举漏洞：投票软件可被黑客修改结果，隐私也会暴露

不写代码，用图形界面搞机器学习：MIT发布“全球最快AutoML”，刷新DARPA比赛成绩

当心被AI“洗脑”！MIT最新研究：大模型成功给人类植入错误记忆

热门文章

全栈AI基础设施支撑，跑出全球首个开放使用视频生成DiT模型

数学家们仍在追赶天才拉马努金

7×24小时非人类科学家入场：当AI开始自主探索科学未知领域 | 多伦多大学

人人可用的超级智能体！100+MCP工具随便选，爬虫小红书效果惊艳

蔚来李斌：一年减少了数十亿英伟达芯片采购

有内味了！MIT文本转语音神器，少量数据集还原角色声音 | 在线免费

十三 发自 凹非寺 量子位 报道 | 公众号 QbitAI

文本转语音，有内味儿了

好玩，但可以更完美

传送门

相关阅读

清华钱班学生两度转行，从入门到一作发Science只用2年，明年回国做PI

美国名校「起义」！哈佛MIT斯坦福揭竿而起，状告特朗普政府，吴恩达力挺

MIT开发出纸张太阳能电池，效率翻18倍，重量不到原来百分之一

MIT发现美国选举漏洞：投票软件可被黑客修改结果，隐私也会暴露

不写代码，用图形界面搞机器学习：MIT发布“全球最快AutoML”，刷新DARPA比赛成绩

当心被AI“洗脑”！MIT最新研究：大模型成功给人类植入错误记忆

热门文章

全栈AI基础设施支撑，跑出全球首个开放使用视频生成DiT模型

数学家们仍在追赶天才拉马努金

7×24小时非人类科学家入场：当AI开始自主探索科学未知领域 | 多伦多大学

人人可用的超级智能体！100+MCP工具随便选，爬虫小红书效果惊艳

蔚来李斌：一年减少了数十亿英伟达芯片采购

十三发自凹非寺
量子位报道 | 公众号 QbitAI