视频版大爆炸来了！剪辑可精准到每个字，支持中文Demo可玩

白交 2023-06-25 12:56:36 来源：量子位

基于OpenAI Whisper模型

杨净发自凹非寺

量子位 | 公众号 QbitAI

现在剪视频，已经可以精准到每一个字了！

只需点击你要删减或者要留下的单词，AI分分钟都能给你整出新的视频来。

这操作，有点大爆炸功能内味了。老罗：打钱！

不管是MV、访谈、电影片段各种类型视频，也不论有无字幕，通通不在话下。

网友们纷纷开始试玩了起来。比如让rick roll鬼畜起来~

就连中文视频也能Hold住。实测Demo发现，它甚至直接翻译成了英文。

不过这也并不影响整个操作，毕竟背后模型是支持中文在内的多个语言的。

精准到每个字剪视频

只需三步，就可以轻松完成精准到字的视频剪辑——

上传视频、选择删减/留下的单词、下载视频。

释出的有三个示例，烹饪的美食视频、小扎采访、以及「Just Do IT」……

当然你也可以自己试玩，各种语言都能识别。比如就以让子弹飞一段经典对白为例。

绿色代表保留，红色代表删除。你有三种选择：剪辑、选择所有单词、重新设置。

任意选择保留单词之后，就可以「Cut Video」了。此处选择两处跳脱的台词。最终只花了不到十秒钟就完成了剪辑。

画面切换可以说是十分顺滑了~整个Demo试玩在T4上运行。

基于Whisper模型

这是个荷兰开发者Matthijs Hollemans在HuggingFace上基于Whisper开发的新功能。

Whisper是OpenAI于去年9月开源的语音识别神经网络，经过68万小时的多语言和多任务监督网络数据的训练，其鲁棒性和准确性接近人类水平。它可以进行多语言转录，以及其他语言将翻译成英文。

它是基于Transformer端到端实现架构，无需任何微调。输入音频被分成30秒的块，转化为梅尔倒谱（音频特征提取方式之一，log-Mel spectrogram），然后传入编码器。

好了，试玩Demo在此，感兴趣的旁友可戳：
https://huggingface.co/spaces/radames/whisper-word-level-trim
参考链接：
[1]https://openai.com/research/whisper
[2]https://twitter.com/mhollemans/status/1671812176842039296

Whisper 大爆炸视频剪辑

白交

视频版大爆炸来了！剪辑可精准到每个字，支持中文Demo可玩

精准到每个字剪视频

基于Whisper模型

相关阅读

我什么都没做，文章就自动变成了视频？AI神器解放视频编辑丨百度研究院出品

你家的猫也能来段东北话了：快手快影一键「智能配音」，三种方言随意换，还能配出《舌尖》风

你在网上看到的0失误游戏视频，可以是用AI生成的丨Demo在线可玩

热门文章

实测车载DeepSeek：理财哄娃，做北京旅游攻略，避开喝豆汁儿那种

马斯克擎天柱机器人大秀走姿，背后大佬集体现身喊话招人

中文海报设计，赛道一夜颠覆

移动通信领域有了新SOTA：华为出品，精准预测用户行为

GPT-4.5创造力比GPT-4o弱！浙大上海AI Lab发布新基准，寻找多模态创造力天花板