泰国新闻网XTHAI报道,哔哩哔哩(B站)旗下的BILIBILI Index团队最近推出了一项令人惊艳的黑科技——“原声风格”视频外语配音功能。这项技术可以在保留创作者原本的音色、语气、说话节奏甚至情绪的基础上,将内容翻译成外语并自然流畅地呈现出来,仿佛视频中的人真的在用外语侃侃而谈,简直是“声临其境”的最佳诠释!
这项功能的背后,是B站自主研发的IndexTTS2模型在发力。通过音色克隆、声场一致性控制以及多声源融合等一系列高精尖技术,团队攻克了传统配音中常见的痛点,比如声音个性丢失、字幕干扰观看体验,以及本地化配音的高昂成本。更厉害的是,这套系统还针对多人对话场景进行了优化,能够精准分割不同说话人的声音,同时实现情绪迁移和语速控制。为了让翻译更贴合原风格,团队还引入了RIVAL对抗式强化学习框架,确保翻译质量和风格适配度都达到极致。
不仅如此,在视频呈现上,B站团队也没少下功夫。他们结合字幕擦除技术和基于Diffusion的高保真唇形同步技术,让声音和画面完美匹配,带来沉浸式的观感体验。简单来说,看完这样的视频,你可能完全察觉不到这是“后天配音”,就像原汁原味的外语内容一样自然。
说到未来,B站表示,这项技术还将支持更多语言覆盖,同时计划开源模型,助推多语言、跨模态内容的全球化传播。想象一下,以后你刷视频时,无论是中文创作者还是外国博主,都能秒变“多语种大神”,语言障碍从此不再是问题!不得不说,B站这次的技术创新,真是给内容创作者和观众都带来了满满的惊喜和福利。
顺带一提,这项技术的基础模型IndexTTS本身就已相当强大,能在中英文发音校正、停顿控制等方面做到行业领先,而团队还在不断迭代优化,未来可期。如果你也对跨语言内容感兴趣,不妨去B站体验一下这项新功能,感受一下“原声外语”的神奇魅力吧!
加入我们的讨论区 «点我加入»