“柯南领结”变成现实,字节跳动SAMI发布新一代实时AI变声方案

 2022-08-05 13:30:15    16  

机器之心报道

机器之心编辑部

这项技术未来在虚拟人、短视频玩法、客服服务、直播互动玩法上有着很大的落地空间。

字节跳动智能创作语音团队 SAMI(Speech, Audio and Music Intelligence)近日发布了新一代的低延迟、超拟人的实时 AI 变声技术。不同于传统的变声,AI 变声是基于深度学习的声音转换(Voice Conversion)技术来实现的,可以实现任意发音人的音色定制,极大程度保留原始音色的特点。

该方案的亮点如下:

在 CPU 单核上就能做到极低延迟的实时输入实时变声,就像 “柯南领结” 一样;能够高度还原输入语音的抑扬顿挫、情感、口音,甚至连轻微的呼吸、咳嗽声也能还原;媲美真人的高保真音质,以及高度的目标音色一致性;

从语音合成到声音转换:探索更多元的声音玩法

语音合成作为人工智能的一个重要分支,旨在通过输入文字,经由人工智能的算法,合成像真人语音一样自然的音频,该技术已被广泛的应用于音视频创作场景中。而相比语音合成,声音转换创造了新的语音交互形式:其不再需要输入文字,而是根据用户输入的说话音频,将音频中的音色转换到目标发音人上,并保持说话内容、韵律情感等一致。相较于输入文本,输入音频包含了更丰富的副语言信息,例如各个段落的情感、抑扬顿挫、停顿等。声音转换能够做到改变音色的同时,将这些副语言信息很好的还原。

同基于深度学习的语音合成一样,声音转换的模型也由声学模型(acoustic model)和声码器(vocoder)组成。声学模型通过内容编码器从输入音频中提取出发音内容序列,并通过音色编码器从参考音频中提取出音色特征,最后通过声音转换模型生成带有输入音频内容和参考音频音色的频谱;声码器负责将声学模型生成的频谱还原为能够被设备直接播放的音频采样点:

面向实时场景的声音转换模型优化

相较于非实时场景下对完整音频的声音转换,实时声音转换有着更加丰富的落地场景。典型的场景包括直播、虚拟人这类实时交互的娱乐场景,变声的结果需要在很短的延迟内实时流式的生成,才能保证音画同步。

实时声音转换的难点在于:1. 模型在每个时刻只能获取到很短的未来音频片段,因此发音内容的正确识别更加困难;2. 流式推理的实时率(计算时长 / 音频时长)需要稳定小于 1,因此在设计模型时需要更加关注推理性能。这给研发人员带来了更大的挑战,一方面需要通过设计合理的模型结构来降低模型感受野和推理延时,另一方面需要尽可能保证变声的发音内容、音色和音质不受影响。

为了达到上述要求,研究人员对模型进行了一系列改进,使得模型的首包延时压缩到 250ms 左右。实时声音转换的整体框架如下:

对于内容编码器,研究人员采用细粒度发音提取模块代替了传统基于音素后验概率的方法,使得更多的发音细节、韵律情感能够被保留下来,且显著降低了对模型感受野的要求;对于声音转换模型,研究人员结合了 chunk 级别的信息编码和帧级别的自回归解码,并引入了基于教师指导的训练机制,从而确保了生成频谱的发音、音质和音色足够好;对于声码器,研究人员通过精巧的模型结构设计大大压缩了感受野,并通过对抗生成训练提高了生成音频的自然度。

现实版“柯南领结”:各种复杂场景不在话下

现实的语音交互中往往包含许多复杂的场景,使得现有大部分的 AI 变声系统的转换结果变得极不自然。例如,当用户输入中包含叹气、咳嗽这类声音时,现有系统倾向于对其过滤而非保留,从而导致用户想表达的副语言信息的丢失。并且,现有系统的跨域性能较差,从而导致用户进行多语种 / 方言输入时,无法转换出正确的内容。此外,现有系统在低延迟场景下的转换结果容易出现发音错误与音色不稳定的问题。

相较于现有系统,本系统在各个场景下的转换效果均显著提升。以下视频演示了无网环境下在 Macbook 上的实时流式变声效果。用户通过蓝牙耳机实时输入语音,Macbook 实时输出变声结果,模型转换的平均延迟大约 250ms:

视频加载中...

使用呆萌音色朗读“玛卡巴卡”,较难理解的文本也可以非常准确转换:

视频加载中...

输入方言也能够自然地转换,以上海话为例:

视频加载中...

提高一下难度,甚至连 B-box 的转换都毫无违和感:

视频加载中...

SAMI 的新一代 AI 变声系统对于复杂场景的适应性显著提升。这项声音转换服务可以支持云端在线服务形式输出,也支持本地化部署。未来在虚拟人、短视频玩法、客服服务、直播互动玩法上有着很大的落地空间。

目前这项技术已经可以在火山引擎 - 音频技术下的声音转换模块(电脑端点击「阅读原文」)体验和开通。针对一些商业化的合作,特别是发音人的音色定制会严格审核音色的版权和授权许可。一些实时性要求比较高的业务,可以通过火山留资页沟通实时转换方案。

声音转换模块链接:https://www.volcengine.com/product/Voice-conversion

火山留资页:https://www.volcengine.com/contact/product?t=Voice-conversion

  •  标签:  
相关推荐
“柯南领结”变成现实,字节跳动SAMI发布新一代实时AI变声方案科技数码

1997 年 5 月 11 日,加里·卡斯帕罗夫(Garry Kasparov)在美国纽约曼哈顿公正中心的毛绒皮椅上坐立不安,焦急地抚摸着他的头发。这是他与 IBM 的 Deep Blue 超级计算机进行的最后一场比赛,也是人类和硅之间对决的关键决胜局。但是,事情进展得并不顺利,由于比赛初期犯了一个严重的错误,卡斯帕罗夫被逼至一个角落。通常,一场高级的国际象棋比赛需要持续至少 4 个小时,但卡斯帕罗夫在一个小时后就意识到自己注定要失败。他宣布罢赛,倚靠在棋盘上僵硬地与约瑟夫·霍恩(Joseph

2022-08-15  1
“柯南领结”变成现实,字节跳动SAMI发布新一代实时AI变声方案科技数码

来源:【人民网】2022年8月13日,家长和小朋友在河南省洛阳市科技馆参观体验“智能机器人”科学演示装置。 2022年8月13日,小朋友在河南省洛阳市科技馆参观体验“齿轮世界”科学演示装置。 本文来自【人民网】,仅代表作者观点。全国党媒信息公共平台提供信息发布传播服务。ID:jrtt

2022-08-14  7
“柯南领结”变成现实,字节跳动SAMI发布新一代实时AI变声方案科技数码

视频加载中...为加快新旧动能转换,河北衡水为各产业编制发展规划,为企业构建全要素发展转型平台,加速产业迭代升级。在衡水市春风实业集团的一条汽车配件生产线上,工人们正在有条不紊地加工着汽车零部件。这条在今年年初投入使用的数字化生产线,运用了5G连接的终端设备,取代了传统车间错综复杂的管线,提高了机器运转的效率,生产环境也变得更安全、更便捷。去年以来,衡水市已为94家企业提供个性化发展规划建议,100多条生产线升级改造成功,精准对接科技成果近千项。记者:张硕报道员:刘海超新华社音视频部制作

2022-08-14  7
“柯南领结”变成现实,字节跳动SAMI发布新一代实时AI变声方案科技数码

来源:【常州日报-常州网】田畴能织锦,沃野可生金。一只雪山鸡,“孵”出省内畜禽养殖企业上市第一股;一台拖拉机,“拉”出一个百亿农机产业;一粒水稻种,“种”出国家科技进步一等奖。智慧渔场、无人养殖场、未来农场,水稻绿色生产全程机械化、机器人加工车间、基因编辑技术……自古农耕发达、素有“鱼米之乡”美誉的常州,近十年来依靠科技创新,在农业高质量发展的道路上阔步前行。全市农业科技进步贡献率从2012年的64.5%,提高到2021年的71%,科技创新成为常州农业农村经济增长最重要的驱动力。科技创新全省领跑

2022-08-14  5
“柯南领结”变成现实,字节跳动SAMI发布新一代实时AI变声方案科技数码

2022年8月13日,家长和小朋友们在河南省洛阳市科技馆内参观体验"火箭发射升空"科学演示装置。在娱乐中学习丰富科技知识,"零距离"感受科技的乐趣和魅力,度过一个"科技感十足"的假期生活。(黄政伟摄/光明图片)2022年8月13日,家长和小朋友在河南省洛阳市科技馆参观体验"智能机器人"科学演示装置。在娱乐中学习丰富科技知识,"零距离"感受科技的乐趣和魅力,度过一个"科技感十足"的假期生活。(黄政伟摄/光明图片)2022年8月13日,小朋友们在河南省洛阳市科技馆参观体验"风力发电"科学演示装置。在

2022-08-14  7

原文链接:https://www.tscy18.com/kejism/24613.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 315661083@qq.com 举报,一经查实,本站将立刻删除。