• 帮助
  • 广告服务

京财时报

滚动新闻:
·中国广电5G用户突破1800万 ·包含本体及DLC、原声带等特典:消息称《地平线:西之绝境》游戏完全版有望 ·理财直播“连麦诊基”基金投教转向“基民视角” ·最新佛山百强榜:民营企业占比超八成,制造业百强营收连续三年增长 ·汇聚金融力量共创美好生活天津滨海农商银行开展“五进入”消保集中宣教活动 ·长四丙火箭成功发射遥感三十三号04星 ·对比不同理财产品的业绩?这个指标你一定要搞懂 ·专利显示苹果公司未来有望利用电磁线圈“循环热量”,帮助冷却过热的设备 ·全球商品观察|国际大米价格指数达15年来名义高点,中国大米市场受国际影响 ·本田展示未来电动汽车愿景,三款概念车将亮相东京车展 ·微软全新OutlookforWindows支持苹果iCloud帐户,离线 ·安徽宿州:鼓励“现房销售”,年底前买房发放至少5000元/套消费券 ·昆仑健康保险广东分公司走进养老院及社区公园,开展金融知识普及集中宣传活动 ·21深度|蔚来手机发布:车手互联兵临城下 ·年轻人首台阅读本:掌阅iReaderLight3发布,6英寸墨水屏、AI ·走进江南古街、传播金融知识浦发银行无锡分行积极开展”集中教育宣传日“活动 ·微软Win11彩蛋:下次Moment更新有望明年2月24日发布 ·阿里云宣布开源通义千问140亿参数模型Qwen-14B及其对话模型,免费 ·廿载著章丨国寿寿险上市20年:资产规模劲增15倍,高质量发展稳健迈进 ·15.69万元起,2024款小鹏P5汽车正式上市:精简至两款,车长增加5 

奇富科技语音论文入选国际顶会INTERSPEECH2023

京财时报   来源:中国网    发布时间:2023-05-31 16:41:26   阅读量:16894   

近日,奇富科技机器人团队论文《Eden-TTS:一种简单高效的非自回归“端到端可微分”神经网络的语音合成架构》被全球语音与声学顶级会议INTERSPEECH 2023接收。此次自研成果入选,代表着国际学术界对奇富科技在语音信号领域研究实力的极高认可。

INTERSPEECH是由国际语音通讯协会创办的语音信号处理领域顶级旗舰国际会议,是全球最大的综合性语音信号处理盛会,在国际上享有盛誉并具有广泛的学术影响力。历届INTERSPEECH会议都备受全球各地语音语言领域人士的广泛关注。

TTS技术当前主要应用于电销机器人、视频面审机器人、智能客服等人机交互场景和语音合成场景,它能把文本内容快速地转化为高质量、流畅自然的语音,从而实现更加智能、更有人性化的人机交互。文本音素和音频帧之间的对齐学习是非自归TTS模型的最关键技术之一。现有的非自回归语音合成模型大多数需要引入外部alignment信息作为学习目标。在实际应用场景中,文本与语音的alignment是很难准确获得的,甚至是不能获得的,这极大地限制了此类方法的应用。另外,也有少数无需外部alignment的方法提出,然而这些方法大多不是端到端可微分的神经网络模型,存在构建困难,训练过程复杂,训练效率低等问题。

奇富科技的论文研究成果为需要文本转语音的应用场景提供了创新的解决方案,提出了一种端到端可微的非自回归神经网络语音合成模型架构。基于文本音素时长与alignment的密切关系,论文提出了一种简单高效的alignment学习方式:首先采用一种新的energy-modulated 注意力机制得到guided alignment,然后利用guided alignment计算音素的时长信息,最后通过音素的时长信息构建monotonic alignment。本方法无需外部的alignment信息,无需引入额外的alignment损失函数。

对业务提效而言,奇富科技的研究成果具有易训易用、音质高超、合成快速的优势。

这种端到端可微的方法使得各个模块可以方便地替换为各种类型的神经网络模块,从而具有良好的扩展性和稳定性。相比于主流的自回归模型,推理速度提升了10倍以上,能够满足实时语音合成的需求。

该方法也令合成语音更好听、更生动、更像真人,大大提升了语音交互的听觉感受。根据进行的多人MOS评测,该方法的MOS分值达到了4.32分,合成语音的自然流畅程度接近于目前最优的自回归模型,显著优于同类型的非自回归模型。

此外,与同类型方法相比,该方法可以节约50%以上的训练时间,显著提升模型训练效率。

奇富科技在对话机器人领域有着和业务同步的先发优势,在语音技术上,一直坚持投入、坚持自研。就在两个月前,奇富科技另一篇音频论文《基于多粒度Transformer的多模态情绪识别》被第48届IEEE声学、语音与信号处理国际会议(IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP 2023)接收。

“我们很高兴在理解用户、优化表达方面取得了关键性的成果。随着奇富GPT对于公司各业务层的重构,我们已经极大提升了对于用户在文本上的理解能力,从语音到文本,再从文本回到语音,更好的识别是为了更好的表达和输出,我们将持续投入,用前沿技术重塑用户体验。”奇富科技首席算法科学家费浩峻表示。

声明:本网转发此文章,旨在为读者提供更多信息资讯,所涉内容不构成投资、消费建议。文章事实如有疑问,请与有关方核实,文章观点非本网观点,仅供读者参考。

热文推荐

首页 | 新闻| 财经| 房产| 娱乐| 旅游| 时尚| 生活| 科技| 健康| 汽车| 教育| 今日北京 | 电子报

Copyright @ 2010- 网站地图
关于同意京财时报设立互联网站并提供新闻信息服务的批复