一、语音交互的工作分工与应用场景
在汽车领域,语音交互是重要组成部分。在企业工作中,其研发分工细致,通常会有专人负责不同层面,如负责框架层的人员,以及分别负责底层驱动、HAL、DSP(数字信号处理器)相关工作的人员,甚至DSP的驱动和调试工作可能会分配给不同的人。部分公司还会专门招聘语音交互领域的专业人才。
语音交互广泛应用于汽车、智能家居、AIoT、智能玩具、机器人客服等场景。其中,语音合成作为语音交互后端的关键部分,具有高拟人化合成、多感情合成、高表现力合成三大特色。高拟人化合成适用于客服场景,借助全概率预测模型和口语现象建模,可使自然度达到4.5mos(推测为某种主观测评得分);多感情合成面向人机交互场景,利用多感情预测技术提升用户体验;高表现力合成则常用于新闻小说播放场景,通过GTS(文本转语音)形式,以富有表现力的语音呈现内容,使听众感受到抑扬顿挫。语音合成的应用领域包括配音解说、地图导航等,能为广告内容生成提供支持,为地图导航提供全流程定制解决方案。
二、语音交互的痛点与技术原理
语音交互的痛点
在人机交互过程中,语音交互存在诸多痛点。语音识别方面,嘈杂的环境、说话者距离较远、带有方言口音、使用垂直领域术语、个性化词语以及口语化发音等因素,都会导致语音识别不准确。例如,特定领域的专业词汇可能未被系统收录,人们的口头禅也可能使系统无法理解。语义理解层面,存在上下文关联缺失、场景相关语义理解错误、实体取名复杂度过高以及信息内容不足等问题。系统若不能有效关联上下文,就难以准确把握用户的真实意图;复杂的实体名称可能使系统解析困难;而信息的缺失也会影响语义理解的准确性。此外,系统响应形式单一,部分系统仅支持多人对话,无法实现多轮对话交互,难以满足用户复杂的交互需求。
语音识别的技术原理
语音识别过程中,麦克风首先将对话者的声音转换为数字信号,传输至语音识别前端。前端会进行端点检测,即分析判断连续音频流中语音的起始和结束点。以“hello”一词为例,端点检测会分别确定每个音节的起始和结束位置,并提取相应样本。之后,这些样本会经过算法处理,最终输出识别文本“hello”。除端点检测外,前端还会进行降噪处理,包括环境降噪、噪声消除和回声抑制,以去除音频信号中的噪声,提高音质和识别率。降噪方式有被动降噪和主动降噪(提取噪声频谱进行反向补偿,类似回声消除原理)。此外,前端还会进行特征提取,如提取用户的意图(如订票意图)和实体信息(如时间、地点等)。处理后的信号会传输至后端,后端结合声学模型和语言模型进行解码。这些模型经过大量语音数据训练,存储在服务器端,协同工作以识别出最终结果。
三、语音交互的关键技术
语音交互涵盖语音识别、语义理解、对话管理和语音合成等多个环节。其中,语音识别包含多种关键技术:
1. 定向拾音技术:能够从特定方向捕捉声音,同时抑制其他方向的噪音,在嘈杂环境下可有效提高语音识别的清晰度和准确度。
2. 回声消除技术:用于消除喇叭声音被麦克风录入产生的回声,保证语音信号的纯净度。
3. 端点检测技术:除了基本的检测原理外,还运用了多种算法,如能量阈值算法、零交叉率算法、短时能量和零交叉率结合算法,以及基于机器学习或深度学习的模型算法。基于模型的算法具有较好的环境适应性和准确性,但需要大量的训练资源投入。
4. 原厂降噪技术:针对说话者距离麦克风较远、信号较弱且伴有环境音的情况,通过波束形成、朴检法、自适应滤波、深度学习等技术,消除原厂噪声,准确提取说话者的语音信息。该技术具有准确度高、可实现声源定位跟踪等优点。
语义理解环节负责对识别文本进行意图分发,识别文本中的意图可分为技能类意图、问答意图(包括闲聊、知识文档问答、自定义问答等)。系统会结合对话历史进行语义理解,以确保准确把握用户意图,提供合适的回应。例如,在多轮对话场景中,系统需综合考虑用户之前的对话内容,避免给出答非所问的答案。
四、系统性技术与基础性技术解析
系统性技术分类
基础性技术要点
基础性技术包括句子语义表示技术和多轮对话技术。句子语义表示技术旨在准确理解句子的语义信息,为后续的意图识别和对话管理提供基础;多轮对话技术则使系统能够在多轮交互中持续理解用户意图,保持对话的连贯性和逻辑性,提升用户体验。
五、语音交互的应用与优化策略
垂直技能语义理解与应用流程
在垂直技能语义理解方面,系统通过深度学习获取实体信息,如歌手、歌曲、乐队、风格等。以“来首刘德华的歌”为例,输入请求后,系统先进行语音识别前置处理,将获取的样本输入预训练模型,预训练模型处理后的结果再输入深度学习模型,从而完成语音识别和语义理解,实现相应的功能。
误触发控制与有效据实策略
在实际应用中,为降低误触发率、提升用户体验,系统采用了误触发控制和有效据实策略。例如,当系统检测到“我要去睡觉”、“等我带你去神经病医院”(疑似与旁人对话)等内容时,会判定为无效指令;对于“走走二路怎么走”(查询后发现公交车线路不支持)、“我要去消失了”(病句)、“前的酒店”(疑似句子截断)等情况,也会进行相应的处理,避免系统做出错误响应。
现实场景对话案例分析
在智能家居场景下,当用户说“太热了”,语音助手识别后询问“打开空调还是打开风扇”,用户选择“打开空调”后,助手执行操作。随后用户说“来首音乐吧”,助手结合之前“太热了”的对话历史,推荐清凉的音乐。当用户要求“换我收藏的”时,助手在收藏列表中查找并播放相应音乐。这个案例展示了语音助手支持多轮对话、与业务深度结合、实现个性化理解及推荐、共享场景信息和利用常识记忆的能力。
六、语音交互的特性与发展展望
语音交互的特性
语音交互具有全双工、多模态交互、所见即所得、可视化对话流等特性。全双工特性使系统能够边录音边识别,同时过滤无效语音,拒绝NRI干扰。多模态交互融合语音、视觉、红外等多种信号,例如汽车上的红外摄像头可检测驾驶员状态,当检测到驾驶员困倦闭眼时,车机系统会通过语音、震动方向盘等方式提醒驾驶员,必要时退出辅助驾驶。此外,多模态交互还可实现免唤醒功能,通过语音和图像信号的结合,系统能够检测到驾驶员的指令,无需手动唤醒或使用唤醒词即可进行操作。所见即所得特性允许用户通过语音指令控制车机上可见、可触摸的所有元素,极大地提升了操作的便捷性。
语音交互的发展展望
未来,语音交互技术将朝着多模态融合、个性化交互、更强大的多轮对话、语义建模和知识推理技术等方向发展。多模态融合将进一步整合声学、视觉、触摸及其他传感器信号,提供更丰富的交互体验;个性化交互将更加精准地满足用户的独特需求;语义建模和知识推理技术的发展将使系统更深入地理解用户意图,提供更智能、更准确的服务。
七、语音产品模块与业务流程
语音产品模块构成
语音产品业务流程
语音产品的业务流程从唤醒开始,通过唤醒词唤醒系统后,系统进入监听状态。若未接收到指令,则退出;若接收到指令,系统进行识别并转写文字上屏,然后判断是否有语义。若没有语义则退出;若有语义,则执行相应控制操作。若未匹配到语义或不支持该功能,系统会给出相应提示。操作成功后,系统进行TTS播报,最后退出流程。
八、语音交互的硬件方案与架构设计
硬件降噪方案介绍
语音交互的硬件方案包括软降噪方案和硬降噪方案。软降噪方案中,多个麦克风收集的音频信号经过不同路径传输至DSP,如麦克风一通过t box和switch开关传输,麦克风二直接传输,麦克风三借助外置ADC(模拟数字转换器)转换后传输,麦克风四通过MC box中的switch选择车内或车外麦克风信号后传输。这些信号最终汇聚到SOC(系统级芯片)进行语音识别、理解和合成,处理后的语音信号经a to b(实际应为a to b master等正确标识)传输,再经功放从车内喇叭输出。硬降噪方案在软降噪方案基础上增加了voice box,成本有所上升。麦克风信号经过不同处理后,由DSP进行处理并输出至功放播放,同时该方案还可控制AVAS(车辆声学警报系统)、存储fast audio(如开机音乐等),并具备诊断功能。
基于SOA的语音系统架构设计
基于planet server的SOA语音系统架构较为复杂,包含多个APP(如语音启动、语音交互、屏幕交互等)和服务(如语音对话管理、数据管理、关键语音逻辑管理等)。服务层通过应用适配器与第三方语音引擎进行适配和联调,可集成多家云引擎的SDK(软件开发工具包),如科大讯飞、腾讯的SDK,以便根据需求选择使用不同的语音引擎。系统具备语音唤醒、语音识别、自然语言理解(NLU)等功能,能够实现车内控制和网络查询等操作。
九、语音交互的测试要点
语音交互的测试主要包括功能测试、效果性能测试、人机交互测试和用户体验测试。功能测试涵盖广度、深度以及语音特性功能测试;效果性能测试重点关注语音唤醒效果、语音识别效果、声源定位效果、定向拾音效果、连续对话效果、自然语言理解效果、语音合成效果以及系统响应时间;人机交互测试评估语音交互的可用性、灵活性和可靠性;用户体验测试则通过用户实际使用,收集用户反馈并撰写使用报告,以全面评估语音交互系统的性能和用户满意度。