1. 谷歌网络安全证书 - 快速进入网络安全职业的轨道。
2. 谷歌数据分析专业证书 - 提升你的数据分析能力。
3. 谷歌 IT 支持专业证书 - 支持你的组织的 IT 需求。
你多久会在用西班牙语(你的首选语言)向语音助手提问后不得不暂停一下,然后重新用语音助手能理解的语言(可能是英语)重复你的请求,因为语音助手没有理解你的西班牙语请求?或者你多久会在要求语音助手播放你最喜欢的艺术家 A. R. Rahman 的音乐时故意发错音,因为你知道如果你正确地说出他们的名字,语音助手根本听不懂,但如果你说 A. R. Ramen,语音助手就能明白?此外,你多久会在语音助手用它那安抚的、全知的声音把你最喜欢的音乐剧《悲惨世界》叫成“Les Miz-er-ables”时感到尴尬?
尽管语音助手在大约十年前已经成为主流,但它们在多语言环境中的用户请求理解方面仍然显得很简单。在多语言家庭日益增多、现有和潜在用户群体变得越来越全球化和多样化的世界中,语音助手在理解用户请求时必须做到无缝对接,无论是语言、方言、口音、语调、调制还是其他语音特征。然而,语音助手在与用户进行流畅对话方面依然大大滞后于人类之间的自然交流。本文将探讨使语音助手能够进行多语言操作的主要挑战,并讨论一些可能的解决策略。我们将在整篇文章中使用假设的语音助手Nova作为示例。
在深入探讨使语音助手用户体验多语言化的挑战和机遇之前,让我们先了解一下语音助手是如何工作的。以 Nova 为假设的语音助手,我们看看请求音乐曲目的端到端流程是什么样的(参考)。
图 1. 假设语音助手 Nova 的端到端概览
如图 1 所示,当用户请求 Nova 播放流行乐队 Coldplay 的原声音乐时,用户的声音信号首先被转换为一串文本令牌,这一步是人类与语音助手互动的第一步。这一阶段称为自动语音识别(ASR)或语音转文本(STT)。一旦文本令牌串生成,它将被传递到自然语言理解步骤,在这里语音助手尝试理解用户意图的语义和句法含义。在这种情况下,语音助手的 NLU 解释用户在寻找由乐队 Coldplay 演唱的歌曲(即解释 Coldplay 是一个乐队),这些歌曲的性质是原声的(即在该乐队的专辑中查找歌曲的元数据,只选择版本为原声的歌曲)。然后,这种用户意图理解被用来查询后端以找到用户所寻找的内容。最后,实际的用户查询内容以及任何其他需要呈现给用户的附加信息被转移到下一步骤。在这一步中,响应和任何其他可用信息被用来装饰用户体验,并令人满意地响应用户查询。在这种情况下,输出将是一个文本到语音(TTS)输出(“这是一些 Coldplay 的原声音乐”),接着播放为此用户查询所选择的实际歌曲。
多语言语音助手(VAs)意味着能够理解和回应多种语言的语音助手,无论这些语言是否由同一个人或不同的人说,或者如果它们在同一句话中混合着另一种语言(例如“Nova, arrêt! Play something else”)。以下是语音助手在多模态环境中无缝操作时面临的主要挑战。
为了使语音助手能够很好地解析和理解查询,它需要在该语言的大量训练数据上进行训练。这些数据包括人类的语音数据、地面真实情况的注释、大量的文本语料库、用于改进 TTS(例如发音词典)的资源和语言模型。虽然这些资源在英语、西班牙语和德语等热门语言中很容易获得,但对于斯瓦希里语、普什图语或捷克语等语言,它们的可用性有限甚至不存在。尽管这些语言有足够多的使用者,但仍没有结构化的资源。为多种语言创建这些资源可能成本高昂、复杂且劳动密集,从而成为进步的障碍。
语言有不同的方言、口音、变体和地区适应。处理这些变体对语音助手来说是一个挑战。除非语音助手适应这些语言细微差别,否则很难正确理解用户请求或以相同的语言语调作出回应,以提供自然且更像人类的体验。例如,仅英国就有超过 40 种英语口音。另一个例子是墨西哥讲的西班牙语与西班牙讲的西班牙语的区别。
多语言用户在与其他人互动时通常会切换语言,他们可能希望与语音助手的互动也能自然地进行。例如,“Hinglish”是一个常用术语,用于描述一个人在讲话时使用印地语和英语的单词。能够识别用户与语音助手互动时使用的语言并相应调整回应是一个困难的挑战,目前没有主流的语音助手能够做到这一点。
扩展语音助手到多种语言的一种方法可能是将来自像卢森堡语这样的非主流语言的 ASR 输出翻译成可以被 NLU 层更准确解释的语言,如英语。常用的翻译技术包括使用一种或多种技术,如神经机器翻译(NMT)、统计机器翻译(SMT)、基于规则的机器翻译(RBMT)等。然而,这些算法可能无法很好地扩展到多样化的语言集,并且可能还需要大量的训练数据。此外,语言特定的细微差别往往会丧失,翻译版本常常显得生硬和不自然。翻译的质量在扩展多语言语音助手方面仍然是一个持续的挑战。翻译步骤中的另一个挑战是它引入的延迟,降低了人类与语音助手互动的体验。
语言通常具有独特的语法结构。例如,虽然英语有单数和复数的概念,但梵语有 3 种(单数、双数、复数)。还可能存在一些难以翻译的成语。最后,文化细微差别和文化参考可能会被翻译得不好,除非翻译技术具有高质量的语义理解。开发语言特定的 NLU 模型是昂贵的。
上述挑战是难以解决的问题。然而,有一些方法可以部分地(即使不能完全)缓解这些挑战。以下是一些可以解决上述一个或多个挑战的技术。
解释句子意义的第一步是知道句子属于哪种语言。这时深度学习发挥作用。深度学习使用人工神经网络和大量数据来生成似乎人类般的输出。基于 Transformer 的架构(如 BERT)在语言检测中表现成功,即使在资源匮乏的语言中也不例外。一个替代的基于 RNN 的语言检测模型是递归神经网络(RNN)。这些模型的一个应用示例是,如果一个通常讲英语的用户某天突然用西班牙语与语音助手对话,语音助手可以正确检测并识别西班牙语。
一旦检测到语言,解释句子的下一步是将 ASR 阶段的输出,即一串标记,翻译成可以处理的语言,以生成回应。与可能无法始终了解语境和语音界面特性的翻译 API 不同,这些 API 还会因高延迟而引入次优的响应延迟,从而降低用户体验。然而,如果将上下文感知的机器翻译模型集成到语音助手中,翻译的质量和准确性会更高,因为这些模型是针对特定领域或会话上下文的。例如,如果语音助手主要用于娱乐,它可以利用上下文机器翻译来正确理解和回应关于音乐类型和子类型、乐器和音符、某些曲目的文化相关性等问题。
由于每种语言都有独特的结构和语法、文化参考、短语、习语和表达方式等细微差别,因此处理多样的语言是具有挑战性的。考虑到特定语言的模型费用高昂,预训练的多语言模型可以帮助捕捉语言特有的细微差别。像 BERT 和 XLM-R 这样的模型是捕捉语言特有细微差别的预训练模型的良好示例。最后,这些模型可以进一步微调以适应特定领域,从而提高准确性。例如,训练于音乐领域的模型可能不仅能够理解查询,还可以通过语音助手返回丰富的响应。如果这个语音助手被问到一首歌歌词背后的意义,它将能够比简单的词汇解释提供更丰富的答案。
实施代码切换模型以处理混合多种语言的语言输入可以帮助应对用户在与语音助手互动时使用多种语言的情况。例如,如果一个语音助手专门为加拿大的一个地区设计,而用户在该地区经常混合使用法语和英语,那么可以使用代码切换模型来理解对语音助手发出的混合语言句子,语音助手将能够处理这些情况。
迁移学习是一种机器学习技术,其中一个模型在一个任务上进行训练,但作为第二个任务模型的起点。它利用第一个任务中的学习来提高第二个任务的性能,从而在一定程度上克服了冷启动问题。零样本学习是指使用预训练模型处理之前从未见过的数据。迁移学习和零样本学习都可以用来将知识从高资源语言转移到低资源语言。例如,如果一个语音助手已经在世界上最常用的前十种语言上进行了训练,那么它可以用于理解像斯瓦希里语这样的低资源语言中的查询。
总结而言,在语音助手上构建和实施多语言体验是具有挑战性的,但也有办法减轻这些挑战。通过解决上述提到的挑战,语音助手将能够为用户提供无缝的体验,不论他们使用什么语言。
注意: 本文中所呈现的所有内容和观点仅代表撰写文章的个人,不代表其雇主的任何形式或形态。
Ashlesha Kadam 领导着 Amazon Music 的全球产品团队,负责为 45 多个国家的数百万客户构建 Alexa 和 Amazon Music 应用(网页、iOS、Android)上的音乐体验。她还是女性技术倡导者,担任 Grace Hopper Celebration(全球最大女性技术会议,参会者超过 3 万人,来自 115 个国家)的计算机人机交互(HCI)分会的共同主席。在闲暇时,Ashlesha 喜欢阅读小说,听商业技术播客(当前最爱 - Acquired),在美丽的太平洋西北地区徒步旅行,并与丈夫、儿子及 5 岁的金毛寻回犬共度时光。