跳转到主要内容

计算机语言专家咨询

自动语音识别中的反向文本规范化 

 

挑战

我们的客户Speechmatics是全球领先的语音转文字应用程序编程接口(API)扩展服务公司,他们正在寻找合作伙伴来提升数字在多语言转写中的一致性和可读性。

因此,Speechmatics向创博数据寻求帮助,以期确保每种语言的转写输出都能够保持一致。 创博数据凭借其语言专业知识和开发团队,显著缩短了15种语言转写服务的上市时间。 我们面临的挑战在于确保考虑到每种语言的特殊要求,因为每种语言在数字、货币金额、日期等方面,都有其独特的书写规范。 这正是技术娴熟的计算语言专家发挥作用的地方。

“当Speechmatics第一次联系到我时,我立刻意识到这并非一个常规项目! 对所有参与者而言,这将是一个充满挑战的学习过程。 我必须确保我们为计算语言专家和客户团队成员明确界定项目范围,以便为Speechmatics提供一个能够优化自动语音识别(ASR)输出的解决方案。”  
– 创博数据人工智能高级总监Dorota Iskra

• • • •解决方案• • • •

我们通过制定一系列规则来识别文本中的特定模式,并将其转换成风格统一的书面形式。 这些规则因领域而异,关键在于捕捉各种例外情况。 作为一家总部位于英国的公司,Speechmatics已经开发了适用于英语的规则和测试用例。 然而,创博数据协助提供了涵盖12种语言的解决方案,并随后为另外三种语言也提供了支持。

我们与Speechmatics紧密合作,招募到了顶尖的计算语言专家,他们协助团队为每种语言制定了反向文本规范化(ITN)规则,并通过Pynini框架进行实施。 语言专家还为这些规则定义了正面和负面的测试用例。 然而,最大的挑战在于,处理语言中那些与规则所捕捉到的模式不相符的例外情况。

我们与Speechmatics合作,对这些模块进行了测试和修改,直到全部通过测试。 我们主要使用了来自数字密集的金融领域的测试集来验证工作质量。 最终,自动语音识别(ASR)系统输出的格式与书籍或字幕中的文本格式相同。

例如,先前的货币金额输出显示为“20000美元”,此项目实施之后显示为“$20,000”,更加便于阅读。 这一改进有助于加快Speechmatics客户的转写工作流程,且生成的字幕更加易于阅读。

两个团队保持每周一次的会面,以确保紧密合作、迅速解决问题,并澄清工作进展中的任何异常情况。

“与创博数据的合作为我们提供了一种可扩展的解决方案,让我们在非常短的时间内聘请到语言专家,他们在多种语言方面都交付了出色的成果。 他们与我们的工程团队紧密合作,交付代码并创建测试数据来验证最终结果。 创博数据团队对我们在整个过程中遇到的任何问题都做出了积极的响应,并清楚地传达了测试进度。 如果没有他们的辛勤工作和坚毅付出,这个项目根本不可能完成。 我们在转写方面的最终改进获得了客户的高度赞赏,同时加快了编辑工作流程,提高了可读性,尤其是在处理长串数字和货币金额方面。”  
– Speechmatics产品经理Stuart Wood

语音音频

创博数据汇聚了全球逾 1,000,000 名成员,以及超过 250 种语言的语言专家。 创博数据既依托于自身构建的平台,也能够使用客户或第三方的工具。 这样一来,您的数据尽在掌控。

申请咨询。