数据采集
构建多语种语音语料库
创博数据为一家全球音频硬件领导厂商提供高质量数据,助力其精细调整自动语音识别(ASR)引擎。
挑战
自动语音识别(ASR)系统能够将用户指令转换成文本,随后由自然语言处理系统进行处理。 要有效实施ASR 需要考虑几个方面,例如跨性别、年龄组、口音和方言的声音和语音差异,以及与将使用 ASR 系统的环境相关的背景噪声。 在这一项目中,客户需要从多个人口统计群体中,用英语、印地语、德语、法语和意大利语采集训练和测试数据。
• • • •解决方案• • • •
创博数据借助专有的移动应用程序DataForce Contribute,采集了多个场景的语音数据和背景噪音。 我们的应用程序确保所采集的音频文件符合各项技术规范,如信噪比和采样率。 在停车、驾驶以及车窗关闭或开启的多种情况下,我们采集到了所有的语音指令和环境噪音,利用卷积声波技术模拟真实环境,从而创建数据集。 借助创博数据的解决方案,客户成功开发并测试了高效的ASR引擎,该引擎能够在不同场景中准确理解多种语言的语音指令。
创博数据汇聚了全球逾 1,000,000 名成员,以及超过 250 种语言的语言专家。 创博数据既依托于自身构建的平台,也能够使用客户或第三方的工具。 这样一来,您的数据尽在掌控。