跳转到主要内容

数据采集

音频采集助力检测有害言论

 

挑战

我们的客户是一家国际科技公司,他们正在寻找项目合作伙伴,协作开展大型对话语音的数据采集。 随着仇恨言论、网络骚扰和其他言语攻击愈演愈烈,有害言论在当今社会的关注度日益增加。 目标为采集两个指定主题下至少40小时的极度有害言论数据。

• • • •解决方案• • • •

我们的方案是采集一个适中规模的数据集,为140多位参与者提供现实生活中的场景和提示词,记录他们在现场和远程两种模式下的对话。 我们以每组一到四名参与者为单位进行记录,确保在考虑人口多样性的同时,进行富有成效且足够真实的对话。 我们的参与者年龄在18–70岁之间,覆盖了性别、教育程度和地理位置的多样性,这有助于我们成功采集到高质量的数据。

通过与参与者密切合作,我们采集到了100小时的数据,远超客户预期。 由于超过40%的数据被识别为有害言论,我们的合作伙伴对数据集的质量和多样性都表示非常满意。

这个案例证明,数据采集的准确性对于语音检测技术至关重要。 随着网络仇恨言论愈演愈烈,迫切需要建立多样化的数据集以识别有害语言的细微差别,并优化针对各种语境下有害言论的检测水平。

在创博数据,我们自豪于能够提供创新的解决方案来应对挑战性项目。 该项目的成功交付充分证明了我们在数据采集和分析领域的专业实力。 通过开展此类合作,我们能够助力开发先进技术,进而协助个人和组织抵御有害言论带来的负面影响。

有害言论

创博数据汇聚了全球逾 1,000,000 名成员,以及超过 250 种语言的语言专家。 创博数据既依托于自身构建的平台,也能够使用客户或第三方的工具。 这样一来,您的数据尽在掌控。

申请咨询。