メインコンテンツに移動

データ収集

有害表現検出のための音声データ収集

 

課題

世界的なテクノロジー企業は、会話音声データを収集する大規模プロジェクトにおいて協力パートナーを探していました。 現在、ヘイトスピーチやインターネット上の誹謗中傷など、言葉で他人を傷つける行為が増加し、有害表現が社会問題化しています。 今回のプロジェクトの目的は、指定された2つのトピックに関連して悪影響の大きい有害表現を少なくとも40時間分収集することでした。

• • • •ソリューション• • • •

私たちが提案したソリューションは、シナリオを設定し、140名あまりの協力者に実際に会話してもらい、そのデータを収集するというものでした。協力者は対面またはリモートで場面に参加し、現実生活におけるシナリオに基づいて、適宜指示を受けながら会話を進めます。 狙い通りのリアルな会話が生まれるよう、協力者は1~4名のグループに分けられ、会話の音声が録音されます。協力者それぞれの属性にも配慮しました。 協力者は18–70歳まで幅広い年齢層から集められ、性別、教育レベル、出身地などの点でも多様な構成となるよう配慮することで、的確で信頼性の高いデータを収集することを目指しました。

参加者の積極的な協力のおかげもあり、私たちはお客様の期待を上回る100時間分のデータを集めることができました。 録音されたデータは、全体の40%以上に有害表現を含むものであり、データセットの質、多様性の両面で、お客様にはとてもご満足いただくことができました。

この事例紹介が物語っているのは、音声認識テクノロジーの開発にとって、正確なデータの収集がきわめて重要であるということです。 インターネット上でヘイトスピーチが増加する中で、多様性に富んだデータセットが強く求められています。それによって、有害な言語表現のニュアンスを識別し、幅広い状況で有害表現が検出できるよう精度を高めることができるからです。

DataForceは、革新的なソリューションを提供し、困難なプロジェクトに立ち向かうために、私たちが自信を持ってお届けするサービスです。 今回のプロジェクトが成功したのも、私たちの積み上げたデータ収集・分析のノウハウが遺憾なく発揮された成果といえるでしょう。 こうしたお客様とのパートナーシップによって、私たちは最先端テクノロジーの発展に寄与し、それによって、有害表現から生じる悪影響の根絶に取り組む人々や団体の力になることができるのです。

有害表現

DataForceは、全世界に100万人以上のメンバーと、250以上の言語を網羅する言語スペシャリストからなるグローバルコミュニティを擁しています。 DataForceは独自のプラットフォームですが、お客様やサードパーティのツールを使用することも可能です。 これにより、お客様のデータを常に管理下に置くことができます。

コンサルティングを申し込む