データ収集
多言語データ収集による
自動車の音声生体認証技術の強化
課題
多国籍自動車企業は音声生体認証技術の開発とテストを支援するパートナーを探しており、弊社に依頼がありました。 DataForceチームが支援するにあたり、企業からは複数国での音声データ収集・書き起こしプロジェクトに必要な要件と属性(デモグラフィック)について、明確な指示がありました。 インドと米国の両国で1千人の参加者からなる大規模なサンプルを確保し、国ごとに15万の発話データを収集する必要がありました。
• • • •ソリューション• • • •
DataForceチームは独自のグローバルコミュニティを活用し、米国とインドの両国において、年齢、性別、アクセントの要件に合ったデータ提供者を募集し、審査から選抜、採用まで行いました。 独自の強力なグローバルネットワークと専任調達チーム、認証審査チーム、その他SNS、パートナーシップ、コミュニティエンゲージメントを担当する各チームと協力し、お客様の要件に完全に準拠し、プロジェクトを迅速に開始しました。 データ提供者のスクリーニングでは、経験豊富な言語スペシャリストがデータ収集位置の検証やアクセント評価などを行いました。
採用プロセス完了後、データ収集の時間帯やバックグラウンドノイズといった各種要素について特定のパラメータを設定し、テスト車両内で音声を録音しました。 例えば、データ提供者には、エアコンを付けている場合と付けていない場合や、屋内で運転している場合と屋外で運転している場合といった様々な条件下で話してもらうように依頼しました。 審査を通過した参加者のデータをすべて「DataForce Contribute」アプリを通じて収集し、弊社独自のDataForceプラットフォームに直接取り込むことで、シームレスなエンドツーエンドの体験を実現しました。 このプラットフォームでは、タイムスタンプ、書き起こし、統計データ、位置情報、録画条件といったメタデータも統合しており、さまざまな主要なデータ分析結果を効率的にお客様に提供することができました
同プロジェクトにおいて、DataForceが収集したデータは98%の精度を達成しました。お客様はこのデータを活用し、世界中のドライバー向けの車載インフォテインメント(情報とエンターテイメントを提供するシステム)および運転支援用の音声認識技術の開発、テスト、改良に成功しました。
DataForceは、全世界に100万人以上のメンバーと、250以上の言語を網羅する言語スペシャリストからなるグローバルコミュニティを擁しています。 DataForceは独自のプラットフォームですが、お客様やサードパーティのツールを使用することも可能です。 これにより、お客様のデータを常に管理下に置くことができます。