データ収集
多言語音声収録
大量の多言語音声データの収集を通じて、アプリのローカライゼーションを効率化し、お客様をご支援いたします。
課題
音声アシスタントを搭載するスマートデバイスの普及に伴い、それを活用したソリューションに対する需要が高まっています。 エンドユーザーが音声認識に求める水準は高く、その期待に応えるには、周囲の雑音や音声パラメーターなど認識を妨げる要因があったとしても、どの言語の音声も正確に認識できることが必要です。
正確な音声認識を実現するためには、まず、対象言語のネイティブスピーカーが発話した大量の音声データが必要です。また、その音声データも偏った地域や環境だけから収集したものにならないようにする必要があります。 今回のお客様は、音声および話者認識の市場において業界屈指の技術を有しておりますが、こうした大規模なデータ収集に関しては十分な社内リソースが不足している状況でした。 そこで、韓国、中国市場におけるパートナーとして同社が白羽の矢を立てたのが、TransPerfect DataForceでした。
• • • •ソリューション• • • •
標準中国語と韓国語という2つの言語で、機械学習ソリューションが扱える範囲を広げるため、DataForceは、それぞれの言語でさまざまな社会集団から500名以上の協力者を集めました。 そして協力者にはそれぞれ、スマートフォンにインストールしたDataForceアプリを使って、1人あたり10回の録音セッションを完了してもらいました。 周囲のさまざまな種類の雑音、音声パラメーターを収集するため、録音セッションを実施する時間や場所は毎回変えるよう指示しました。
DataForceは、このプロジェクトを8週間以内で完了しました。 協力者自身の録音により提供された一連の音声データにより、クライアントの音声認識ソリューションの進歩に大きく貢献することができました。
DataForceは、全世界に100万人以上のメンバーと、250以上の言語を網羅する言語スペシャリストからなるグローバルコミュニティを擁しています。 DataForceは独自のプラットフォームですが、お客様やサードパーティのツールを使用することも可能です。 これにより、お客様のデータを常に管理下に置くことができます。