メインコンテンツに移動

計算言語スペシャリストによるコンサルティング

自動音声認識のための 
逆テキスト正規化

 

課題

Speechmatics社は、世界最先端の音声テキスト化APIの提供で急成長を遂げている企業であり、複数言語の書き起こしで数字の一貫性と読みやすさを改善するためにパートナーを探していました。

Speechmaticsは、書き起こし出力が各言語で一貫するよう、DataForceにコンサルティングとサポートを依頼いたしました。 DataForceは、自社の言語スペシャリストと開発チームを活用し、15言語のソリューションの市場導入までの期間を大幅に短縮しました。 すべての言語に、数字、金額、日付などの書式の異なるガイドラインが用意されていたため、言語別に考慮しなければならないことが課題でした。 そのため、高度なスキルを持つ計算言語スペシャリストが必要とされました。

「最初にSpeechmaticsから連絡を受けたとき、普通のプロジェクトではないことは明らかでした。 関係者全員にとって、短時間で多くを習熟できるプロジェクトでした。 計算言語学スペシャリストとクライアントチームのメンバーのためにこのプロジェクトの範囲を明確に定義し、ASRの出力を強化する成果をSpeechmaticsに提供する必要がありました」  
– DataForce、AI担当シニアディレクター、Dorota Iskra

• • • •ソリューション• • • •

テキスト内の関連性のあるパターンを認識し、それを一貫性のある書面形式に変換するための一連のルールが作成されました。 ルールは分野ごとに異なっており、重要な部分ではさまざまな例外が取り入れられていました。 英語のルールとテストケースは、英国に拠点を置くSpeechmatics社によって開発されました。 DataForceは、12言語用のソリューションの実現をサポートしました。その後さらに3言語が追加されました。

弊社はSpeechmaticsと緊密に協力し、一流の計算言語スペシャリストを確保しました。これらのスペシャリストは、チームが各言語の逆テキスト正規化(ITN)のルールを策定し、Pyniniフレームワーク内で実装できるようにサポートしました。 また、スペシャリストはルールのポジティブテストケースとネガティブテストケースを定義しました。 しかし、最大の課題は、ルールに含まれていないさまざまな例外が言語に存在することでした。

Speechmaticsと連携し、これらのモジュールのテストと修正を、すべてのテストに合格するまで行いました。 数字が多い金融分野のテストセットを主に使用し、作業の質を検証しました。 その結果、ASRの出力は、書籍や字幕のテキストで行われる方法と同様の方法で整形されました。

例えば、金額の出力は、以前は「“20000 dollars」と表示されていましたが、このプロジェクト以降は「$2万」と表示されるようになり、大幅に読みやすくなっています。 このように改善されたことで、Speechmaticsの顧客の書き起こしワークフローが高速化されるとともに、より質が高く、人が読み取れるキャプションを実現できるようになりました。

両チームは毎週、対面で打ち合わせを行い、緊密に連携して、問題を迅速に解決し、作業が進む中で遭遇したあらゆる例外を解決できるようにしました。

「DataForceと連携することで、私たちは極めて短期間で計算言語スペシャリストを確保することができました。そして、複数の言語で素晴らしい成果を達成しました。 彼らは弊社のエンジニアリングチームと緊密に協力してコードを実装し、最終結果を検証するためのテストデータを作成しました。 チームはプロセスの途中で発生したあらゆる問題に対応し、進捗を明確に報告してくれました。 彼らの尽力と熱意がなければ、このプロジェクトは実現しなかったでしょう。 書き起こし機能の改善によって編集ワークフローが高速化され、読みやすさが向上したとして、お客様から高い評価をいただいています。特に桁数の多い数や金額で顕著な影響が出ています」  
– Speechmatics、プロダクションマネージャー、Stuart Wood氏

音声

DataForceは、全世界に100万人以上のメンバーと、250以上の言語を網羅する言語スペシャリストからなるグローバルコミュニティを擁しています。 DataForceは独自のプラットフォームですが、お客様やサードパーティのツールを使用することも可能です。 これにより、お客様のデータを常に管理下に置くことができます。

コンサルティングを申し込む