メインコンテンツに移動

iGenius

クラウドベースのイノベーションによる
音声の合成

音声の選択

音声の選択

矢印
スクリプト作成

スクリプト作成

矢印
クラウドレコーディングの利用

クラウドレコーディングの利用

AI を活用した Crystals Syntheiszed Voice

AIを搭載したCrystalの合成音声

Crystalのご紹介

Crystalとは、拡張知能企業であるiGeniusが開発したデータインテリジェンスのバーチャルアドバイザーであり、人工知能(AI)の支援によりユーザーはより的確で迅速な意思決定を行うことができます。 Crystalによってデータや分析のユーザーエクスペリエンスが変わります。Crystalは、複数のデータソースを接続し、同僚との会話のようにユーザーが自然に質問できるツールです。

Crystalを利用することで、ユーザーはデータ検索の時間を減らし、最も関連性の高い情報をもとに本来の業務時間を増やすことができます。 これにより、組織の様々な場面で行われる意思決定の方法を自律化し、強化し、拡大して、経営効率と収益成長を向上させます。 独自のカスタマイズが施されたCrystalの合成音声の開発と提供を実現するため、iGeniusは、トランスパーフェクトのAIデータソリューション部門であるDataForceとオーディオ・ビデオ部門であるTransPerfect Mediaとともに取り組みました。

イノベーションによる障害の克服

このプロジェクトはパンデミックのさなかに立ち上げられました。スタジオは閉鎖され、声優は自宅にとどまり、メディア業界は休止状態でした。iGeniusはCrystalの音声を収録しなければなりませんでしたが、取り得る手段は限られていました。 iGeniusのチームは、トランスパーフェクトが提供するクラウドレコーディングソリューションであるStudioNEXTに着目しました。 このプラットフォームを利用することで、声優はスタジオを訪れたり、機器に触れたり、人と接触したりする必要がなくなり、自宅で安心して収録を行うことができます。 クラウドテクノロジーを通じてCrystalのすべての合成音声を作成し、調整と制作作業を経て、iGeniusのプロジェクト要件を達成することができました。

音声の構築

Crystalの音声の開発にあたり、声優による一連の収録音声を基にしたテキスト読み上げエンジンのトレーニングが必要でした。 この収録音声をAIモデルに取り込むことにより、このAIモデルは音声言語の確率モデルを学習し、各文を一連の音として扱いました。 その後、言語コーパスから標準コーパスをフィルタリングするアルゴリズムを構築して、Crystalの音声を作成しました。 実際の音声とAIテクノロジーのシームレスな統合は、すべてリモート環境かつトランスパーフェクトのソフトウェアで実現しています。

 

iGeniusが重視しているのは、ユーザーの声に耳を傾けて要望を理解することです。そして、独自の調査を行い、ユーザーが満足する要件を明確にし、期待を上回ることを目指しています。 全体を振り返ってみて、今回、DataForceとMediaNEXTの協業で、ユーザーを満足させるソリューションを見つけることができたのは、本当に素晴らしい経験でした」

— トランスパーフェクト、データサイエンティスト、Fred Bane

音声AI

• • • • テキストと音声を繋ぐ • • • •

音声の選択

ステップ1 — 音声

バーチャルアドバイザーにとって声はブランドの顔となるものです。 Crystalには身体的な特徴がないため、音声だけで固有のイメージ、雰囲気、そして心に残る第一印象を作り出す必要がありました。 合成音声の作成にあたり、iGeniusは、MediaNEXTとDataForceが持つ言語スペシャリストと音声スペシャリストの膨大なデータベースに着目し、様々な声優や音声スタイルのサンプルを試しました。 いくつかの特性、イントネーション、癖を思い浮かべながら、目指すCrystalの人物像を特定することができました。

スクリプト作成

ステップ2 — スクリプト

DataForceとiGeniusは、スクリプトの全長、文の数、各文の読み上げ間隔の設定のほか、最も重要な要素として、英語の音素の全体的な分布と一致するコーパスの音素バランスの設定に共同で取り組みました。

クラウドレコーディングの利用

ステップ3 — レコーディング

Crystalの声を担当するJenniferとともに、完全なリモート環境の中、StudioNEXTを通じてスクリプトに命を吹き込みました。 クラウドレコーディングを利用することで、以前に中断した箇所を覚えていなくてもログインやログアウトを自由に行うことができ、すべてがクラウドにアップロードされます。 Jenniferは今回のような方法で収録を行ったことがなく、住居内で聞こえる雑音の対処について考慮するのも初めてでしたが、デバイスを静かな場所に持ち運んでスムーズにプロジェクトを完了させることができました。

iGeniusの研究部門が主な焦点としていたのは、主要製品であるCrystal向けのカスタマイズされた合成音声の作成でした。 TransPerfectのDataForceのアカウントエグゼクティブを務めるSofia SilvaとのLinkedInでのつながりを通じて、私たちはこのアイデアを実現することができました。 テキスト読み上げ機能を備えた高性能AIモデルのトレーニング用に、音声バランスのとれた文とそれに対応する高品質のオーディオクリップを集約した大規模なデータセットが必要でしたが、DataForceおよびMediaNEXTとの協業により、満足のいくものを作成することができました。

PHD機械学習およびデータサイエンスチーム責任者、Marco Bocchio氏 
iGeniusのチームリーダー

成果

iGeniusは、データの検索や分析のほか、ユーザーエクスペリエンス全体を強化するための音声を模索していました。 Crystalの合成音声によって、ユーザーは同僚を相手にしているかのように自然なやり取りを行うことができます。 iGenius、DataForce、MediaNEXTの共同の取組みにより、カスタマイズソリューションが構築され、合成音声のアイデアを実現しました。

DataForceは、全世界に100万人以上のメンバーと、250以上の言語を網羅する言語スペシャリストからなるグローバルコミュニティを擁しています。 DataForceは独自のプラットフォームですが、お客様やサードパーティのツールを使用することも可能です。 これにより、お客様のデータを常に管理下に置くことができます。

コンサルティングを申し込む