メインコンテンツに移動

テキストアノテーション、情報検索適合性評価、対話型AIローカライゼーション、言語工学

生成AIチャットボット用の質問と回答の評価およびランク付け

 

課題

世界的なテクノロジー企業は、AIを活用した大規模言語モデル(LLM)のトレーニングを支援するパートナーを探していました。プロンプトの質問と回答のやり取りの関連性と精度の両面を強化しようとしていました。 このプロジェクトには以下のような、さまざまな目的がありました。

  • 質問の評価:質問が回答可能であることを確認する。
  • 回答の評価:回答が正しく、理解可能であり、完全なものであることを確認する。
  • 回答のランク付け:回答が自然であり、質問に基づいた関連性の高いものであることを確認する。

このような目的を果たすため、お客様は要件に応じて複数の回答と組み合わせたさまざまな質問を使用するモデルをトレーニングできるパートナーを必要としていました。また、データを詳細に、正確に分析して、適切に分類し、ランク付けできる適格な協力者のグループを確保する必要もありました。

• • • •ソリューション• • • •

DataForceは、お客様の独自の要件を把握した後、オフショアチームの構築に着手しました。プロジェクトの拡張に応じて協力者を柔軟に追加できる、弊社のグローバルネットワークを活用しました。 オンボーディングに先立って、プロジェクト参加希望者は、米国居住者の視点からプロンプトをレビューし、回答できるか適性審査を受けました。

参加者の審査やオンボーディングが完了した後、チャットボットの質問と回答を的確に評価しランク付けする方法について、詳細なガイドとトレーニング資料が提供されました。

品質保証を想定した評価とランク付けのプロセスを構築する:

  • 質問と回答はすべて、合意を得て、最も質の高いデータを得られるようにするため、それぞれ2回ずつ評価され、ランク付けされました。
  • アノテーターが異を唱えた場合、3人目のアノテーターが参加し、判定しました。

このアプローチは、プロジェクトの初期段階で基準として設定されました。さまざまな質問と回答の中でどれが理に適うか、意味をなさないかをアノテーションチームが明らかにし、お客様は本当に必要としているインサイトを活用することができました。 たとえば、回答は意味を成しても、具体的ではなく、判定に値しないかもしれません。 不合意の割合に基づいて得られるこうしたリアルタイムのフィードバックによって、提示された質問が、適切な合意を得ることが難しいものであると明らかになる場合があります。 プロジェクトが進行する中で、お客様はアノテーションチームの意見や発見を活用し、プロジェクトの要件を精緻化することができました。

初期のパイロット試験を経て、お客様はモデルトレーニングの進行に非常に満足し、評価とランク付けを行うデータ群を複数追加しました。 お客様は、合意されたタイムラインに沿って進めながら、リアルタイムのフィードバックに基づいて、随時プロジェクトの要件を変更することができました。

DataForceは質の高い回答アウトプットを提供することができました。そのため、お客様は収集されたデータを、生成AIチャットボットモデルのトレーニングで有益なアセットとして活用することができました。

クエリと回答の評価

DataForceは、全世界に100万人以上のメンバーと、250以上の言語を網羅する言語スペシャリストからなるグローバルコミュニティを擁しています。 DataForceは独自のプラットフォームですが、お客様やサードパーティのツールを使用することも可能です。 これにより、お客様のデータを常に管理下に置くことができます。

コンサルティングを申し込む