Ir al contenido principal

Anotación de textos, clasificación de relevancia de búsquedas, localización de IA conversacional, ingeniería lingüística

Evaluación y categorización de consultas y respuestas para chatbot de IA generativa

 

El desafío

Nuestro cliente, una compañía de tecnología internacional, buscaba un socio para asistir en la capacitación de su modelo de lenguaje grande (LLM) basado en IA, tanto en la pertinencia como en la precisión de las interacciones de consulta y respuesta rápidas. El proyecto tenía una variedad de objetivos, entre ellos:

  • Evaluación de consultas: confirmar que la consulta se puede responder.
  • Evaluación de respuestas: confirmar que la respuesta es correcta, comprensible y completa.
  • Calificación de respuestas: confirmar que la respuesta es natural y relevante en función de la consulta.

Para lograr esto, nuestro cliente necesitaba un socio con la habilidad de capacitar el modelo con diferentes tipos de consultas, emparejadas con varias respuestas basadas en los requisitos del cliente, todo ello mientras reclutaba colaboradores calificados que pudieran analizar correctamente los datos en detalle, y luego categorizarlos y calificarlos según corresponda.

• • • •La solución• • • •

Luego de comprender los requisitos específicos de nuestro cliente, el equipo de DataForce comenzó a formar un equipo en el extranjero, aprovechando nuestra red global que nos daba la flexibilidad necesaria para añadir colaboradores a medida que crecía el proyecto. Antes de su incorporación al equipo, los candidatos debieron pasar por pruebas para garantizar que pudieran revisar y crear contenido siguiendo las instrucciones desde la perspectiva de un residente de los Estados Unidos.

Una vez que los candidatos fueron aprobados e incorporados al equipo, se les brindaron instrucciones detalladas y material de capacitación sobre cómo evaluar y calificar las consultas y respuestas del chatbot.

Desarrollar un proceso de evaluación y calificación teniendo en cuenta la garantía de calidad:

  • Cada consulta y respuesta se evaluó y calificó dos veces en un esfuerzo por lograr un acuerdo intersubjetivo y brindar datos de la más alta calidad.
  • Si los anotadores tenían opiniones diferentes, se incorporaba un tercer anotador para tomar la decisión final.

Con este enfoque establecido como el estándar en las etapas iniciales del proyecto, nuestro cliente pudo aprovechar perspectivas muy necesarias a medida que el equipo de anotación descubría qué tenía sentido y qué no entre todas las consultas y respuestas. Por ejemplo, una respuesta podía tener sentido, pero no ser específica y medible. Estos comentarios en tiempo real del índice de desacuerdo revelarían que es demasiado difícil lograr un estado de acuerdo para la pregunta planteada. A medida que avanzaba el proyecto, nuestro cliente pudo refinar los requisitos del proyecto al aprovechar las opiniones y hallazgos del equipo de anotación.

Luego del piloto inicial, nuestro cliente estaba muy satisfecho con el progreso de la capacitación del modelo y añadió varios lotes de datos adicionales para evaluar y calificar. Nuestro cliente pudo modificar los requisitos del proyecto constantemente sobre la base de los comentarios en tiempo real, todo ello mientras se cumplía con el plazo acordado.

DataForce logró proporcionar respuestas con un resultado de alta calidad, de modo que nuestro cliente pudo utilizar los datos recopilados como un activo valioso en la capacitación de su modelo de chatbot de IA generativa.

Evaluación de consultas y respuestas

DataForce cuenta con una comunidad global de más de 1,000 000 de miembros en todo el mundo y lingüistas expertos en más de 250 idiomas. DataForce cuenta con su propia plataforma, pero también puede utilizar herramientas del cliente o de terceros. De esta forma, sus datos están siempre bajo control.

Solicite una consultoría