Recopilación de datos
Recopilación de audios para detectar el discurso tóxico
El desafío
Nuestro cliente, una compañía internacional de tecnología, buscaba un socio que brindara asistencia en un gran proyecto de recopilación de datos de conversación oral. Las expresiones tóxicas son una preocupación cada vez mayor en la sociedad actual debido al aumento del discurso de odio, el acoso en línea y otros ataques verbales. El objetivo era recopilar, como mínimo, 40 horas de discurso altamente tóxico en dos temas preestablecidos.
• • • •La solución• • • •
La solución que propusimos fue realizar una recopilación moderada, tanto presencial como remota, con la participación de más de 140 personas a quienes se les proporcionaron situaciones de la vida real e instrucciones. Grabamos a cada grupo, compuesto por uno a cuatro participantes, para asegurar una conversación productiva y genuina, teniendo en cuenta la diversidad demográfica. Seleccionamos participantes de entre 18 y 70 años para garantizar la diversidad de género, educación y ubicación geográfica, asegurando así una recopilación de datos exitosa y sólida.
Logramos recopilar 100 horas de datos trabajando estrechamente con los participantes, superando las expectativas del cliente. Nuestro socio quedó muy satisfecho con el resultado, que incluyó más del 40% de discurso tóxico, así como con la calidad y diversidad de los datos obtenidos.
Este caso demuestra la importancia de una recopilación precisa de datos para las tecnologías de detección de discurso. Dado el aumento del discurso de odio en línea, es crucial contar con un conjunto de datos diverso que permita identificar los matices del lenguaje ofensivo y mejorar la detección de discurso tóxico en diversos contextos.
En DataForce, nos enorgullece nuestra capacidad para abordar proyectos desafiantes mediante soluciones innovadoras. El éxito de este proyecto es testimonio de nuestra experiencia en análisis y recopilación de datos. A través de colaboraciones como esta, contribuimos al desarrollo de tecnologías avanzadas que empoderan a las personas y organizaciones para combatir los efectos perjudiciales del discurso tóxico.
DataForce cuenta con una comunidad global de más de 1,000 000 de miembros en todo el mundo y lingüistas expertos en más de 250 idiomas. DataForce cuenta con su propia plataforma, pero también puede utilizar herramientas del cliente o de terceros. De esta forma, sus datos están siempre bajo control.