Ir al contenido principal

Recopilación de datos

Construcción de un corpus lingüístico multilingüe

DataForce apoya a líder de hardware de audio internacional con datos de primera calidad para ajustar su motor de ASR.

El desafío

Los sistemas de reconocimiento de voz automáticos (ASR) pueden transformar los comandos de los usuarios en texto que luego se procesa con sistemas de procesamiento de lenguaje natural, Se necesita tener en cuenta varios aspectos, entre ellos, las variaciones de sonido y voz entre géneros, grupos etarios, acentos y dialectos —además del ruido de fondo asociado al entorno donde se utilizará el sistema— para lograr la implementación eficaz de un sistema de reconocimiento de voz automático. En este caso, el cliente necesitaba recopilar datos de entrenamiento y prueba en inglés, hindi, alemán, francés e italiano de varios grupos demográficos.

• • • •La solución• • • •

DataForce utilizó su aplicación móvil de propiedad exclusiva, DataForce Contribute, para recopilar datos de voz y ruidos de fondo en varias situaciones. Gracias a nuestra aplicación, los archivos de audio respetaron todos los requisitos técnicos, como la proporción señal a ruido y la frecuencia de muestreo. Después de recopilar todos los comandos de voz y ruido ambiental en condiciones de estacionamiento, conducción y ventanas abiertas/cerradas, la sobreposición de las ondas de sonido ayudó a crear conjuntos de datos que simulaban un entorno real. La solución de DataForce permitió al cliente desarrollar y probar un motor eficiente de reconocimiento de voz automático capaz de comprender comandos de voz en varios idiomas en distintas situaciones.

Ondas de audio

DataForce cuenta con una comunidad global de más de 1,000 000 de miembros en todo el mundo y lingüistas expertos en más de 250 idiomas. DataForce cuenta con su propia plataforma, pero también puede utilizar herramientas del cliente o de terceros. De esta forma, sus datos están siempre bajo control.

Solicite una consultoría