Consultoría de lingüista computacional
Normalización inversa de texto para
reconocimiento de voz automático
El desafío
Nuestro cliente, Speechmatics, una scaleup dedicada a API de voz a texto, líder en el mundo, buscaba un socio para mejorar la uniformidad y legibilidad de los números en la transcripción de varios idiomas.
Speechmatics recurrió a DataForce en busca de ayuda para asegurarse de que el resultado de las transcripciones se escribiera de manera uniforme en cada idioma. Gracias a sus conocimientos especializados de lingüística y a un equipo de desarrollo, DataForce pudo reducir radicalmente el tiempo de llegada al mercado para 15 idiomas. Dado que cada idioma posee un conjunto distinto de directrices para la escritura de números, montos de dinero, fechas, etc., lo difícil era asegurar que se hicieran las consideraciones de cada idioma en particular. Es para ello que se necesitaron lingüistas computacionales calificados.
“Apenas me contactó Speechmatics, supe que no era un proyecto habitual. Significaba una curva de aprendizaje pronunciada para todos los involucrados. Tuve que asegurarme de que definiéramos claramente el alcance del proyecto para los lingüistas computacionales y los miembros del equipo del cliente, y así pudiéramos proporcionar a Speechmatics un resultado mejor de reconocimiento de voz automático”.
Dorota Iskra, directora sénior de IA en DataForce
• • • •La solución• • • •
Se creó un conjunto de reglas para reconocer los patrones relevantes en el texto y convertirlo a una forma escrita uniforme. Las reglas eran diferentes según el dominio; la parte crítica era registrar varias excepciones. Al ser una compañía con sede en el Reino Unido, Speechmatics se encargó de desarrollar reglas y casos de prueba para el inglés. Con la ayuda de DataForce, se creó una solución para un conjunto de 12 idiomas que, posteriormente, incluyó otros tres.
En colaboración estrecha con Speechmatics, contratamos a lingüistas computacionales de primer nivel para ayudar al equipo a elaborar reglas de normalización inversa de texto (ITN) para cada idioma y su posterior implementación dentro del marco de Pynini. Los lingüistas también definieron casos de prueba positivos y negativos para las reglas. No obstante, la mayor dificultad radicó en las diversas excepciones en los idiomas que no seguían los patrones que las reglas capturaban.
Con la ayuda de Speechmatics, sometimos a prueba y modificamos estos módulos hasta que todos superaron las pruebas. Para comprobar la calidad del trabajo, empleamos principalmente conjuntos de prueba procedentes de un dominio financiero con grandes cantidades de cifras. Como consecuencia de esto, el resultado del ASR se formateó de la misma manera en la que se habría formateado el texto en libros o subtítulos.
Por ejemplo, las cantidades de dinero se visualizaban como ““20000 dólares” antes del proyecto y, después del proyecto, se visualizaron como “$20 000”, lo cual es mucho más fácil de leer. Esta mejora agilizó los flujos de trabajo de transcripción de los clientes de Speechmatics y generó como resultado subtítulos más fáciles para la lectura humana.
A medida que avanzaba el trabajo, los dos equipos se reunían cada semana para garantizar una cooperación estrecha, una resolución rápida de los problemas y la aclaración de las excepciones que encontraban.
“Trabajar con DataForce nos brindó una forma escalable de incorporar lingüistas expertos en un plazo de tiempo muy ajustado, quienes nos dieron excelentes resultados en múltiples idiomas. Ellos trabajaron de cerca con nuestros equipos de ingenieros para formular un código y crearon datos de prueba para validar el resultado final. El equipo dio respuesta a todos los problemas que tuvimos durante el proceso y comunicó claramente los avances. Este proyecto simplemente no habría sido posible sin su determinación y trabajo dedicado. Nuestros clientes han valorado mucho las mejoras finales en la transcripción, así como también la mayor rapidez en la edición de los flujos de trabajo y la mayor legibilidad, en particular en números largos y dinero”.
Stuart Wood, gerente de producto en Speechmatics
DataForce cuenta con una comunidad global de más de 1,000 000 de miembros en todo el mundo y lingüistas expertos en más de 250 idiomas. DataForce cuenta con su propia plataforma, pero también puede utilizar herramientas del cliente o de terceros. De esta forma, sus datos están siempre bajo control.