전산 언어 컨설팅
자동 음성 인식을 위한
텍스트 역정규화
당면 과제
세계 최고의 음성 텍스트 변환 API 스케일업 기업인 Speechmatics는 여러 언어로 된 녹취전사의 숫자 일관성과 가독성을 개선하기 위해 협력할 파트너를 찾고 있었습니다.
Speechmatics는 DataForce에 여러 언어로 작성된 녹취전사 결과물의 일관성 개선 작업을 문의했습니다. DataForce는 자체 언어 전문성과 개발팀을 활용하여 15개 언어의 출시 속도를 크게 단축시킬 수 있었습니다. 언어마다 숫자, 금액, 날짜 등을 기재하는 방식이 다르기 때문에 언어별 특성을 고려하는 것이 어려운 부분이었습니다. 바로 이 부분에서 숙련된 컴퓨터 언어 전문가가 필요합니다.
“Speechmatics에서 처음 문의했을 때 이것이 보통 프로젝트가 아니라는 것을 확실히 알 수 있었습니다! 모든 관계자가 촉박한 일정 내에 학습해야 했습니다. 전산 언어학자와 고객사 팀원의 프로젝트 범위를 명확하게 정의하여 Speechmatics의 ASR 결과물을 개선하는 서비스를 제공해야 했습니다.”
– Dorota Iskra, DataForce AI 상무이사
• • • •솔루션• • • •
텍스트의 패턴을 인식하여 일정한 서면 양식으로 변환하는 규칙을 만들었습니다. 이 규칙은 도메인에 따라 달라집니다. 다양한 예외를 포착하는 것이 중요한 부분입니다. 영국 주재 기업인 Speechmatics는 영어 규칙과 테스트 케이스를 개발했습니다. 반면, DataForce는 12개 언어에 대한 솔루션을 지원했고 이후 3개 언어를 추가했습니다.
Speechmatics와 긴밀하게 협업을 진행하면서, 소싱한 일류 컴퓨터 언어 전문가의 지원으로 각 언어에 대한 텍스트 역정규화(ITN) 규칙을 취합하고 Pynini 프레임워크 내에 적용했습니다. 또한 언어 전문가들은 규칙에 대한 양성 및 음성 테스트 케이스도 정의했습니다. 그러나 가장 어려운 부분은 규칙에서 포착한 패턴을 따르지 않는 다양한 언어별 예외였습니다.
Speechmatics와의 협업을 통해 이런 모듈을 통과할 때까지 테스트하고 수정했습니다. 작업 품질을 검증하기 위해 숫자가 많은 금융 도메인에서 추출한 테스트 세트를 주로 적용했습니다. 그 결과, ASR 결과물을 책이나 자막 텍스트와 동일한 형식으로 도출할 수 있었습니다.
예를 들어, 과거에는 금액이 “20000달러”로 표시되었지만, 이번 프로젝트 이후로는 훨씬 읽기 쉬운 “$20,000”로 표시되었습니다. 이런 개선 덕분에 Speechmatics 고객사의 녹취전사 업무 속도가 빨라져서 가독성 높은 자막을 제작할 수 있었습니다.
두 회사의 팀은 매주 만나서 긴밀하게 협업하고, 문제를 신속하게 해결하고, 업무 진행 과정에서 접한 예외사항을 확인했습니다.
“촉박한 일정에도 불구하고 DataForce와의 협업을 통해 언어 전문가들을 유연하게 합류시킬 수 있었고, 여러 언어에 걸쳐 탁월한 결과물을 도출할 수 있었습니다. 우리 엔지니어링 팀과 긴밀하게 협력하여 코드를 도출하고 테스트 데이터를 만들어 최종 결과를 검증했습니다. 그 과정에서 접한 모든 문제에 대처했으며 진행 상황을 명확하게 전달했습니다. 이 프로젝트는 DataForce 팀의 노고와 결단력이 없었다면 불가능했을 것입니다. 녹취전사 최종 개선본에 대한 우리 고객들의 만족도가 매우 높아졌습니다. 특히 높은 단위의 숫자와 금액에서 가독성이 높아지고 편집 업무 속도가 빨라졌습니다.”
– Stuart Wood, Speechmatics 제품 관리자
DataForce는 전 세계적으로 1,000,000명 이상의 회원과 250개 이상의 언어를 지원하는 언어 전문가로 구성된 글로벌 커뮤니티를 보유하고 있습니다. DataForce는 자체 플랫폼이지만 고객 혹은 타사 도구도 활용할 수 있습니다. 이런 방식으로 고객 데이터를 빈틈없이 관리합니다.