주요 콘텐츠로 건너뛰기

데이터 수집

혐오 표현 탐지용 오디오 수집

 

당면 과제

세계적 기술 기업에서 대규모 대화형 스피치 데이터 수집 프로젝트를 도와줄 파트너를 찾고 있었습니다. 헤이트 스피치, 사이버폭력 등의 언어 폭력이 증가함에 따라 현대 사회에서 혐오 표현은 갈수록 큰 걱정거리가 되어가고 있습니다. 사전에 정한 두 가지 주제 전반에 걸쳐 최소 40시간 분량의 혐오 표현을 수집하는 것이 목표였습니다.

• • • •솔루션• • • •

140여명의 참가자에게 각각 실제 상황 시나리오와 프롬프트를 제공하여 대면 및 원격으로 모더레이션된 데이터 수집을 실행하는 솔루션이 제안되었습니다. 인구통계학적 다양성을 감안하여 한 명에서 네 명까지로 각 그룹을 구성하여 다량의 생생한 대화를 녹음했습니다. 성공적이고 안정적인 자료 수집을 위해 18–70세 사이의 참가자를 모집하고 성별, 학력, 지역 다양성을 확보했습니다.

참가자와의 긴밀한 협업을 통해 고객사의 기대 수준을 넘는 100시간 분량의 데이터를 수집할 수 있었습니다. 혐오 표현의 처리량이 40%를 넘김에 따라 파트너는 데이터세트의 품질과 다양성에 상당히 흡족해했습니다.

이번 사례 연구는 정확한 데이터 수집이 음성 탐지 기술에 있어 얼마나 중요한지를 입증합니다. 온라인 헤이트 스피치가 증가함에 따라 다양한 데이터세트를 확보하여 해로운 표현의 뉘앙스를 파악하고 다양한 맥락에서 혐오 표현 탐지 성능을 개선하는 것이 중요합니다.

혁신적인 솔루션을 통해 어려운 프로젝트를 수행할 수 있는 역량이 바로 DataForce의 자랑입니다. 이번 프로젝트 성공은 DataForce의 데이터 수집과 분석 전문성을 잘 보여줍니다. DataForce는 이러한 파트너십을 통해 개인과 조직이 혐오 표현의 유해성에 대응할 수 있게 하는 첨단 기술 개발을 지원할 수 있습니다.

혐오 표현

DataForce는 전 세계적으로 1,000,000명 이상의 회원과 250개 이상의 언어를 지원하는 언어 전문가로 구성된 글로벌 커뮤니티를 보유하고 있습니다. DataForce는 자체 플랫폼이지만 고객 혹은 타사 도구도 활용할 수 있습니다. 이런 방식으로 고객 데이터를 빈틈없이 관리합니다.

상담을 요청하세요.