개체명 인식
이상사례 탐지
자연어 처리를 활용한 이상사례 탐지
당면 과제
유명 제약회사인 이 고객사는 소셜 미디어 게시물에서 이상사례(AE)을 탐지하는 NLP 알고리즘을 개발하고 있었습니다. 이 고객사는 구체적인 환자의 우려 사항과 경험을 체계화하고 해결하기 위해 사전 정의된 개체명을 분류하는 것을 목표로 하고 있었습니다. 환자의 경험과 건강을 개선하려면 1만 건 이상의 소셜 미디어 게시물을 분석해야 함은 물론, AE 탐지 시 거짓 부정의 수도 줄여야 했습니다. 민감한 의료 정보를 다루는 프로젝트의 성격상, 모든 분류와 탐지의 정확도를 100%로 목표하고 있었습니다. 현재 관행과는 달리 머신러닝 모델이 확실한 분류 결과를 도출하지 못하는 부분에서만 인간이 검토를 실시하기 때문에 이러한 인간 참여형 방식은 확장성을 10배 증가시킵니다.
• • • •솔루션• • • •
이 프로젝트는 백만 명에 이르는 DataForce 커뮤니티에서 주제별 전문가를 엄선하는 것으로 시작되었습니다. DataForce는 심사를 거친 후보 중에 약물 감시 분야의 배경 지식이 있는 검토자를 세심하게 골라 점진적으로 팀을 구축했습니다. 전문가 감독, 블라인드 어노테이션 프로세스, 코헨의 카파 계수 같은 구체적인 품질 지표의 적용을 조합하여 신속하게 품질을 개선했습니다. 어노테이션 프로세스가 계속됨에 따라 납품 주기를 단축하기 위해 어노테이션 팀을 확충했습니다. DataForce 팀은 며칠 만에 수천 건의 소셜 미디어 게시물을 검토했습니다.
어노테이션과 분류의 정확도를 보장하기 위해, 개별 작업에 대해 더블 블라인드 어노테이션을 실시한 후에 철저한 품질 관리도 진행했습니다. 모든 의견 불일치 항목은 각 게시물의 최종 분류를 맡은 검토자가 조정했습니다.
더 많은 데이터세트가 유입됨에 따라 팀과 신속하게 피드백을 적용했고, 소셜 미디어 게시물의 극단적인 사례와 예상하지 못한 경험을 반영하여 가이드라인을 업데이트했습니다. 프로젝트 변경 사항은 모두 내부 어노테이션 플랫폼 DataForce를 통해 원활하게 업데이트하여 지속적으로 개선되는 확장 가능한 모델로 데이터세트를 완성할 수 있었습니다.
고객사는 이러한 인간 참여형 모델이 기존의 수작업 분류에 비해 훨씬 확장성 높고 효율적임을 확인할 수 있었다고 평가했습니다.

DataForce는 전 세계적으로 1,000,000명 이상의 회원과 250개 이상의 언어를 지원하는 언어 전문가로 구성된 글로벌 커뮤니티를 보유하고 있습니다. DataForce는 자체 플랫폼이지만 고객 혹은 타사 도구도 활용할 수 있습니다. 이런 방식으로 고객 데이터를 빈틈없이 관리합니다.