주요 콘텐츠로 건너뛰기

텍스트 어노테이션, 검색 관련성 평가, 대화형 AI 현지화, 언어 엔지니어링

생성형 AI 챗봇을 위한 질의·응답 평가 및 순위 지정

 

당면 과제

세계적인 기술 기업인 이 고객사는 프롬프트 질의 및 응답 상호 작용의 관련성과 정확성 양 측면에서 AI를 활용한 대규모 언어 모델(LLM) 훈련을 지원할 파트너를 찾고 있었습니다. 이 프로젝트 목표는 다음과 같이 다양했습니다.

  • 질의 평가: 질의가 답변 가능한지 확인
  • 응답 평가: 응답이 정확하고, 이해하기 쉽고, 완전한지 확인.
  • 응답 순위 지정: 질의를 바탕으로 응답이 자연스럽고 관련성이 있는지 확인

고객사는 이 목표를 달성하기 위해 고객사 요건을 바탕으로 여러 개의 응답과 페어링된 다양한 질의로 모델을 훈련하는 능력을 갖추었으면서도 세부적으로 데이터를 정확하게 분석한 다음 이를 분류하고 그에 맞게 순위를 지정할 수 있는 자격을 갖춘 기여자 집단을 조달하는 파트너가 필요했습니다.

• • • •솔루션• • • •

고객사의 구체적인 요건을 파악한 후, DataForce 팀은 프로젝트가 지속적으로 성장하는 과정에서 유연하게 기여자를 추가할 수 있는 DataForce 글로벌 네트워크를 활용하여 해외 팀을 구축하기 시작했습니다. 온보딩 전에, 지원자들을 심사하여 미국에 거주하고 있는 사람의 관점에서 프롬프트를 검토하고 이에 답변할 수 있는지를 확인했습니다.

지원자들을 승인하고 온보딩한 다음, 챗봇에서 받은 질의와 응답을 평가하고 순위를 매기는 방법에 대한 세부적인 지침과 교육 자료를 제공했습니다.

품질 보증을 염두에 둔 평가 및 순위 지정 프로세스 구축:

  • 각 질의와 응답은 일치점을 찾고 가장 높은 품질의 데이터를 산출하기 위한 노력으로 2회에 걸쳐 평가하고 순위를 매겼습니다.
  • 어노테이터 간에 서로 반대되는 의견이 있는 경우, 제3의 어노테이터를 참여시켜 최종 결정을 내렸습니다.

프로젝트 초기 단계에서 이러한 접근 방식을 표준으로 삼고, 어노테이션 팀이 다양한 질의와 응답에서 합리적인 부분과 합리적이 아닌 부분을 확인하면서, 고객사는 꼭 필요한 인사이트를 활용할 수 있었습니다. 예를 들면, 답변이 합리적이지만 구체적이거나 측정 가능하지는 않을 수 있습니다. 불일치 비율로 제공되는 이러한 실시간 피드백을 통해, 제기된 질문이 너무 어려워서 일치 가능 상태에 이를 수 없음을 알 수 있었습니다. 프로젝트가 계속 진행되면서, 고객사는 어노테이션 팀의 의견과 확인된 사실을 활용하여 프로젝트 요건을 개선할 수 있었습니다.

초기 파일럿 이후, 고객사는 모델 훈련의 진행도에 매우 만족했으며, 평가하고 순위를 매길 추가 데이터 배치를 여러 개 추가했습니다. 합의된 타임라인이 지연 없이, 고객사는 실시간 피드백을 바탕으로 프로젝트 요건을 수시로 변경할 수 있었습니다.

DataForce는 고객사가 수집된 데이터를 생성형 AI 챗봇 모델 훈련의 귀중한 자산으로 활용할 수 있도록 높은 품질의 결과물로 응답을 제공할 수 있었습니다.

질의 및 응답 평가

DataForce는 전 세계적으로 1,000,000명 이상의 회원과 250개 이상의 언어를 지원하는 언어 전문가로 구성된 글로벌 커뮤니티를 보유하고 있습니다. DataForce는 자체 플랫폼이지만 고객 혹은 타사 도구도 활용할 수 있습니다. 이런 방식으로 고객 데이터를 빈틈없이 관리합니다.

상담을 요청하세요.