跳转到主要内容

文本标注、搜索相关性评级、对话式人工智能本地化、语言工程

面向生成式人工智能聊天机器人的查询与回复评估及评级

 

挑战

我们的客户是一家国际科技公司,正在寻找合作伙伴来协助训练其人工智能大语言模型(LLM),从而提高提示词查询和回复互动的相关性和准确性。 该项目包含多个目标,具体如下:

  • 查询评估:验证查询是否可回答。
  • 回复评估:确保回复的完整性、正确性及可理解性。
  • 回复评级:依据查询内容,评估回复的自然度和相关性。

为了实现这些目标,我们的客户需要一个具备以下能力的合作伙伴:能够基于各种查询对模型进行训练,并根据客户需求提供多样化的回复方案;同时,还能够招募到一群符合条件的贡献者,对数据进行精确且详尽的分析,并据此进行分类和评级。

• • • •解决方案• • • •

在深入了解客户的具体需求后,创博数据团队依托我们的全球人才网络,着手组建一支远程团队,且能够随着项目的不断推进,灵活地扩充团队规模。 在申请者正式入职前,我们对其进行严格的筛选,确保他们能够从美国居民的视角审阅和回答提示词相关问题。

一旦申请者通过审核并加入团队,他们就会接收到详尽的指导和培训资料,学习如何对聊天机器人的查询及回复进行评估和评级。

建立一个以质量保证为核心的评估和评级流程:

  • 每项查询和回复都会经过两轮评估与评级,力求达成共识,确保获得高品质的数据。
  • 若标注员之间存在分歧,将由第三位标注员介入,做出最终的决定。

在项目初期,将这一方法确立为标准后,标注团队能够从各种查询和回复中识别出哪些内容具有价值、哪些内容无关紧要,以便我们的客户能够充分利用标注团队得出的宝贵见解。 例如,某些回复虽然看似合理,却缺乏具体性和可量化性。 这种基于分歧率的即时反馈揭示了问题的难度,表明当前问题可能过于复杂,难以达成一致意见。 随着项目的深入,我们的客户得以充分利用标注团队的见解和发现,进一步优化项目需求。

在初步试点之后,我们的客户对模型训练的进展感到非常满意,并增加了多批额外数据进行评估和评级。 我们的客户能够依据实时反馈灵活调整项目要求,同时又能保障项目如期完成。

得益于创博数据提供的高质量回复输出,我们的客户因而能够将采集到的数据视为宝贵的资产,用于训练其生成式人工智能聊天机器人模型。

查询和响应评估

创博数据汇聚了全球逾 1,000,000 名成员,以及超过 250 种语言的语言专家。 创博数据既依托于自身构建的平台,也能够使用客户或第三方的工具。 这样一来,您的数据尽在掌控。

申请咨询。