文本标注、搜索相关性评级、对话式人工智能本地化、语言工程
面向生成式人工智能聊天机器人的查询与回复评估及评级
挑战
我们的客户是一家国际科技公司,正在寻找合作伙伴来协助训练其人工智能大语言模型(LLM),从而提高提示词查询和回复互动的相关性和准确性。 该项目包含多个目标,具体如下:
- 查询评估:验证查询是否可回答。
- 回复评估:确保回复的完整性、正确性及可理解性。
- 回复评级:依据查询内容,评估回复的自然度和相关性。
为了实现这些目标,我们的客户需要一个具备以下能力的合作伙伴:能够基于各种查询对模型进行训练,并根据客户需求提供多样化的回复方案;同时,还能够招募到一群符合条件的贡献者,对数据进行精确且详尽的分析,并据此进行分类和评级。
• • • •解决方案• • • •
在深入了解客户的具体需求后,创博数据团队依托我们的全球人才网络,着手组建一支远程团队,且能够随着项目的不断推进,灵活地扩充团队规模。 在申请者正式入职前,我们对其进行严格的筛选,确保他们能够从美国居民的视角审阅和回答提示词相关问题。
一旦申请者通过审核并加入团队,他们就会接收到详尽的指导和培训资料,学习如何对聊天机器人的查询及回复进行评估和评级。
建立一个以质量保证为核心的评估和评级流程:
- 每项查询和回复都会经过两轮评估与评级,力求达成共识,确保获得高品质的数据。
- 若标注员之间存在分歧,将由第三位标注员介入,做出最终的决定。
在项目初期,将这一方法确立为标准后,标注团队能够从各种查询和回复中识别出哪些内容具有价值、哪些内容无关紧要,以便我们的客户能够充分利用标注团队得出的宝贵见解。 例如,某些回复虽然看似合理,却缺乏具体性和可量化性。 这种基于分歧率的即时反馈揭示了问题的难度,表明当前问题可能过于复杂,难以达成一致意见。 随着项目的深入,我们的客户得以充分利用标注团队的见解和发现,进一步优化项目需求。
在初步试点之后,我们的客户对模型训练的进展感到非常满意,并增加了多批额外数据进行评估和评级。 我们的客户能够依据实时反馈灵活调整项目要求,同时又能保障项目如期完成。
得益于创博数据提供的高质量回复输出,我们的客户因而能够将采集到的数据视为宝贵的资产,用于训练其生成式人工智能聊天机器人模型。

创博数据汇聚了全球逾 1,000,000 名成员,以及超过 250 种语言的语言专家。 创博数据既依托于自身构建的平台,也能够使用客户或第三方的工具。 这样一来,您的数据尽在掌控。