行业大模型语料库建设与治理

《财经》杂志 文/ 姚前  

2024年04月21日 07:28  

本文2889字,约4分钟

行业大模型语料通常包含自然科学、社会科学等通用语料和行业专用语料;行业高质量语料相对缺乏,建设行业大模型语料库是实现信息化向数字化、智能化转型的重要之举

大模型语料是指用于训练和评估大模型的一系列文本、语音或其他模态的数据。语料规模和质量对大模型性能以及应用的深度、广度有着至关重要的影响。当前行业大模型训练语料存在覆盖面不全、准确性不足、时效性不够等问题,导致大模型通常难以达到预期目标。实践经验表明,即使模型参数量级有所下降,只要数据语料质量足够高,其表现依然不俗。

为进一步提升大模型在行业的应用范围和应用成效,需统筹行业力量搭建社区平台,拓宽语料来源,构建语料标准规范,开展语料治理,保障语料安全,为大模型训练及应用提供满足业务场景需求,具备行业特性和标准化的高质量语料。

语料的范围

您看的此篇文章是收费文章
您可以通过以下方式阅读