中文
|
EN

LUGE ( Language Understanding and Generation Evaluation Benchmarks )

全面的面向自然语言理解和生成任务的中文开源数据集合,旨在为研究人员带来一站式的数据集浏览、整理、下载和评测的科研体验,共同推动中文信息处理技术的进步。

查看更多
千言数据集其它开源数据集索引

简介

数据集是推动自然语言处理技术进步的基石。目前的许多技术研发仅关注模型在单一数据集上的效果,然而自然语言处理技术在大规模产业化的应用中,面临着多领域、多场景等诸多挑战。因此,我们亟需更加全面的数据集合以应对这些挑战。千言项目针对每个自然语言处理问题,均收集和整理多个开源数据集,进行统一的处理并提供统一的测评方式。千言项目期望从准确性、泛化性和鲁棒性等多角度对模型效果进行综合评价。目前,千言项目已经针对8个任务,汇集了来自11所高校和企业的23个开源数据集。未来,希望有更多的数据集作者能够参与共建千言项目,共同推动中文信息处理技术的进步,建设世界范围的中文信息处理影响力。

展开全文

数据集作者(以下作者按照拼音排序)

陈清财等 (哈尔滨工业大学(深圳))
黄民烈等 (清华大学)
刘云峰等 (追一科技)
柳厅文等 (中科院信工所)
史树明等 (腾讯)
尚利锋等 (华为)
谭松波等 (联想)
吴华等 (百度)
周明等 (微软)
赵妍妍等 (哈尔滨工业大学)
张岳等 (西湖大学)
  • 陈清财等 (哈尔滨工业大学(深圳))
  • 黄民烈等 (清华大学)
  • 刘云峰等 (追一科技)
  • 柳厅文等 (中科院信工所)
  • 史树明等 (腾讯)
  • 尚利锋等 (华为)
  • 谭松波等 (联想)
  • 吴华等 (百度)
  • 周明等 (微软)
  • 赵妍妍等 (哈尔滨工业大学)
  • 张岳等 (西湖大学)

加入我们

我们希望有更多的数据集作者能够参与共建千言项目,共同推动中文信息处理技术的进步,建设世界范围的中文信息处理影响力。未来3年,我们希望面向20个任务,收集100个中文自然语言处理数据集。

希望您能够与我们联系:

将您的数据集加入已有任务增加新的任务并加入您的数据集欢迎您提出更多的宝贵意见