中文
|
EN

LUGE ( Language Understanding and Generation Evaluation Benchmarks )

全面的面向自然语言理解和生成任务的中文开源数据集合,旨在为研究人员带来一站式的数据集浏览、整理、下载和评测的科研体验,共同推动中文信息处理技术的进步。

查看更多
千言数据集

简介

数据集是推动自然语言处理技术进步的基石。目前的许多技术研发仅关注模型在单一数据集上的效果,然而自然语言处理技术在大规模产业化的应用中,面临着多领域、多场景等诸多挑战。因此,我们亟需更加全面的数据集合以应对这些挑战。千言项目针对每个自然语言处理问题,均收集和整理多个开源数据集,进行统一的处理并提供统一的测评方式。千言项目期望从准确性、泛化性和鲁棒性等多角度对模型效果进行综合评价。目前,千言项目已经针对8个任务,汇集了来自11所高校和企业的28个开源数据集。未来,希望有更多的数据集作者能够参与共建千言项目,共同推动中文信息处理技术的进步,建设世界范围的中文信息处理影响力。

展开全文

语言理解与生成

从情感分析、阅读理解、文本相似度、摘要生成、问题生成、对话生成共6个任务挑战预训练模型的通用语言生成和理解能力。

new

文本生成

从摘要生成、问题生成、对话生成多个任务挑战文本生成模型。

new

情感分析

针对句子级情感分类、评价对象级情感分类和观点抽取三个子任务,收集和整理了ChnSentiCorp、NLPCC14-SC、SemEval16-ABSA、COTE四个数据集。

阅读理解

针对抽取式阅读理解和观点式阅读理解两个子任务,收集和整理了DuReader_robust、DuReader_yesno两个数据集。

开放域对话

针对多种场景的对话任务:包括网络日常对话,情感对话,知识对话和有目标的开放域对话等任务,收集和整理了来自工业界和学术界的七个对话数据集。

文本相似度

针对多个领域数据和模型鲁棒性的问题,收集和整理了LCQMC, BQ Corpus 和PAWS-X(中文)三个数据集。

语义解析

针对不同的数据库形式和SQL查询语句的复杂度,收集和整理了CSpider、NL2SQL和DuSQL三个数据集。

机器同传

机器同传结合了机器翻译、语音识别和语音合成等多种技术,整理了BSTC数据集,包含针对中英、英西两个方向共四项任务。

信息抽取

针对关系抽取和事件抽取两个子任务,收集和整理了DuIE和DuEE两个数据集。

实体链指

针对实体链指任务,收集和整理了DuEL数据集。

面向事实一致性的文本生成

从文案生成、摘要生成和问题生成三个任务,挑战文本生成结果与输入的事实一致性水平。

低资源语言翻译

针对多语种翻译面临的资源稀疏问题,整理了低资源语言翻译数据集,包含俄中,中俄,泰中,中泰,越中和中越六个方向的翻译任务。

数据集作者(以下作者按照拼音排序)

陈清财等 (哈尔滨工业大学(深圳))
黄民烈等 (清华大学)
刘云峰等 (追一科技)
柳厅文等 (中科院信工所)
史树明等 (腾讯)
尚利锋等 (华为)
谭松波等 (联想)
吴华等 (百度)
周明等 (微软)
赵妍妍等 (哈尔滨工业大学)
张岳等 (西湖大学)
  • 陈清财等 (哈尔滨工业大学(深圳))
  • 黄民烈等 (清华大学)
  • 刘云峰等 (追一科技)
  • 柳厅文等 (中科院信工所)
  • 史树明等 (腾讯)
  • 尚利锋等 (华为)
  • 谭松波等 (联想)
  • 吴华等 (百度)
  • 周明等 (微软)
  • 赵妍妍等 (哈尔滨工业大学)
  • 张岳等 (西湖大学)

加入我们

我们希望有更多的数据集作者能够参与共建千言项目,共同推动中文信息处理技术的进步,建设世界范围的中文信息处理影响力。未来3年,我们希望面向20个任务,收集100个中文自然语言处理数据集。

希望您能够与我们联系:

将您的数据集加入已有任务增加新的任务并加入您的数据集欢迎您提出更多的宝贵意见