• 11037
  • 1
  • 1

DocRED文档级关系抽取数据集

聚合数据 免费

DocRED 是一个比较新的大规模的众包数据集。其原始语料主要基于维基百科,包含了 3053 份文章,其中大约存在 7% 的实体,**DocRED** 还提供了公开的 leaderboard,用户可将模型预测的结果上传,评估文档级关系抽取的各种性能。160MB 2019

数据格式:
zip
数据价格:
0.00
¥ 0.00 (zip)
立即下载
立即下载
收藏
收藏
咨询
数据介绍 / Introduce
DocRED是一个从Wikipedia和Wikidata构建的大规模人工标注的文档级RE数据集,具有以下三个特征。(1)DocRED包含132375个实体和56354个关系事实,标注在5,053个维基百科文档上,使其成为最大的人工标注文档级RE数据集。(2)由于DocRED中至少有40.7%的关系事实只能从多个句子中抽取,因此DocRED需要阅读文档中的多个句子来识别实体,并通过综合文档的所有信息来推理其关系。这使得DocRED区别于那些句子级的RE数据集,(3)还提供了大规模的远距离有监督数据来支持弱监督的RE研究。

结论
为了促进RE系统从句子级到文档级的发展,我们提出了DocRED,这是一个大规模的文档级RE数据集,它的特点是数据量大,对多个句子的阅读和推理的要求,以及提供的远端有监督数据,以促进弱监督文档级RE的发展。实验表明,人类的表现明显高于RE基线模型,这表明未来有充足的改进机会。
数据列表 / List
×

《聚合用户服务协议》

我已仔细阅读上述协议,
并确保合法使用此数据,不得用于一切违法行为

我再想想
同意
×

购买此数据块才能下载,
是否立即购买?

我再想想 立即购买
×


是否立即开通会员?

我再想想 去开通
数 据 驱 动 未 来
Data Drives The Future
0512-88869195
数 据 驱 动 未 来
Data Drives The Future