DocRED文档级关系抽取数据集

聚合数据免费

DocRED 是一个比较新的大规模的众包数据集。其原始语料主要基于维基百科，包含了 3053 份文章，其中大约存在 7% 的实体，**DocRED** 还提供了公开的 leaderboard，用户可将模型预测的结果上传，评估文档级关系抽取的各种性能。160MB 2019

数据格式：: zip

数据价格：: ￥0.00

¥ 0.00 （zip）

立即下载

咨询

数据介绍 / Introduce

DocRED是一个从Wikipedia和Wikidata构建的大规模人工标注的文档级RE数据集,具有以下三个特征。(1)DocRED包含132375个实体和56354个关系事实，标注在5，053个维基百科文档上，使其成为最大的人工标注文档级RE数据集。(2)由于DocRED中至少有40.7%的关系事实只能从多个句子中抽取，因此DocRED需要阅读文档中的多个句子来识别实体，并通过综合文档的所有信息来推理其关系。这使得DocRED区别于那些句子级的RE数据集，(3)还提供了大规模的远距离有监督数据来支持弱监督的RE研究。

结论
为了促进RE系统从句子级到文档级的发展，我们提出了DocRED，这是一个大规模的文档级RE数据集，它的特点是数据量大，对多个句子的阅读和推理的要求，以及提供的远端有监督数据，以促进弱监督文档级RE的发展。实验表明，人类的表现明显高于RE基线模型，这表明未来有充足的改进机会。

数据列表 / List

全部
zip

发布时间	数据包名称	数据格式	数据量	数据大小	下载
2024-03-06 10:11:10	DocRED文档级关系抽取数据集	zip	--	168.22MB	下载	登录下载

发布时间	数据包名称	数据格式	数据量	数据大小	下载
2024-03-06 10:11:10	DocRED文档级关系抽取数据集	zip	--	168.22MB	下载	登录下载

《聚合用户服务协议》

我已仔细阅读上述协议，
并确保合法使用此数据，不得用于一切违法行为

我再想想

同意

购买此数据块才能下载，
是否立即购买？

我再想想立即购买

，
是否立即开通会员？

我再想想去开通

数据驱动未来

Data Drives The Future

立即注册

0512-88869195

微信扫码，咨询客服

数据驱动未来

Data Drives The Future

立即注册