• 11035
  • 34
  • 1

CiteSeer数据集

聚合数据 免费

CiteSeer(又名ResearchIndex),是NEC研究院在自动引文索引(Autonomous Citation Indexing, ACI)机制的基础上建设的一个学术论文数字图书馆。这个引文索引系统提供了一种通过引文链接的检索文献的方式,目标是从多个方面促进学术文献的传播和反馈。

数据格式:
zip
数据价格:
0.00
¥ 0.00 (zip)
立即下载
立即下载
收藏
收藏
咨询
数据介绍 / Introduce
CiteSeer for Document Classification 数据集包含 3312 份科学出版物,分为六类之一。引文网络由 4732 个链接组成。数据集中的每个出版物都由一个 0/​​1 值的词向量描述,表示字典中相应词的缺失/存在。该词典由 3703 个独特的单词组成。

CiteSeer for Entity Resolution 数据集包含 1504 个机器学习文档,其中包含对 165 个作者实体的 2892 个作者引用。对于此数据集,唯一可用的属性信息是作者姓名。总是给出完整的姓氏,在某些情况下会给出作者的全名和中间名,而其他时候只给出首字母。

在整个语料库中包含3312篇论文,并分为以下六类:

Agents
AI
DB
IR
ML
HCI
论文之间互相引用,在该数据集中,每篇论文都至少引用了一篇其他论文,或者被其他论文引用,也就是样本点之间存在联系,没有任何一个样本点与其他样本点完全没联系。如果将样本点看做图中的点,则这是一个连通的图,不存在孤立点。这样形成的网络有4732条边。 在消除停词以及除去文档频率小于10的词汇,最终词汇表中有3703个词汇。每篇论文都由一个3703维的词向量表示,所以,每个样本点具有3703个特征。词向量的每个元素都对应一个词,且该元素只有0或1两个取值。取0表示该元素对应的词不在论文中,取1表示在论文中。
数据列表 / List
×

《聚合用户服务协议》

我已仔细阅读上述协议,
并确保合法使用此数据,不得用于一切违法行为

我再想想
同意
×

购买此数据块才能下载,
是否立即购买?

我再想想 立即购买
×


是否立即开通会员?

我再想想 去开通
数 据 驱 动 未 来
Data Drives The Future
0512-88869195
数 据 驱 动 未 来
Data Drives The Future