Instacart Market Basket Analysis数据集是一组描述客户订单随时间变化的关系文件。可以用来预测用户下一次订购的产品。该数据集是匿名的,包含来自20多万Instacart用户的300多万份杂货订单样本。对于每个用户,提供了4到100个订单,以及每个订单中购买的产品序列。数据集还提供下订单的星期和时间,以及订单之间的相对时间度量。
免费
带有注释的结核病图像数据集。 它是从痰样本中提取的。它包含 928 个痰图像,边界框为 3734 个杆菌
免费
Prostate MR Image Segmentation 2012,这是一个公开的数据挑战数据集。主要是用于医学中图像分割
免费
NBA球员数据分析
免费
泰坦尼克数据集是非常适合数据科学和机器学习新手入门练习的数据集。 数据集为1912年泰坦尼克号沉船事件中一些船员的个人信息以及存活状况。这些历史数据已经分为训练集和测试集,你可以根据训练集训练出合适的模型并预测测试集中的存活状况。 另外,添加了测试集的ground_truth,方便大家与自己预测结果进行对比,从而对自己的工作有个客观的评价。
免费
数据集包括发生火灾的不同紧急情况,例如建筑物着火,工业火灾,车祸和骚乱(./dataset/img)。其余图像包括没有可见火势的紧急情况,以及具有类似火的区域(例如日落)和红色或黄色物体的图像
免费
Fire-Segmentation数据集包括发生火灾的不同紧急情况,例如建筑物着火,工业火灾,车祸和骚乱(./JPEGImages/)。 数据集包括火焰区域的分割,着火区域标记为白色,而非着火区域标记为黑色(./Annotations)。可以用于火焰检测和分割任务。
免费
NLP机器翻译数据集,中文-->俄文
免费
MIcrosoft 新闻数据集(MIND)是用于新闻推荐研究的大规模数据集
免费
来自 DeepGlobe挑战赛的道路提取数据集
免费
包括生活中常见宠物狗11种,适合用来作图像分类
免费
这个匿名数据集是从 Tagged.com 社交网络网站收集。
免费
CS 数据集由 1,693,531 名计算机科学家和 3,194,405 篇论文组成,来自 3,883 个计算机科学场所——包括会议和期刊——截至 2016 年。我们构建了一个异构协作网络,其中有是三种类型的节点:作者、论文和地点。
免费
语音识别数据集,一个公共领域的语音数据集,由13,100个简短的音频片段组成。
免费
CCPD2019车牌全量数据(不包括新能源车牌)。CCPD图像比以前更具挑战性,有超过300k的图像和精细的注释。
免费
一个简单的音频/语音数据集,由 8kHz 文件中的语音数字记录组成。
免费
数据集由AI for Humany与HPWREN合作发布,用于探测到森林火灾中烟雾的最初迹象,并在火势加大前发现并扑灭。
免费
DocRED 是一个比较新的大规模的众包数据集。其原始语料主要基于维基百科,包含了 3053 份文章,其中大约存在 7% 的实体,**DocRED** 还提供了公开的 leaderboard,用户可将模型预测的结果上传,评估文档级关系抽取的各种性能。160MB 2019
免费
该数据集是代码注释自动生成任务的相关数据集,含有448512条Java程序片段以及相应的注释。
免费
CiteSeer(又名ResearchIndex),是NEC研究院在自动引文索引(Autonomous Citation Indexing, ACI)机制的基础上建设的一个学术论文数字图书馆。这个引文索引系统提供了一种通过引文链接的检索文献的方式,目标是从多个方面促进学术文献的传播和反馈。
免费
Cora 数据集包含 2708 份科学出版物,分为七类之一。引文网络由 5429 个链接组成。数据集中的每个出版物都由一个 0/1 值的词向量描述,表示字典中相应词的缺失/存在。该词典包含 1433 个独特的单词
免费
Instacart Market Basket Analysis数据集是一组描述客户订单随时间变化的关系文件。可以用来预测用户下一次订购的产品。该数据集是匿名的,包含来自20多万Instacart用户的300多万份杂货订单样本。对于每个用户,提供了4到100个订单,以及每个订单中购买的产品序列。数据集还提供下订单的星期和时间,以及订单之间的相对时间度量。
免费
带有注释的结核病图像数据集。 它是从痰样本中提取的。它包含 928 个痰图像,边界框为 3734 个杆菌
免费
Prostate MR Image Segmentation 2012,这是一个公开的数据挑战数据集。主要是用于医学中图像分割
免费
NBA球员数据分析
免费
泰坦尼克数据集是非常适合数据科学和机器学习新手入门练习的数据集。 数据集为1912年泰坦尼克号沉船事件中一些船员的个人信息以及存活状况。这些历史数据已经分为训练集和测试集,你可以根据训练集训练出合适的模型并预测测试集中的存活状况。 另外,添加了测试集的ground_truth,方便大家与自己预测结果进行对比,从而对自己的工作有个客观的评价。
免费
数据集包括发生火灾的不同紧急情况,例如建筑物着火,工业火灾,车祸和骚乱(./dataset/img)。其余图像包括没有可见火势的紧急情况,以及具有类似火的区域(例如日落)和红色或黄色物体的图像
免费
Fire-Segmentation数据集包括发生火灾的不同紧急情况,例如建筑物着火,工业火灾,车祸和骚乱(./JPEGImages/)。 数据集包括火焰区域的分割,着火区域标记为白色,而非着火区域标记为黑色(./Annotations)。可以用于火焰检测和分割任务。
免费
NLP机器翻译数据集,中文-->俄文
免费
MIcrosoft 新闻数据集(MIND)是用于新闻推荐研究的大规模数据集
免费
来自 DeepGlobe挑战赛的道路提取数据集
免费
包括生活中常见宠物狗11种,适合用来作图像分类
免费
这个匿名数据集是从 Tagged.com 社交网络网站收集。
免费
CS 数据集由 1,693,531 名计算机科学家和 3,194,405 篇论文组成,来自 3,883 个计算机科学场所——包括会议和期刊——截至 2016 年。我们构建了一个异构协作网络,其中有是三种类型的节点:作者、论文和地点。
免费
语音识别数据集,一个公共领域的语音数据集,由13,100个简短的音频片段组成。
免费
CCPD2019车牌全量数据(不包括新能源车牌)。CCPD图像比以前更具挑战性,有超过300k的图像和精细的注释。
免费
一个简单的音频/语音数据集,由 8kHz 文件中的语音数字记录组成。
免费
数据集由AI for Humany与HPWREN合作发布,用于探测到森林火灾中烟雾的最初迹象,并在火势加大前发现并扑灭。
免费
DocRED 是一个比较新的大规模的众包数据集。其原始语料主要基于维基百科,包含了 3053 份文章,其中大约存在 7% 的实体,**DocRED** 还提供了公开的 leaderboard,用户可将模型预测的结果上传,评估文档级关系抽取的各种性能。160MB 2019
免费
该数据集是代码注释自动生成任务的相关数据集,含有448512条Java程序片段以及相应的注释。
免费
CiteSeer(又名ResearchIndex),是NEC研究院在自动引文索引(Autonomous Citation Indexing, ACI)机制的基础上建设的一个学术论文数字图书馆。这个引文索引系统提供了一种通过引文链接的检索文献的方式,目标是从多个方面促进学术文献的传播和反馈。
免费
Cora 数据集包含 2708 份科学出版物,分为七类之一。引文网络由 5429 个链接组成。数据集中的每个出版物都由一个 0/1 值的词向量描述,表示字典中相应词的缺失/存在。该词典包含 1433 个独特的单词
免费