【数据启元计划】征集高质量AI数据集_提供数据集下载试用_聚合数据

精选
电子商务数据集

电子商务数据集涵盖了网络零售、农村电商、农产品、电商企业、电商直播等一站式电商数据监测、统计和分析服务数据，帮助客户及时掌握网络零售情况，把脉区域电商发展态势，支撑工作总结调度、地区排名、企业奖补、运营分析等场景，助力政府部门开展电商运行监测、发展分析研判、政策决策和公共服务，指导本地区电商产业发展。

其他

文本

27

RAG 实践数据集

RAG 实践数据集是为助力检索增强生成（RAG）系统的构建与评估而打造的多领域研究论文 PDF 数据集。数据集涵盖 AI、NLP、医疗保健、金融等多领域，以原始 PDF 格式呈现，模拟真实世界中数据摄取场景，存在检索噪声、文档长、相关性混杂等挑战。适用于 RAG 系统开发、文档检索实验、嵌入模型评估等，帮助研究人员理解 RAG 局限性并探索改进方法。

教育

文本

其他

9

F1 策略数据集

数据集基于多场比赛的单圈级别数据。把原始遥测数据转化为结构化形式，精心构建多种特征，像轮胎磨损、比赛进程等相关指标，还设有 “PitNextLap” 目标变量用于预测车手下一圈是否进站。适用于预测进站决策、赛事策略建模、轮胎磨损分析等场景，对 F1 赛事策略研究和机器学习应用极具价值，适合不同水平的用户用来学习。

文旅

文本

表格

3

医院患者记录数据集

数据集为马萨诸塞州综合医院 2011 - 2022 年约 1000 名患者的合成数据。涵盖患者人口统计、保险覆盖、医疗就诊及治疗程序等信息。可用于分析患者入院及再入院情况、平均住院时长、每次就诊平均费用，以及保险覆盖治疗程序数量等。有助于医院进行资源规划、费用管理和保险政策评估。

医疗

文本

表格

6

1927 - 2026 年全球科学论文撤稿数据集

数据集源自 Retraction Watch 数据库，经筛选、清理等处理，包含 64,267 篇撤稿科学出版物的元数据及相关链接。数据涵盖标题、期刊、撤稿原因等多字段，可用于时间序列分析、分类建模等数据科学应用。适用于研究人员分析科研诚信、出版模式等，助力提升科研质量。

教育

文本

表格

3

制造业生产线数据集

该数据集聚焦于苏打水瓶装生产线，包含生产效率与停机时间相关数据，具体涵盖每批产品的操作员、产品详情、生产起止时间以及停机因素等。可用于分析生产线当前效率，排查表现不佳的操作员，找出导致停机的主要因素，以及确定是否有操作员在特定操作失误上存在困扰。有助于企业提升生产管理水平，优化生产流程，提高生产效率。

制造

文本

表格

10

乐高套装数据集

数据集涵盖 1970 年至 2022 年发布的乐高套装信息，包含每套的主题、零件数、推荐年龄、零售价格及图片。适用于分析乐高套装发布数量趋势，探究价格与零件数的关系，挖掘各十年最热门主题，以及研究乐高小人仔与授权套装的关联。为乐高爱好者、市场研究者、行业分析人员等提供数据支持，助力了解乐高产品发展与市场偏好。

消费

文本

表格

11

BIEK 12 年级计算机试卷数据集

数据集涵盖 2015 至 2025 年，卡拉奇中等教育委员会 12 年级计算机科学试卷题目。包含选择题、简答题和长答题，聚焦试卷二理论部分。适用于备考学生系统复习，熟悉题型与考点，教师用于出题、调整教学，研究人员分析出题规律，开发人员构建教育工具，助力计算机科学教学与学习。

教育

文本

表格

2

现代艺术博物馆（MoMA）馆藏数据集

现代艺术博物馆（MoMA）馆藏数据集包含 157,630 条记录，覆盖 MoMA 收藏并录入数据库的所有作品。数据集涵盖作品标题、艺术家、创作日期、媒介、尺寸及收购日期等基本元数据，部分记录信息标注 “未经批准”。适用于分析艺术品的 “现代性”、热门艺术家、收购日期趋势及常见艺术品类型等，助力深入了解 MoMA 馆藏特点与艺术发展脉络。

文旅

文本

表格

4

全球茶与咖啡生活方式数据集

全球茶与咖啡生活方式数据集为合成数据集，模拟 200 个国家在 2015 - 2024 年的茶与咖啡消费行为。含超 15,000 条记录，具备多维度行为洞察、经济指标等关键特征，有地区偏向性。适用于机器学习、消费者行为分析等场景，数据经清理结构化，适合初、中、高级用户用于相关分析与模型开发。

消费

文本

表格

13

国际学生流动全周期追踪数据集

本数据集是一个包含约5000条记录的综合性数据集，旨在全景式追踪与分析国际学生的流动轨迹与生涯发展。数据整合了学生从来源国、目的地与大学专业等起点信息，到入学年份、奖学金、成绩等学习过程指标，并延伸至毕业就业状态、起薪及签证转换等关键结果。通过覆盖留学决策、学业表现到职业开端的完整链条，本数据集为探究全球人才流动规律、评估教育政策成效以及理解个人背景与发展结果间的复杂关联提供了宝贵的实证研究基础。

教育

图像

表格

282

电子商务智能手表市场数据集

本数据集收录了至2026年451款智能手表产品详情。内容涵盖价格、品牌、功能配置、用户评分及评论数量等关键维度，系统呈现市场定价策略、品牌竞争格局与产品特性分布。数据包含屏幕类型、健康监测功能、续航时间、防水等级等具体参数，并记录实时折扣信息与历史价格波动。适用于价格预测模型构建、市场趋势分析、竞品对标研究及消费者偏好洞察，为区域市场战略制定、产品定位分析与学术实证研究提供高质量的结构化数据支持。

制造

文本

表格

150

玩具店电子商务数据库

玩具店电子商务数据库专为销售泰迪熊的在线零售商打造。数据涵盖用户网站会话、页面浏览量、订单及退货等详细营销信息。可用于分析优化营销渠道、评估网站转化性能、了解新品推出影响。通过分析网站会话与订单量趋势、转化率、成功营销渠道及收入变化等，助力电商运营决策。

消费

文本

表格

82

情感感知音乐情感数据集

数据集聚焦音乐情感分类与情感感知推荐系统研究。它涵盖音乐属性结构化数据、上下文及用户相关信息，为每条音乐实例标记七种情感类别之一。数据集含曲目 ID、节奏、能量等多维度数据，可用于情感分类、识别及个性化推荐，助力挖掘音乐情感与用户行为的关联。

教育

文本

表格

41

2026 年全球电动汽车与电池供应链数据集

数据集整合 6 个权威数据源，涵盖 44 国 1995 - 2025 年的相关数据，含 67,900 多个充电站与 32 家超级工厂信息。该数据集填补行业空白，为能源转型等领域提供支持。可用于电池需求预测、供应链风险分析等多方面，适用于研究人员、数据科学家等专业人士开展相关研究与分析工作。

其他

文本

表格

49

国家太阳能辐射数据库（NSRDB）

国家太阳能辐射数据库（NSRDB）提供用于太阳能与可再生能源研究的高分辨率数据。数据集含大气条件、太阳辐射指标等时间序列测量数据，按年、月、日及时间间隔结构化。可用于太阳能资源评估、光伏系统性能建模等，也支持统计分析等数据科学任务，助力研究人员等开展相关研究与模型构建。

能源

文本

表格

57

合成 AIMO 推理：正确与有缺陷的对比

该数据集聚焦于合成数学问题，旨在提升大语言模型在数论和几何领域的推理能力。它精心收集内容，同时涵盖正确与有缺陷的推理过程，共 2000 对。主要应用于基于人类反馈的强化学习及直接偏好优化训练，也可作为评估奖励模型与数学验证器的基准，助力构建更可靠的人工智能数学推理系统。

教育

文本

表格

23

2026 年生育健康数据集

数据集专为科研与教育领域设计，聚焦于夫妻生育健康相关信息。数据集全面涵盖了夫妻双方的健康状况、生活方式特点以及医疗干预等多维度指标，像年龄、BMI、精子质量等关键因素均有涉及，并已进行完全匿名化处理。其核心用途是借助机器学习手段预测妊娠结局，在医疗保健研究、探索性数据分析、教育教学等方面也具有重要应用价值，有力推动对生育影响因素的深入剖析以及预测模型的构建。

教育

文本

表格

24

全球人工智能应用与劳动力影响数据集

数据集聚焦企业人工智能应用，为研究人员、分析师及政策制定者提供重要数据支撑。它以结构化形式呈现各行业、各国公司的人工智能应用状况，及其对生产力、劳动力和运营成果的影响。数据集适用于人工智能应用研究、商业分析等领域，助力洞察人工智能在企业中的作用，为相关决策提供依据。

人力资源

文本

表格

63

癫痫数据集

癫痫数据集专注于基于脑电图（EEG）信号特征，运用机器学习方法实现对癫痫的精确检测与分析。该数据集由训练数据集与测试数据集构成，前者用于机器学习模型的训练，后者则用以评估模型性能。主要应用于医学科研及临床诊断领域，助力开发高准确性的癫痫检测模型，辅助医生提升癫痫诊断效率与精准度，为癫痫患者的及时治疗与干预提供关键支持。

医疗

文本

表格

47

隐私感知智能电网运行数据集

隐私感知智能电网运行数据集（PASGOD）收集自分布式电力系统实时运行节点，含电压、频率等电气参数，及温度、湿度等环境因素数据。涵盖正常与异常运行场景，反映智能电网多区域多节点的运行情况。适用于电力领域研究电网可靠性、稳定性，辅助制定电网运行策略，提升电力系统运行效率。

其他

文本

表格

93

精选 电子商务数据集

RAG 实践数据集

F1 策略数据集

医院患者记录数据集

1927 - 2026 年全球科学论文撤稿数据集

制造业生产线数据集

乐高套装数据集

BIEK 12 年级计算机试卷数据集

现代艺术博物馆（MoMA）馆藏数据集

全球茶与咖啡生活方式数据集

国际学生流动全周期追踪数据集

电子商务智能手表市场数据集

玩具店电子商务数据库

情感感知音乐情感数据集

2026 年全球电动汽车与电池供应链数据集

国家太阳能辐射数据库（NSRDB）

合成 AIMO 推理：正确与有缺陷的对比

2026 年生育健康数据集

全球人工智能应用与劳动力影响数据集

癫痫数据集

隐私感知智能电网运行数据集

精选 电子商务数据集

RAG 实践数据集

F1 策略数据集

医院患者记录数据集

1927 - 2026 年全球科学论文撤稿数据集

制造业生产线数据集

乐高套装数据集

BIEK 12 年级计算机试卷数据集

现代艺术博物馆（MoMA）馆藏数据集

全球茶与咖啡生活方式数据集

国际学生流动全周期追踪数据集

电子商务智能手表市场数据集

玩具店电子商务数据库

情感感知音乐情感数据集

2026 年全球电动汽车与电池供应链数据集

国家太阳能辐射数据库（NSRDB）

合成 AIMO 推理：正确与有缺陷的对比

2026 年生育健康数据集

全球人工智能应用与劳动力影响数据集

癫痫数据集

隐私感知智能电网运行数据集

精选
电子商务数据集

精选
电子商务数据集