【数据启元计划】征集高质量AI数据集_提供数据集下载试用_聚合数据

汽车市场分析数据集

数据集为人工合成二手车市场结构化表格数据集，共5500条仿真车辆样本，覆盖厂商、车型、动力、维保、事故、区位、二手车售价全维度指标，主动注入8%缺失值、1%价格异常样本，适配二手车价格回归预测、数据清洗预处理、汽车行业EDA教学实训。适用于二手车残值建模、缺失值 / 异常值处理实操、汽车消费市场数据分析场景。

消费

表格

0

超大规模数据中心数据集

数据集为人工合成绿色算力机房多文件仿真表格数据集，默认100000条AI超算中心遥测时序样本，内置硬件、负载、电力、冷却、碳排放全维度指标，自带多分类能效 / 故障标签、天然业务聚类与5%故障异常样本，适配绿色算力科研、预测性维护、异常检测、时序机器学习实训。适用于云基础设施运维分析、绿色AI碳减排建模、工业IoT异常识别、数据中心数字孪生教学场景。

其他

文本

时序

表格

0

HBO全球影视内容洞察数据集

数据集为人工合成文娱行业时序表格数据集，收录 240 部 HBO 仿真影视 2015-2026 年全维度指标，包含题材、评分、播放量、获奖、主创分类标签，适配文娱口碑对比、时序趋势分析、热度预测建模。适用于影视行业内容数据分析、回归 / 分类机器学习、文娱 BI 可视化教学场景。

文旅

表格

0

学生成绩与学习习惯数据集

数据集为人工合成教育类表格数据集，共1000名学生仿真样本，收录学习习惯、作息生活、家庭人口、期末成绩多维度指标，适配成绩回归、等级分类、教育数据分析教学实训。适用于校园学业影响因素分析、线性回归 / 分类机器学习、特征工程实验场景。

教育

表格

2

电动汽车选购行为与续航焦虑数据集

数据集为人工合成汽车消费表格数据集，共10000条潜在购车者仿真样本，涵盖人口、通勤、充电基建、心理主观指标，内置二分类 / 多分类目标标签，适配电动车消费预测、用户分层、数据清洗教学实训。适用于新能源汽车消费行为分析、分类机器学习、缺失值处理实验场景。

其他

表格

1

心脏病风险预测数据集

数据集为10000条合成患者记录，包含30个精心设计的医疗特征，基于统计概率分布模拟人口统计、生活习惯、实验室检测与心血管风险因素之间的真实关联，可用于机器学习分类与医疗分析，适用于心脏病风险预测、特征工程实践及医疗数据分析教学等场景。

医疗

表格

0

2026生成式AI产业生态情报数据集

数据集为合成多文件表格数据集，共75000条 AI产业仿真记录，覆盖30类主流生成式AI工具，整合用户评测文本、情感评分、行业普及、市场份额多维度指标，适配NLP情感分析、行业市场研究、用户行为建模。适用于生成式AI产业趋势分析、文本情感分类、商业BI可视化、机器学习教学实训场景。

其他

文本

表格

0

UPI统一支付接口交易数据集

数据集为人工合成印度金融支付时序表格数据集，共151668笔仿真UPI交易，自带用户时序、地理、设备、二元欺诈标签，适配时序风控欺诈建模、不均衡分类、金融数据分析教学实训。适用于线上支付时序欺诈检测、金融风控算法、时序深度学习、数据清洗实验场景。

金融

表格

0

文学改编电影数据集

数据集为Project Gutenberg（古腾堡计划）公版书籍文学节选的整理集合，包含书籍信息、章节信息、人物名称、对话、场景描述、主题元素及改编标注等结构化叙事信息，每个节选均标注五种改编策略之一（保留/压缩/合并/重排/省略），可用于文学分析、叙事理解及剧本改编研究，适用于文学叙事分析、剧本改编策略研究及数字人文教学等场景。

文旅

文本

表格

0

企业AI落地与投资回报数据集

数据集为人工合成企业经营时序表格数据集，收录8000家全球企业2015-2035年AI投入、自动化、财务收益全维度仿真记录，适配因果推断、时序预测、行业对比机器学习实验。适用于企业数字化转型经济效果分析、AI 投资回报建模、经管类时序数据分析教学场景。

其他

表格

0

全球供应链中断数据集

数据集人工合成全球供应链多文件关联时序表格数据集，6份CSV互相关联，覆盖2015-2026周度物流、贸易、地缘风险、大宗商品指标，内置各类全球扰动事件仿真记录。适用于供应链风险时序预测、国际贸易网络分析、物流异常检测、经管类数据分析教学场景。

其他

表格

0

星巴克纽约市评论数据集

数据集为纽约市两家星巴克门店（百老汇店与星巴克臻选烘焙工坊店）的顾客评论集合，包含1000余条真实评论的标题、正文、评分与发布日期，可用于情感分析与文本挖掘，适用于顾客满意度分析、情感分类模型训练及服务质量评估等场景。

消费

文本

表格

0

用户购买与商品交互数据集

数据集为合成零售关联表格数据集，包含用户、商品两张关联表，共5050笔交易样本，覆盖用户画像、订单单品、支付、评分、会员指标，适配用户分群、购物篮分析、消费预测建模。适用于零售电商用户行为分析、聚类算法实训、消费金额 / 评分回归预测教学场景。

消费

表格

4

多邻国语言学习遗忘曲线数据集

数据集为115,222名多邻国学习者在6种语言中的12,854,226次真实词汇练习记录，按遗忘曲线、单词难度及课程级别统计数据整理，可用于记忆衰减分析与间隔重复模型研究，适用于遗忘曲线建模、单词难度评估及教育数据挖掘等场景。

教育

时序

表格

0

全球财政预算分配数据集

数据集为整合世界银行公开指标并插值补全的宏观财政时序表格数据集，覆盖45国1936-2026年分行业政府预算，统一美元计价，适配跨国宏观经济、公共财政研究与时序预测建模。适用于宏观经济面板数据分析、财政政策对比、时序机器学习、经济类教学实训场景。

金融

表格

0

AI模型竞技场排名数据集

数据集为整合公开榜单清洗得到的时序表格数据集，共97377条模型评测快照，覆盖文本、视觉、代码、检索5大赛道，记录三年大模型人类偏好Elo评分与厂商、投票、排名指标，适配 AI 行业时序趋势分析、厂商对比、统计学建模。适用于大模型技术迭代研究、人机偏好评测分析、时序可视化、AI 行业数据分析教学场景。

其他

表格

0

电商用户行为与物流数据集

数据集为人工合成电商全链路表格数据集，覆盖用户画像、订单、支付、物流、售后、欺诈多维度指标，内置异常脏数据，适配预测、聚类、异常检测建模。适用于电商用户行为分析、物流优化、风控欺诈识别、数据清洗教学实训场景。

其他

文本

表格

3

零售供应链分析数据集

数据集为合成零售供应链表格数据集，共 20 万条库存业务记录，覆盖商品、库存、供应商、仓储、物流、财务、风险全链路指标，模拟真实零售运营场景，支撑需求预测与供应链优化建模。适用于零售供应链数据分析、销量时序预测、库存优化机器学习建模、商业 BI 教学实训场景。

其他

表格

4

笔记本电脑价格预测—多源合并数据集

数据集为四个真实世界数据源合并的笔记本电脑数据，数据源经清洗、标准化与合并后的主数据集，包含3918条去重记录，涵盖品牌、处理器、GPU、内存、存储、操作系统及价格等字段，适用于回归建模与探索性数据分析，适用于笔记本电脑价格预测、特征工程实践及品牌定价模式分析等场景。

消费

表格

2

现代花卉形态计量数据集

数据集为合成高维表格数据集，共 20 万花卉形态样本，含 5 个花卉分类，3 类品种特征高度重叠，专门用于测试深度学习、集成学习算法性能，全部特征已归一化。适用于高维非线性分类、机器学习算法基准测试、神经网络建模教学科研场景。

其他

表格

2

患者临床记录与再入院风险数据集

数据集为合成电子健康记录数据，模拟真实医院患者信息，包含人口统计、生命体征、实验室检测、入院详情、诊断、治疗结果、住院费用及再入院风险等字段，适用于机器学习与医疗分析，适用于患者再入院预测、临床风险评估及医疗费用预测等场景。

医疗

文本

表格

2