【数据启元计划】征集高质量AI数据集_提供数据集下载试用_聚合数据

智慧城市交通流量预测数据集

数据集为人工合成城市时空交通多文件表格数据集，配套5份CSV业务表+2份JSON配置文件，覆盖路网、路口传感器、车流量、拥堵、气象、信号灯、事故全维度时空指标，自带时序、地理空间属性，适配交通流量时序预测、拥堵等级多分类、自动驾驶仿真、智慧城市BI可视化教学实训。适用于智能交通IoT分析、时空机器学习、城市路网规划场景。

交通

时序

表格

地理空间

0

全球城市空气质量与污染时序数据集

数据集基于全球城市环境监测站公开数据整合的气象环保时序表格数据集，超40万小时监测样本，覆盖50座全球超大城市，包含PM2.5、氮氧化物、一氧化碳、臭氧、AQI污染等级、紫外线、重度污染事件二元标签，完整 365 天连续小时时序，适配空气质量时序预测、污染事件二分类、地理空间可视化、气候环境科研教学实训。适用于大气污染时序建模、城市环境治理分析、地理空间 BI 可视化场景。

能源

时序

表格

地理空间

0

车载传感器数据集

数据集为车辆车载遥测结构化时序表格数据集，收录车辆传感器运行时序读数，共16项传感指标，覆盖整车性能、健康故障、续航相关时序变量，适配汽车故障预测、电动车续航回归、时序IoT分析、预测性维护机器学习实训。适用于智能网联汽车运维、车载传感时序建模、汽车故障诊断场景。

交通

时序

表格

0

全球AI劳动力与技能缺口追踪数据集

数据集基于权威行业报告仿真的双文件跨国面板时序表格数据集，2015–2026年覆盖39国年度样本，包含AI岗位人才规模、技能需求指数、薪酬溢价、性别差距、宏观经济全维度指标，适配跨国AI人才供给缺口分析、薪资时序预测、面板回归、国家聚类教学实训。适用于数字人才劳动力市场研究、AI产业宏观时序机器学习、人力资源BI可视化场景。

人力资源

时序

表格

0

印度全球移民数据集

数据集基于多国官方公开移民报告整理的人口时序表格数据集，覆盖2000–2026年七大国家印度移民年度统计，包含劳务/留学/技术/家庭团聚多分类移民指标、侨汇、移民率连续数值时序字段，适配跨国人口流动时序预测、劳务留学趋势分析、经济政策学术科研实训。适用于人口迁徙时序建模、国际劳务市场分析、宏观经济移民相关研究场景。

社会治理

时序

表格

0

2026社交媒体AI趋势情感分析数据集

数据集为人工合成社交文本结构化表格数据集，共2200条AI行业相关仿真帖文样本，覆盖发布平台、用户属性、文本内容、互动数据、情感/情绪/恶意/讽刺/垃圾多分类标签、互动量回归指标，自带大量@提及字段缺失值，适配NLP文本情感分类、互动热度回归、社交内容数据清洗教学实训。适用于社交媒体舆情分析、自然语言处理、多分类机器学习、文本可视化场景。

其他

表格

2

虚假新闻检测数据集（6000篇新闻文章）

数据集为6000篇标注英文新闻文章，包含标题、完整正文、新闻类别、发布日期及二分类标签，正负样本均衡，涵盖政治、世界新闻等多类主题，可用于虚假新闻检测模型开发与文本分类研究，适用于自然语言处理、文本分类及虚假信息检测等场景。

其他

文本

表格

0

早期发育迟缓风险数据集

数据集为五岁以下儿童早期发育迟缓风险因素的合成数据，建模社会经济、营养、父母及环境等多维度决定因素，包含连续风险评分与分类风险等级双目标变量，适用于发育迟缓风险预测与特征重要性分析，适用于儿童健康风险预测、公共卫生数据分析及医疗机器学习教学等场景。

医疗

表格

0

电子游戏销量与媒体评分洞察数据集

数据集为人工合成游戏行业多文件时序表格数据集，共50000条游戏仿真样本，配套题材/平台/发行商/年度趋势四份聚合统计表，覆盖分区域销量、媒体/玩家评分、ESRB分级、商业化指标全维度字段，适配游戏市场时序趋势分析、销量回归预测、品类分群、行业BI可视化教学实训。适用于文娱游戏行业数据分析、时序机器学习、市场聚合统计可视化场景。

文旅

时序

表格

1

全球火山喷发数据集：全新世记录

数据集为史密森尼学会全球火山活动计划官方发布的11,089条全新世火山喷发记录，涵盖全球1196座火山，包含喷发事件、地理位置与地质特征等元数据，可用于火山活动时空规律分析与灾害风险评估，适用于火山喷发时空分布分析、喷发频率趋势研究及地质数据科学教学等场景。

其他

时序

表格

地理空间

0

胆管癌临床数据集

数据集为40,000条结构化临床记录，包含50个临床属性，涵盖人口统计、生活方式、家族史、临床症状、肝功能指标、肿瘤标志物及影像学发现等维度，目标变量分为健康、低风险、早期、中期、晚期五类，适用于胆管癌早期预测与多分类研究，适用于疾病风险预测、特征工程及医疗机器学习算法基准测试等场景。

医疗

表格

1

银行营销与客户行为数据集

数据集基于UCI公开银行营销数据的金融结构化表格数据集，共45211条葡萄牙银行电话营销客户样本，覆盖客户人口属性、信贷负债、通话营销记录、历史营销成果、是否认购定期存款二元标签，样本无缺失值，自带正负样本不平衡特性，适用于银行客户转化二分类建模、金融客户分层、不平衡样本处理教学实训。适用于金融零售营销风控、客户转化预测、EDA数据分析场景。

金融

表格

0

2026学生就业与职业发展数据集

数据集为人工合成高校工科学生求职截面表格数据集，共25000条仿真学生样本，覆盖学业成绩、编程刷题、项目实习、心理压力、AI技能、校招薪资、是否成功就业全维度指标，自带缺失值、业务噪声脏数据，适配就业预测、薪资回归、学生倦怠风控、校园BI可视化教学实训。适用于高校就业数据分析、分类 / 回归机器学习、学生心理行为特征工程场景。

教育

表格

0

亲代遗传与子代性状预测数据集

数据集为人工合成遗传健康类表格数据集，共7000组家庭仿真样本，覆盖父母体征、血型/肤色/瞳色/发色遗传、家族病史、子代身高、健康风险全维度指标，严格遵循孟德尔遗传定律，适配遗传规律分析、健康风险多分类、子代身高回归预测教学实训。适用于生物遗传科普、健康风险机器学习、特征聚类与可视化场景。

医疗

表格

0

增强型乳腺癌诊断数据集

数据集基于公开医疗数据二次加工的医疗二分类表格数据集，共5500条乳腺病灶仿真扩充样本，包含原始医学检测指标、7项临床导向衍生特征、良恶性二元诊断标签，适配乳腺肿瘤良恶性预测、特征工程、可解释AI医学科研教学实训。适用于医疗影像病理数据分析、二分类机器学习、临床风险指标挖掘场景。

医疗

表格

0

多维度货运物流定制数据集

数据集基于美国真实货运线路原始数据加工增强的多文件物流时序表格数据集，包含原始运价表、标准化增强全量表、地理邮编参照表、特征工程脚本等15份配套文件，236个全维度字段，覆盖线路地理、日历时序、燃油运价、运营预估、气象关联索引，内置多类回归/分类建模目标，适配货运运价时序预测、物流成本分析、时序机器学习、特征工程教学实训。适用于公路货运定价建模、供应链物流数据分析、时序梯度提升算法。

其他

文本

时序

表格

0

胎儿健康与胎心宫缩图分类数据集

数据集为2126条胎心宫缩图检查记录，包含35个数值型诊断特征（如胎心率基线、每秒加速次数等），目标变量为产科专家共识分类标签，可用于构建胎儿健康状态预测模型，适用于胎儿健康状态多分类预测、医学特征重要性分析及医疗机器学习教学等场景。

医疗

表格

0

游戏成瘾与心理健康分析数据集

数据集为250名不同国家、职业与游戏背景玩家的行为数据，包含人口统计、游戏活动、消费行为、情绪指标、生活习惯及心理风险等维度，用于探索游戏行为对心理健康与日常生活的影响，适用于游戏成瘾分析、心理健康研究及数据科学教学等场景。

医疗

表格

0

2026电商订单数据集

数据集为人工合成线上零售多文件表格数据集，共30000条仿真电商订单，配套字段字典、Python分析脚本，覆盖用户、商品、支付、物流、营收、退货、高价值订单多维度标签，适配用户分群、销量预测、退货风控、商业BI可视化实训。适用于电商全链路经营分析、分类 / 回归机器学习、SQL关联查询教学场景。

消费

文本

表格

4

燃油向电动转型数据集

数据集为人工合成全球电动出行消费时序截面表格数据集，共50000条仿真用户样本，整合人口、通勤、充电基建、环保认知、财务、购车标签全维度指标，适配电动车普及预测、用户聚类、回归建模实训。适用于新能源汽车市场分析、用户购车意愿分类、可解释AI与特征工程教学场景。

其他

表格

0

热浪气象数据集

数据集基于ERA5公开气象数据整理的真实逐日气候时序表格数据集，共21960条印度拉贾斯坦邦高温区县2006-2025年3–6月气象记录，包含多维度气象指标、地理坐标、二元热浪分类标签，适配极端天气预测、气候时序分析、灾害风险建模。适用于气象热浪识别预测、极端气候科研、时序机器学习、地理环境数据分析教学场景。

能源

时序

表格

地理空间

3