【数据启元计划】征集高质量AI数据集_提供数据集下载试用_聚合数据

银行交易欺诈检测数据集

数据集为覆盖10国的100万条合成金融交易数据，贴合真实欺诈场景特征，可支撑金融风控模型训练，精准识别欺诈交易；适用于不平衡数据集技术验证、特征重要性分析，也能辅助金融机构优化风控策略、开发智能反欺诈产品，助力提升金融交易风险管控效率。

金融

表格

12

Cinatomy（电影剖析）：电影体验关键维度评分数据集

数据集含1000部电影的25+体验维度评分，替代传统单一电影评分，聚焦观众实际关注的节奏、情感等体验。适用于“氛围匹配”式电影推荐开发，可分析体验维度对观影愉悦度的影响，也适配大语言模型主观评分研究，还支持按多条件组合筛选影片。

消费

表格

6

二手手机价格预测数据集

数据集含 100 万条二手手机信息，覆盖设备、使用、成色、市场等多维度特征，可支撑二手手机价格影响因素分析与精准定价。适用于回归模型训练、市场趋势研究，以及电商平台智能定价工具开发、机器学习教学中的模型基准测试等场景。

消费

表格

4

2025年各职业AI岗位替代风险数据集

数据集覆盖 2025年 10000 名从业者、50种职业及30个国家的信息，含自动化潜力、创造力评分等多维度特征，标注职业AI替代风险等级。可支撑不同职业的AI影响差异分析，适用于职业规划决策、多分类模型训练，以及AI就业影响的学术与教学场景。

人力资源

表格

3

信用卡欺诈检测数据集

数据集含50万条信用卡交易记录与 25 个风控特征，还原真实金融场景的交易行为与欺诈模式，可解决不均衡数据下的欺诈识别、风险分析等问题。适用于金融风控模型训练、分类算法实践，以及可解释AI（SHAP）分析、金融风险看板开发等场景。

金融

表格

9

2010-2026年全球半导体行业数据集

数据集覆盖2010-2026年全球半导体行业全链路信息，含企业财务、晶圆产能、芯片价格、中美芯片战争政策等维度，可支撑行业周期研判、企业战略评估，解决政策影响量化、市场趋势预测等问题。适用于半导体分析师的行业研究、企业的产能规划决策，以及AI芯片市场预测模型的训练开发。

制造

表格

2

2010-2026年全球航空业数据集

数据集覆盖2010-2026年全球航空业17年数据，含航司财务、飞机订单、客运流量等多维度信息，可支撑行业趋势分析、航司战略评估，解决疫情 / 危机对航空业的影响量化、制造商竞争格局研判等问题。适用于航空分析师的行业研究、航司的航线优化决策，以及航空AI预测模型的训练开发。

交通

表格

6

女性妆容检测数据集

数据集含5000张配对JPG面部图像（2500名女性），覆盖多样设备、光照下的带妆 / 无妆图像，标注ID、性别等元数据。它可支撑模型学习妆容对面部特征的影响，解决妆容变化下的识别误差、虚拟美妆效果失真等问题。适用于美妆科技的虚拟试妆开发、面部识别算法的精度优化，以及化妆品行业的产品推荐系统搭建。

其他

图像

3

合成土耳其护照数据集

数据集含5000张AI生成的土耳其护照高质量图像，搭配多维度元数据标注，覆盖多样场景变量。其可助力优化身份信息提取、文档真伪核验的模型性能，规避真实数据隐私风险。适用于边境管控的身份识别系统训练、金融服务的自动化ID核验防欺诈，以及AI研究中的OCR算法开发与软件测试的文档处理场景。

其他

图像

5

合成德国护照数据集

数据集含5000张 AI 生成的德国护照JPG图像，覆盖3种角度、4种光照等多场景组合，每组96文件并配套护照ID、性别等元数据。它规避真实数据隐私风险，丰富样本多样性，适用于边境护照筛查系统训练、数字身份验证模型优化、金融KYC流程的身份核验，助力提升相关任务的准确性与安全性。

其他

图像

2

医疗领域检索增强生成(RAG)数据集

数据集覆盖31种常见病的409个知识块，含疾病、症状、治疗等关联信息，附带来源与证据标注。它破解医疗AI知识检索中内容零散、可信度不足的问题，适用于医疗聊天机器人的RAG管道、临床决策支持系统的知识支撑、医疗搜索引擎的FAQ检索等场景，助力提升医疗AI应用的专业度与实用性。

医疗

表格

2

全球硅芯片基准数据集

数据集覆盖超 10 万条芯片全维度信息，为半导体领域提供贴合产业实际的基准数据，可破解芯片相关分析中样本不足、维度单一的问题，适用于半导体产业趋势研判、芯片性能预测模型训练、成本 - 性能适配分析等场景，助力提升产业决策、技术研发与教学实践的效率。

制造

表格

2

药品详细信息数据集

数据集涵盖11,825种药品的名称、成分、用途等多维度信息，为医药领域提供结构化的药品全链路数据，可解决药品信息分散、分析效率低等问题，适用于医疗健康辅助决策、医药研发数据支撑，以及药物推荐系统、医疗NLP项目、AI健康助手等场景的模型训练与应用开发，助力提升医药领域的智能化与信息化水平。

医疗

表格

23

早起、锻炼与健康结果数据集

数据集收录不同个体的日常习惯数据（含早起时间、锻炼时长、睡眠质量等）与对应健康指标（含健康分类、健康得分、疾病风险等级），可用于分析生活习惯与健康状态的关联，也能支撑健康结果预测、生活方式聚类等任务。适用于健康研究人员、数据分析师及机器学习开发者，助力健康评估模型构建、个性化健康建议生成等场景。

医疗

表格

5

面部关键点检测数据集

数据集包含15个面部关键点的像素级坐标（存储于CSV文件）及对应图像，通过索引实现标注与图像的关联，可解决面部特征因个体差异、姿态 / 光照等因素导致的识别难题，直接支撑相关模型的训练与技术优化，适用于面部关键点检测模型开发、表情识别、人脸对齐、虚拟美妆试妆等场景的技术落地。

其他

图像

表格

2

全球数据中心与人工智能水 / 电使用量数据集

数据集聚焦2019-2025年全球数据中心的资源消耗情况，整合18110个真实数据中心的位置信息，结合行业模型生成水、电使用等运营指标，共包含12.6万余条记录、14项特征，为数据中心可持续性研究提供多维度、时序化的模拟数据，适用于时序预测、地理空间分析、可持续性研究及机器学习项目等场景。

能源

表格

4

全球环境传感器智能数据集

数据集依托物理启发的环境关系，生成超430万条合成观测数据，覆盖50个城市的天气、空气质量等多维度信息，为环境研究提供高分辨率、多地域的模拟数据，可支撑AQI预测、污染分析等场景的数据需求，适用于AQI预测、气候研究、智慧城市规划及机器学习教学等领域。

社会治理

时序

表格

地理空间

4

女性脱发数据集

数据集包含 552 张女性脱发相关的高分辨率头皮图像，覆盖276位女性受试者，每位提供顶部、正面2个视角的图像，标注信息关联Ludwig 脱发分级（3 类），同时配套年龄、性别、种族等元数据。图像格式为PNG、JPEG，标注文件以TXT格式呈现，可支撑脱发检测、头皮健康研究等模型训练，适配医疗诊断、美妆研发等多类应用场景。

医疗

图像

3

韩语语音识别数据集

数据集包含超10小时韩语电话对话音频，由20多位韩语母语者录制，以M4A、MP3格式呈现，配套ID、语言、格式、时长等结构化标注，录制环境为低背景噪音的室内场景。数据集聚焦真实电话沟通场景，语音内容贴合日常服务、商务对话的口语特征，可直接支撑语音识别、自然语言处理等模型训练，适配通信服务、AI助手等多类实际应用场景。

其他

音频

2

男性脱发数据集

数据集包含 2260 张高分辨率头皮图像，覆盖452位男性受试者，每位提供正面、顶部、背部、左侧、右侧共5个视角的图像，标注信息关联Norwood-Hamilton 脱发分级（7 类）及毛囊细节注释，同时配套性别、年龄、种族等元数据。图像以PNG、JPEG格式存储，标注文件采用TXT格式封装，可全方位支撑脱发检测、头皮健康分析等模型训练，s适用于医疗诊断、美妆研发等多类实际应用场景。

医疗

图像

4

俄语语音识别数据集

数据集包含 10 小时以上的俄语电话对话音频，来源为 20 位以上俄语母语者，通过 Android 智能手机、iPhone 在低背景噪音的室内环境录制，音频格式涵盖 WAV、M4A、MP3，标注信息包括 ID、语言、格式、时长（分钟）。数据集聚焦真实场景的俄语口语对话，专门用于训练语音识别、自然语言处理类模型，适用于呼叫中心、多语言应用、AI 研究等多个领域。

其他

音频

2