【数据启元计划】征集高质量AI数据集_提供数据集下载试用_聚合数据

真假人类语音-深度伪造音频数据集

数据集包含 5000 个音频文件，涵盖真实人类录音与 AI 生成的语音样本，涉及 4 位说话者，支持 M4A、MP3 格式。主要用于深度伪造检测、生成语音分析、真假语音识别等任务，适用于网络安全、语音认证、媒体诚信等场景的模型开发与技术研究。

社会治理

音频

手势识别数据集

数据集包含超10000条MP4格式视频样本，涵盖“一”、“四”、“小”、“握拳“、“我”5种手部手势，由 UniData 团队通过众包服务采集，附带 ID、性别等元数据标注。该数据集专为手势识别类模型训练打造，适用于人机交互控制、医疗康复监测、AI 模型开发以及游戏娱乐交互等场景。

医疗

视频

语音情感识别数据集

数据集内含超30000条音频记录，覆盖狂喜、愉悦、悲伤、惊讶这四类常见情感。音频采用WAV、mpeg、amr格式，借助众包平台收集而来，并标注有文本内容、性别、年龄及国家等信息。该数据集专为训练情感与语音识别系统打造，适用于机器学习模型训练、人机交互优化、客户服务情感分析以及语音情感学术研究等场景。

教育

音频

脑部核磁共振成像数据集

数据集包含超 200 万份人类脑部 MRI 扫描图像及放射科医生报告，每次扫描约 30 个切片，层厚 1mm、层间距≤5mm 。覆盖 50 + 种病理，数据为 DiCOM 格式并搭配多维度标注。适用于脑部疾病诊断、医学研究及 AI 模型训练等场景。

医疗

文本

图像

生物识别指纹伪造数据集

数据集含 5000 + 高质量指纹图像，覆盖真实指纹及打印、重放等多种伪造攻击类型。专为指纹伪造与活体检测设计，提供不同设备、手指的标注数据，适用于训练评估生物识别安全及指纹识别系统，满足金融、移动设备等领域的反欺诈需求。

金融

图像

含20种艺术风格的插画数据集

数据集包含 30000 张插画，分属 20 种艺术风格，如 3D、卡通等。以 PNG、JPG、JPEG 格式存储，分辨率至少 1024×1024 像素，均由专业插画师创作。数据集标注了风格、颜色等元数据，每组 10000 个文件。适用于图像分类、风格迁移等任务，为创意机器学习应用提供丰富训练数据。

其他

图像

面部关键点检测数据集

数据集拥有超 5000 张带注释图像。图像涵盖不同年龄、场景个体的面部表情，标注 15 个地标点及 ID、性别元数据。以 jpg 格式存储图像，json 格式保存标注文件。适用于训练情感识别、表情分析和面部识别模型，为计算机视觉在面部分析领域的应用提供有力支持。

其他

图像

多材质指纹伪造数据集

数据集是一款聚焦指纹生物识别安全的专业数据集，包含来自 100 名个体的 4000 余张指纹图像，通过 ZKTeco ZK9500 光学扫描仪采集，同时涵盖真实指纹与藻酸盐、橡皮泥、硅胶三类伪造材料制作的攻击样本。数据集附带性别、年龄、手指、手部、设备等元数据标注，适用于生物识别安全研究、伪造攻击检测、指纹识别模型训练等任务，为防范指纹伪造攻击的技术开发提供贴合实际场景的样本支持。

医疗

图像

植被退化与恢复数据集

数据集含 6000 条植被监测记录，覆盖健康、不同退化程度及恢复状态的植被区域，涵盖光谱、植被、土壤等多维度指标，标注退化等级与恢复效果。适用于生态健康评估、植被退化映射、恢复效果评价等研究，为生态保护与土地管理提供数据支撑。

农业

表格

地理空间

人类虹膜图像生物识别数据集

数据集是一款聚焦虹膜生物特征的高质量数据集，包含来自 5000 余名个体的 5000 多张 JPG 图像，涵盖同一人的左、右眼虹膜图像。其图像采集于可见光环境下，并附带元数据标注，可直接服务于虹膜识别、生物特征分析等计算机视觉与安全验证任务，为相关模型训练提供贴合实际场景的样本支持。

医疗

图像

14

武器检测数据集

数据集包含 10,000 张标注图像，这些图像采集自公共 CCTV 录像及互联网资源，图像内容为佯装持有可见武器的人物。数据集具备边界框标注与丰富元数据，适用于公共安全领域中武器检测模型训练、小目标检测算法优化，以及实时安全监控系统开发，助力提升安防能力与效率。

社会治理

图像

儿童反欺诈数据集

数据集包含 6000 张 7 - 15 岁儿童高质量面部图像，涉及 300 人。以 JPG 格式存储，通过众包平台收集，每组 300 个文件，标注有 ID、性别、年龄、种族等元数据。适用于人脸反欺诈、活体检测等任务，助力生物识别系统研究，提高面部识别准确率，为保护儿童在数字与身份识别环境中的安全提供数据支持。

政务服务

图像

反欺诈真实视频数据集

数据集包含 87340 个文件，由 43670 人的真实视频及对应人脸图像构成，涉及 179 个国家。数据具有多样分辨率、人口统计特征及元数据，每组含 1 张图像和 1 个视频。标注涵盖年龄、性别、种族等信息。适用于人脸反欺诈、活体检测等研究，助力开发防展示攻击的生物特征认证系统，保障金融等领域安全。

其他

图像

视频

合成墨西哥护照数据集

数据集含 5000 张 AI 生成图像，逼真复制墨西哥护照布局、字体等视觉特征。通过多种角度、光照、背景及距离组合成每组 96 个文件，模拟复杂多样场景。以 HEIC 和 JPG 格式存储，标注丰富元数据，男女比例各半。适用于机器学习和 OCR 训练，为文档验证、身份识别等任务提供数据，助力防范身份欺诈。

其他

图像

合成英国护照数据集

数据集包含 5000 张 AI 生成的逼真英国护照图像，通过多种角度、光照、背景及距离设置，每组 96 个文件，模拟多样展示场景。以 HEIC 和 JPG 格式存储，标注丰富元数据，男女比例各半。适用于机器学习、OCR 及生物识别领域，为文档验证、移民系统等提供数据支持，助力防范身份欺诈。

其他

图像

合成新西兰护照数据集

数据集包含 5000 张 AI 生成的高分辨率图像，通过 3 种角度、4 种光照、4 种背景和 2 种距离组合成每组 96 个文件，模拟多样拍摄场景。图像以 HEIC 和 JPG 格式存储，标注有护照 ID 等丰富元数据，且男女比例各占 50%。适用于 OCR、计算机视觉及身份验证研究，为 PII 提取等模型训练提供数据支持，助力金融等领域防范欺诈。

其他

图像

合成美国驾照数据集

数据集由 5000 张 AI 生成的高质量图像组成，涵盖加利福尼亚州等多个州的驾照。通过 3 种角度、4 种光照、4 种背景和 2 种距离组合成每组 96 个文件，营造多样场景。以推测的常见图像格式（如 JPEG 或 PNG）存储，标注有驾照 ID 等元数据。适用于 OCR、数据提取及身份验证模型训练，在保障数据安全的同时，助力金融等领域防范身份欺诈。

其他

图像

合成日本护照数据集

数据集含 5000 张 AI 生成的高分辨率图像，通过 3 种角度、4 种光照、4 种背景和 2 种距离组合成每组 96 个文件，呈现丰富多样场景。以 HEIC 格式存储，标注有护照 ID 等元数据。适用于文档分析、OCR 及生物识别数据研究，为身份识别与个人数据提取系统的训练和评估提供支持，助力金融等领域防范欺诈。

其他

图像

合成加拿大护照数据集

数据集由 5000 张 AI 生成的高分辨率护照图像构成。通过 3 种角度、4 种光照、4 种背景和 2 种距离的组合，每组 96 个文件，营造出丰富多样的拍摄场景。数据以 HEIC 格式存储，标注有护照 ID 等元数据。适用于 OCR、计算机视觉及身份验证研究，为训练文档识别与个人数据提取系统提供支持，助力金融等领域的安全防护。

其他

图像

合成巴西护照数据集

数据集包含 5000 个文件，内有高分辨率合成护照图像。通过 3 种角度、4 种光照、4 种背景及 2 种距离组合成每组 96 个文件，呈现多样场景。数据由 AI 生成，以 HEIC 格式存储，标注丰富元数据。适用于 OCR、计算机视觉及身份验证模型训练，在保障数据安全前提下，助力金融等领域身份识别与反欺诈工作。

其他

图像