【数据启元计划】征集高质量AI数据集_提供数据集下载试用_聚合数据

合成澳大利亚护照数据集

数据集包含 5000 个由 AI 生成的高分辨率澳大利亚护照图像文件。该数据集涵盖多样的角度、光照及背景，对性别、年龄组等详细标注，并带有丰富元数据。适用于 OCR、计算机视觉及 PII 提取任务，为训练身份文件识别的机器学习模型提供数据，同时保障数据隐私。

其他

图像

3

OCT 视网膜数据集

数据集包含 1000 个体积性视网膜 OCT 扫描（B 扫描）图像，每个体积含 100 个 B 扫描。以 DICOM 格式存储，标注了视网膜层、液体区域及临床诊断信息，如 AMD 等病症，还标注年龄、性别等元数据。适用于医学领域，为疾病分类、病症分割等 AI 模型训练提供数据，助力基于计算机视觉的视网膜疾病分析与诊断。

医疗

图像

3

上肢关节 X 光数据集

数据集规模庞大，含超 120 万张聚焦肩、肘、腕关节的数字化 X 光图像，涵盖 13 种病症。以 DICOM 格式存储，标注文件为 csv 格式，通过详细标注辅助病症识别与分割。适用于医学成像领域，为训练深度学习模型提供数据，助力医生诊断上肢关节及相关病症。

医疗

图像

表格

3

脑部 CT 扫描数据集

数据集规模较大，包含超 70,000 份 DICOM 格式研究案例，涵盖 5 种常见脑部病症。通过对病症进行分割标注，并以 1 或 0 标记病症存在与否。适用于医学研究、计算机视觉领域，为基于深度学习的脑部疾病诊断算法提供有力数据支撑。

医疗

图像

4

胸部 CT 分割数据集

数据集包含 1000 多份 Nii 格式扫描图像，对应超 1000 个医学研究案例，涵盖 7 种病症与 8 个解剖区域。经专家注释，对病症及解剖结构进行分割标注。数据集提供高质量断层图像，可用于肺癌、肺部疾病的 AI 研究及诊断成像，助力医学领域在病症识别、分类等方面的发展。

医疗

图像

5

胸部 X 光数据集

数据集含 443 个文件，对应 150 个医学研究案例及 13 种数据标签。以 DICOM 格式存储胸部 X 光图像，对病症详细分割并标注多种病症类型。适用于医学领域检测肺部等疾病，为医疗诊断成像提供依据，也助力计算机视觉和机器学习在医疗影像分析中的应用，辅助病症识别与分类。

医疗

图像

6

脑部 MRI 数据集

数据集涵盖超 200 万个医学研究案例，涉及 50 多种疾病，包含脑部 MRI 扫描图像及放射科医生报告。图像以 DICOM 格式存储，具详细结构成像。适用于医学领域的肿瘤检测与分割研究，也为计算机视觉和机器学习在医疗方面的应用提供数据支持，辅助疾病的识别、分类等工作。

医疗

图像

3

精选
个人人机协同完整创作过程数据合规数据集

人机AI协同创作全流程认知轨迹AI模型训练数据集（江苏数据知识产权公示名称）。由17份跨十多个领域首创性作品的约2000万字完整创作过程数据组成，完整记录了从灵感萌发到定稿的人机交互全过程，开创了"个人人机协同完整创作过程合规数据集资产"这一全新品类。全球公开可查询范围内人机协同作品完整创作过程数据集未有先例。作者使用其中9份作品对72B开源模型进行微调对照实验，训练效果显著具体可见数据集介绍。

其他

文本

4

合成美国护照数据集

数据集含 9600 张 AI 生成的护照图像，图像在角度、光照、背景和距离上具有多样性，并带有详细元数据标注。适用于身份验证、PII 提取等场景，可训练 OCR 和计算机视觉模型，助力金融科技等领域预防欺诈，保障信息安全。

其他

图像

3

乳腺钼靶分割数据集

数据集含有超 3000 张 DICOM 格式的数字化乳腺 X 光图像，针对 14 种以上乳腺病症进行像素级标注。该数据集适用于乳腺癌检测、病损分割，可助力医学成像领域的深度学习模型训练，为乳腺癌早期诊断提供关键数据支持，在医学与计算机视觉交叉领域具有重要价值。

医疗

图像

6

脑部 CT 分割数据集

数据集含超 1000 份带注释的脑部 CT 扫描图像，涉及 10 种病症。以 Nii 格式存储，专为肿瘤分割、脑出血检测等任务设计。适用于医学领域中机器学习模型的训练，辅助实现语义分割、治疗方案规划等，助力对脑组织、结构和损伤的精确分析，推动脑部疾病诊断与治疗技术发展。

医疗

图像

2

胸部 CT 扫描数据集

数据集规模庞大，含超 150,000 张标注病症的胸部 CT 图像，涵盖 24 种病症。以 DICOM 格式存储，适用于医学领域肺部疾病检测、癌症诊断等任务，为训练深度学习模型提供丰富数据，助力计算机视觉在医学成像中的应用。

医疗

文本

图像

3

精选
个人人机协同完整创作过程数据合规数据集含CoT

含Cot 思维链推理的完整人机AI协同创作过程认知图谱训练数据集（江苏公示名称）由17份跨十多个领域首创性作品的约3000万字完整创作过程数据含CoT组成，完整记录了从灵感萌发到定稿的人机交互全过程，开创了"个人人机协同完整创作过程合规数据集资产"这一全新品类且含CoT。全球公开可查询范围内个人人机协同作品完整创作过程数据集未有先例。作者使用9份作品对72B开源模型进行微调对照实验详见数据集介绍

其他

文本

8