掌握聚合最新动态了解行业最新趋势
API接口,开发服务,免费咨询服务

数据启元计划 | 精选高质量 AI 数据集第六弹

由聚合数据举办的高质量 AI 数据集征集活动「数据启元计划」升级版本正在持续进行中。欢迎开发者们积极提供高质量数据集,诚邀大家加入这场从入驻到变现的双向奔赴之旅~
目前,通过我们的严格筛选及权威审核,保证数据集具备权威性、时效性与合规性。精选数据集正在聚合数据官网持续上架中,为开发者、科研机构及企业提供"即取即用"的数据集燃料。

接上期,我们继续挑选了五大高质量数据集,作为精选合集第六弹。它们覆盖医疗教育、营销设计、标准法规等多个行业领域,分别是:

  1. 海外关键词数据集

  2. 3D 模型资源数据集

  3. 高中数学核心题型数据集

  4. 医疗多病种影像与临床数据集

  5. 中国强制性国家标准 (GB) 结构化元数据集

海外关键词数据集

数据集概述

海外关键词数据集提供从 Google、Bing、DuckDuckGo、Yandex 等全球搜索引擎获取的精准数据,以及全流程符合 GDPR/CCPA 等全球数据法规,内置安全脱敏与权限控制机制。

69a7ff1661acb.png!thumb

数据集特色

  1. 汇集 Google、Bing、DuckDuckGo 等全球主流搜索引擎的数据。

  2. 覆盖范围广泛,包含不同地区和语言环境的搜索数据。

  3. 提供经过筛选和处理的精准关键词数据。

  4. 数据质量高,适合用于 AI 模型训练。

  5. 数据集经过专门整理,适配 AI 多模态模型训练需求。

  6. 结构化的数据格式便于机器学习算法处理和应用。

  7. 涵盖海外市场的关键词数据,为国际化 AI 应用提供支持。

  8. 包含不同搜索引擎的特性数据,增强模型的泛化能力。

应用场景

  1. AI 模型训练

结构化数据加速 AI 数据准备,用于大模型训练。

  1. SEO 与数字营销优化

分析不同关键词的搜索频率、竞争程度和趋势变化制定关键词策略。

  1. AI 与智能应用开发

可作为 AI 模型的补充数据源。

  1. 金融风控与市场预测

分析不同金融关键词的搜索频率,捕捉市场情绪和投资热点变化。

  1. 医疗健康知识图谱构建

可作为 AI 模型的补充数据源。

  1. 教育内容个性化推荐

分析不同教育关键词的搜索频率、竞争程度和趋势变化。

3D 模型资源数据集

数据集概述 

本数据集拥有超过120万3D模型,其中20万+已进行精细分类与标注,涵盖工业部件、日常物品、建筑元素等多个类别。

69a7ff1f9727a.png!thumb

数据集特色

  1. 总规模:超过120万个 3D 模型。

  2. 已标注部分:20万+精细分类标注的 3D 模型。

  3. 扩展资源:100万+待分类模型资源。

  4. 数据格式:支持 OBJ、FBX、STL、PLY、GLTF、GLB 等格式。

  5. 质量优势:专业级标注质量,减少数据清洗工作量。

  6. 灵活性优势:可按类别、格式、复杂度灵活筛选子集。

应用场景

1.3D 计算机视觉研究

  1. 训练点云/网格分类、检测网络。

  2. 提供精确的 3D 边界框和关键点标注。

  3. 支持细粒度部件级分割任务。

2.机器人感知与仿真

  1. 为抓取姿态生成、操作规划提供丰富物体模型。

  2. 构建逼真的室内外仿真环境。

  3. 生成道路场景中的多样化障碍物与交通元素。

3.生成式 AI 与内容创作

  1. 训练 3D-GAN、扩散模型、神经隐式表示等。

  2. 快速搭建丰富的数字场景。

  3. 提供即用型高质量 3D 资产。

4.工业与专业应用

  1. 为缺陷检测、尺寸测量提供标准比对模型。

  2. 提供标准化建筑构件库。

  3. 三维几何学习、图形学算法的测试基准。

高中数学核心题型数据集

数据集概述

本数据集系统收录高中阶段数学核心题型,覆盖函数、数列、立体几何、解析几何、概率统计等高频与难点内容,完整体现高中数学的知识结构与解题逻辑。

69a7ff28b37d9.png!thumb

数据集特色

  1. 数据来源

主要来源于主流教材、历年高考真题及典型模拟试题。

  1. 内容构成

题干文本、已知条件、标准答案、分步解题过程以及关键知识点。

  1. 覆盖范围

全面覆盖中国高中数学课程的核心知识体系。

  1. 模块结构

函数与方程、数列、立体几何、解析几何、概率统计等关键模块。

  1. 技术规格规模

数据集以 JSON 格式存储。

  1. 数据规模

数据规模达到约10,000道题目。

  1. 专注于多步骤符号推理

专注于需要多步推导、定理应用和严密符号操作的复杂数学问题。

  1. 严格逻辑链条

解析过是一个完整的逻辑证明或计算链条。

应用场景

  1. K12 智能教学与个性化学习系统开发教育

科技公司可基于此数据集构建能够自动生成解题步骤、提供分步提示、并进行步骤级错误诊断的 AI 助教系统。

  1. 数学解题大模型的专项训练与能力评测

AI 研究人员可使用此数据集训练或微调专注于数学领域的专业大模型。

  1. 通用大语言模型的数学推理能力对齐与增强

对于追求通用能力的 AI 模型开发者,此数据集是进行数学领域“能力对齐” 的关键资源。

医疗多病种影像与临床数据集

数据集概述

医疗多病种影像与临床数据集涵盖了胃癌/肠癌/肝癌常见病/罕见病和呼吸系统等医疗 CT 报告与 EMR 记录,共计 11000+ 个记录,可用于相关深度学习模型训练,大模型诊断数据集等。

69a7ff331d7b5.png!thumb

数据集特色

  1. 多模态数据融合:CT 影像与 EMR 文本数据结合。

  2. 罕见病包含:除常见病外还包含罕见病例。

  3. 跨器官覆盖:涵盖消化系统(胃、肠、肝)和呼吸系统。

  4. 标准化格式:数据格式统一,便于直接用于机器学习模型训练。

  5. 真实临床数据:来源于实际医疗场景,保证数据的真实性。

  6. 即用型数据:无需额外的数据清洗和预处理工作。

  7. 合规性保障:通过正规数据平台提供,符合医疗数据使用规范

  8. 教学研究友好:数据复杂度和规模适中,适合学术研究和教学使用。

  9. 多任务学习支持:支持分类、分割、检测等多种 AI 任务训练。

应用场景

  1. AI 辅助诊断系统:训练多病种识别模型,帮助医生提高诊断准确率。

  2. 医学影像分析:开发肝脏、胃部、肠道等器官的病变检测算法。

  3. 疾病预测模型:结合 EMR 数据构建疾病风险评估和预测系统。

  4. 医疗教育平台:为医学生提供真实病例学习材料。

  5. 科研用途:支持医学研究机构的算法验证和论文发表。

  6. 远程医疗:为基层医疗机构提供 AI 诊断能力支持。

中国强制性国家标准 (GB) 结构化元数据集

数据集概述

本数据集收录国家官方公开的强制性国家标准(GB)结构化元数据,包含标准号、中英文名称、实施状态、CCS/ICS 分类、发布与实施日期、主管部门、采标信息等。覆盖即将实施、现行、废止三类标准,数据合规、干净、可直接用于行业大模型训练、合规检索、政策分析等场景。

69a7ff3bde468.png!thumb

数据集特色

权威官方来源:数据直接来源于国家标准官方公开平台。

全生命周期覆盖:包含即将实施、现行、废止三种状态标准。

双分类体系:同时提供 CCS(中国标准分类)与 ICS(国际分类标准)。

采标信息完整:详细记录是否采标、采标类型及对应国际标准号。

管理链条清晰:涵盖主管部门、归口部门、发布单位。

时间维度完整:记录发布日期与实施日期。

结构化程度高:JSON 格式规范清洗,可直接导入各类系统。

合规安全设计:仅包含元数据与题录信息,不含标准正文。

规模适中实用:六千条记录既覆盖主要强制性标准。

应用场景

  1. 人工智能与大数据场景

用于法律科技、合规科技领域大模型的领域适配训练。

作为外部知识库,支撑智能问答系统。

以标准为核心节点,关联产品、技术、行业、机构等实体。

结合 NLP 技术,自动识别业务场景涉及的强制性标准。

  1. 企业与管理场景

快速检索适用标准,建立企业标准库。

跟踪标准状态变化(如废止、更新、即将实施)。

嵌入企业知识管理系统,为员工提供标准查询服务。

  1. 政府与产业研究场景

分析各领域标准发布趋势、采标情况,为政策制定提供数据支撑。

掌握行业标准体系现状,识别标准空白领域,指导标准化工作方向。

结合地方产业特点,分析相关领域标准分布与更新情况。

  1. 教育与科研场景

用于标准化课程教学,帮助学生理解标准体系结构与分类方法。

支持标准化理论、标准体系演化、标准与技术创新关系等研究课题。


「数据启元计划」正在努力打造开放、创新、安全的数据共享生态。我们期待更多合作伙伴参与进来,共同书写数据赋能产业的崭新篇章。如果对以上数据集感兴趣,欢迎访问聚合数据官网了解更多!大量精选数据集请持续关注本公众号内容~

  • AI语音合成TTS API

    提供多种拟人音色,支持多语言及方言,并可在同一音色下输出多语言内容。系统可自适应语气,流畅处理复杂文本。

    提供多种拟人音色,支持多语言及方言,并可在同一音色下输出多语言内容。系统可自适应语气,流畅处理复杂文本。

  • Google Gemini Image API

    Nano Banana(gemini-2.5-flash-image 和 gemini-3-pro-image-preview图像模型)是图像生成与编辑的最佳选择,可集成 Nano Banana API,实现高速预览。

    Nano Banana(gemini-2.5-flash-image 和 gemini-3-pro-image-preview图像模型)是图像生成与编辑的最佳选择,可集成 Nano Banana API,实现高速预览。

  • AI视频创作

    支持通过自然语言文本智能生成高质量短视频。用户只需输入一段描述性文字,即可自动合成画面连贯、风格鲜明、配乐匹配的定制化视频内容。适用于短视频创作、广告预演、社交内容生成、游戏素材制作等场景,为开发者与创作者提供高效、灵活、富有想象力的视频生产新范式。

    支持通过自然语言文本智能生成高质量短视频。用户只需输入一段描述性文字,即可自动合成画面连贯、风格鲜明、配乐匹配的定制化视频内容。适用于短视频创作、广告预演、社交内容生成、游戏素材制作等场景,为开发者与创作者提供高效、灵活、富有想象力的视频生产新范式。

  • AI图像理解

    先进的图像理解和分析能力,它能够快速准确地解析和理解图像内容。无论是自然风景、城市建筑还是复杂的场景与活动,都能提供详细的描述和深入的分析。

    先进的图像理解和分析能力,它能够快速准确地解析和理解图像内容。无论是自然风景、城市建筑还是复杂的场景与活动,都能提供详细的描述和深入的分析。

  • AI图像编辑

    根据文本提示(prompt)和图片公网访问链接,编辑原图按照特定风格、场景和氛围感的输出新的图像。广泛应用于电商营销、广告设计、创意灵感等领域,为用户带来高效且个性化的AI图像创作体验。

    根据文本提示(prompt)和图片公网访问链接,编辑原图按照特定风格、场景和氛围感的输出新的图像。广泛应用于电商营销、广告设计、创意灵感等领域,为用户带来高效且个性化的AI图像创作体验。

0512-88869195
客服微信二维码

微信扫码,咨询客服

数 据 驱 动 未 来
Data Drives The Future