【数据启元计划】征集高质量AI数据集_提供数据集下载试用_聚合数据

精选
机器人反光板对接数据集

本数据集收录了机器人在视觉导航过程中，与反光板进行精准对接的全流程数据，该数据集核心价值在于提供真实机器人运行场景下的完整对接数据，为训练和验证机器人对接控制深度学习或强化学习模型提供了高质量的数据样本。旨在直接解决移动机器人对接过程中的定位精度不足、对接成功率低及耗时过长等问题，典型应用于工业自动化装配、机器人协作作业、精密设备对接等场景，助力优化对接算法逻辑，提升机器人反光板对接的效率与精准度

制造

时序

1033

PCB瑕疵检测数据集

印刷电路板（PCB）在制造过程中经常会出现多种表面缺陷，这些缺陷不仅影响外观，还可能对电路板的性能造成损害。因此检测 PCB 表面缺陷对于品质管控至关重要。传统的缺陷检测方式主要依赖人工视觉检查，存在主观性强、效率低下等问题。该数据集包含9 种 PCB 表面缺陷类别，这些缺陷根据其成因、位置和形态进行分类，旨在推动基于深度学习的 PCB 表面缺陷检测研究。

制造

图像

1319

精选
医疗大模型预训练医疗知识数据集

数据分类和量级：包含医疗知识库（临床所见65万条；手术及操作10万条；检查检验6万条；药品药物7.5万条）、知识问答库75万条；图谱三元组145万条；医学文献45万本；数据质量：总量353.5万条数据，知识库都经过清洗和学校专业老师矫正标注，数据都有合规凭证，正规知识产权授权，数据质量有保证。

医疗

文本

977

通用型中文指令式大模型训练数据集

约 519,000 条 (519k) 样本每条样本为一个 “指令 (instruction) → 输出 (output)” 对，应对各类自然语言任务，例如翻译、文本生成、编辑、数学、逻辑判断、写作等。

其他

文本

903

精选
车轮检测、分割及与车轮关联信息数据集

车轮提供了一种通用的几何结构，能够进行精确且一致的标注，这可用于提高车辆姿态估计的准确性。然而，自动驾驶系统中的车轮检测研究关注度有限，且缺乏专门的数据集。我们基于nuscenes构建了一个车轮数据集，该数据集提供了2D边界框、像素级分割掩码以及车轮-车辆的关联标签。

交通

图像

1078

精选
苏州轨道交通出行OD统计

该数据集统计了苏州轨道交通各站点间的出行OD（Origin-Destination）排名信息，包括进站、出站车站名称、客流量、排名及交易日期。核心价值在于揭示乘客出行规律与热点路径，可用于优化线路规划、调度资源配置、提升运营效率，适用于交通管理、商业选址分析等场景。

交通

文本

表格

其他

897

精选
多语言ASR训练音频数据

本数据集包含超过10万小时的大规模、多语言语音音频及其对应的高质量文本转录。数据集涵盖全球44种主要语言，全面覆盖了主流语种及重要区域语言，具备极强的语言多样性与代表性。

其他

文本

音频

923

手势识别图像数据集

HaGRID 手势识别数据集的核心价值在于提供了超过百万张 Full HD 图像、覆盖 33 类丰富且高质量的手势样本，并包含大规模真实场景下的光照、背景、距离与人群多样性。它解决了手势识别在真实应用中常见的泛化差、误识别及对动态手势支持不足等问题。借助该数据集，开发者可以构建更稳定、更准确的手势识别模型，广泛应用于视频会议手势控制、智能家居交互、车载手势操作、AR/VR 无接触交互以及各类人机交

教育

图像

893

精选
维普中文学术期刊语料数据

维普拥有7800万高质量中文学术期刊数据，覆盖全科学领域，拥有合规版权，可用于各类基础大模型、垂类/细分行业模型训练。

其他

文本

表格

1068

精选
苏州轨道交通出入站客流数据

本数据产品提供苏州轨道交通运营车站每日客流数据，包括线路、车站、日期、进站人数、出站人数等信息，帮助车站及附近的广告投放、商铺招商、客运接驳、文旅餐饮等相关企业在营销策略制定、品牌宣传、风险评估等方面提供数据支持。

交通

文本

表格

其他

899

精选
东盟国家本地人文SFT数据集

本数据集涵盖：缅甸、越南、柬埔寨、马来西亚、印度尼西亚、泰国、老挝、新加坡、菲律宾、文莱等国家的通识类SFT。所有数据都基于本地人文、历史、通识类数据构成，不掺杂非本国内容的公共内容，每国SFT存储量超过15万条。

其他

文本

771

大型语言模型越狱攻击风险评测中文数据集

JailBench 是针对大型语言模型在中文语境下越狱攻击风险的综合性多领域安全评测数据集，面向《网络安全技术生成式人工智能服务安全基本要求》训练数据及生成内容的主要安全风险标准分类设计，是目前公开发布题库规模最大，越狱攻击手段覆盖最为广泛的中文评测数据集。

社会治理

文本

表格

792

全球电子游戏产业全景分析数据集（1971-2024）

该数据集包含了从1971年至2024年期间发布的64,016款游戏的销售数据。数据涵盖了游戏在北美、日本、欧盟、非洲及世界其他地区的销量情况，并包含诸如评论家评分、游戏类型、游戏平台、发行商、开发商等详细信息。

消费

文本

923

精选
无人机智能巡检多领域数据集

本数据集涵盖9类典型应用场景，共计超过5万张高分辨率图像。数据集适用于目标检测与细分类任务，支持YOLO等多种主流训练格式，助力智慧城市、生态保护、公共安全、基础设施运维等领域的AI模型研发与落地应用。

其他

图像

595

精选
半导体行业前沿问题解决方案集

本数据集是一个针对半导体行业前沿问题构建的高质量专业问答数据集。每个样本包含完整的专业技术问题、详细的参考答案、系统化的评分准则以及主流AI模型的真实回复与评估结果。数据集以"问题-答案-评估"三位一体的结构化形式呈现，深度聚焦半导体技术领域的核心难点与创新应用。

其他

文本

760

精选
海外社媒平台数据集

我们可提供社交媒体数据集涵盖 Facebook、Instagram、X（Twitter）、Linkedln、YouTube、Tik Tok等平台对应账号的发布内容、点赞数、标签、转发、评论情感适用于舆情分析、多模态训练、内容审核模型训练。

其他

文本

图像

视频

809

精选
上海市新能源汽车时空趋势数据

本数据集提供上海市各区域新能源汽车月度充电趋势数据，涵盖充电车辆数、充电次数及快慢充占比等关键指标，适用于新能源汽车产业分析、城市能源规划与充电基础设施布局等研究领域，为政策制定与市场预测提供量化依据。

交通

表格

884

精选
尔特全球卫星遥感数据集

卫星遥感数据具备优秀的客观性、时效性与颗粒度，并且不受人为偏差和报告滞后影响，尔特数科将原始卫星遥感影像转化为结构化、可直接用于时间序列分析的数据集、统计指标。覆盖336个中国地级行政区域以及95个主要G20国家城市，适用于金融、经济增长、投资与交易、供应链监控、ESG风险评估、宏观经济追踪等多元化应用场景，并可提供数据分析报告等定制化数据服务。

其他

3D&空间

图&网络

其他

825

精选
K12 小初高数字资源内容+高质量题库 +教辅体系数据集

试题网聚焦新高考、新课标、新教材、整合全学段优质测评资源，日更新速度1万+，目前平台以开放生态合作的方式，面向教育机构、学校、教培企业、教育科技公司等各类合作伙伴，提供灵活多元的合作模式：包括试题资源 API 接口对接、定制化题库共建、联合产品开发、品牌合作推广等。合作伙伴可借助平台成熟的资源体系、技术支撑与运营经验，快速补充优质内容供给、降低研发成本、提升产品竞争力，精准触达目标用户群体。

教育

文本

图像

生物&化学

1318

精选
3D模型资源数据集

本数据集拥有超过120万3D模型，其中20万+已进行精细分类与标注，涵盖工业部件、日常物品、建筑元素等多个类别。数据包含完整几何、纹理与语义信息，格式规范统一。核心价值在于为计算机视觉、机器人仿真与生成式AI等领域提供大规模、高质量、即用的三维训练数据，可高效支持3D物体检测、场景理解、数据增强及数字内容生成等任务，显著降低三维算法研发的数据门槛与成本。

其他

3D&空间

381

精选
机械图纸数据集

本数据集涵盖各类机械加工图纸，整合多难度QA问答、整图结构化解析、元素定位三类核心数据。有效解决了机械图纸数据稀缺、标注专业度高、整合成本高的行业痛点，通过LLM+人工双重校验保障数据精准规范，可适用于工业AI模型训练、机械图纸智能解读等场景，助力提升图纸解析效率与模型专业适配性。

制造

图像

1137

精选 机器人反光板对接数据集

PCB瑕疵检测数据集

精选 医疗大模型预训练医疗知识数据集

通用型中文指令式大模型训练数据集

精选 车轮检测、分割及与车轮关联信息数据集

精选 苏州轨道交通出行OD统计

精选 多语言ASR训练音频数据

手势识别图像数据集

精选 维普中文学术期刊语料数据

精选 苏州轨道交通出入站客流数据

精选 东盟国家本地人文SFT数据集

大型语言模型越狱攻击风险评测中文数据集

全球电子游戏产业全景分析数据集（1971-2024）

精选 无人机智能巡检多领域数据集

精选 半导体行业前沿问题解决方案集

精选 海外社媒平台数据集

精选 上海市新能源汽车时空趋势数据

精选 尔特全球卫星遥感数据集

精选 K12 小初高 数字资源内容+高质量题库 +教辅体系数据集

精选 3D模型资源数据集

精选 机械图纸数据集

精选 机器人反光板对接数据集

PCB瑕疵检测数据集

精选 医疗大模型预训练医疗知识数据集

通用型中文指令式大模型训练数据集

精选 车轮检测、分割及与车轮关联信息数据集

精选 苏州轨道交通出行OD统计

精选 多语言ASR训练音频数据

手势识别图像数据集

精选 维普中文学术期刊语料数据

精选 苏州轨道交通出入站客流数据

精选 东盟国家本地人文SFT数据集

大型语言模型越狱攻击风险评测中文数据集

全球电子游戏产业全景分析数据集（1971-2024）

精选 无人机智能巡检多领域数据集

精选 半导体行业前沿问题解决方案集

精选 海外社媒平台数据集

精选 上海市新能源汽车时空趋势数据

精选 尔特全球卫星遥感数据集

精选 K12 小初高 数字资源内容+高质量题库 +教辅体系数据集

精选 3D模型资源数据集

精选 机械图纸数据集

精选
机器人反光板对接数据集

精选
医疗大模型预训练医疗知识数据集

精选
车轮检测、分割及与车轮关联信息数据集

精选
苏州轨道交通出行OD统计

精选
多语言ASR训练音频数据

精选
维普中文学术期刊语料数据

精选
苏州轨道交通出入站客流数据

精选
东盟国家本地人文SFT数据集

精选
无人机智能巡检多领域数据集

精选
半导体行业前沿问题解决方案集

精选
海外社媒平台数据集

精选
上海市新能源汽车时空趋势数据

精选
尔特全球卫星遥感数据集

精选
K12 小初高数字资源内容+高质量题库 +教辅体系数据集

精选
3D模型资源数据集

精选
机械图纸数据集

精选
机器人反光板对接数据集

精选
医疗大模型预训练医疗知识数据集

精选
车轮检测、分割及与车轮关联信息数据集

精选
苏州轨道交通出行OD统计

精选
多语言ASR训练音频数据

精选
维普中文学术期刊语料数据

精选
苏州轨道交通出入站客流数据

精选
东盟国家本地人文SFT数据集

精选
无人机智能巡检多领域数据集

精选
半导体行业前沿问题解决方案集

精选
海外社媒平台数据集

精选
上海市新能源汽车时空趋势数据

精选
尔特全球卫星遥感数据集

精选
K12 小初高数字资源内容+高质量题库 +教辅体系数据集

精选
3D模型资源数据集

精选
机械图纸数据集