立即参加

更多参赛数据

机器人反光板对接数据集

本数据集收录了机器人在视觉导航过程中，与反光板进行精准对接的全流程数据，该数据集核心价值在于提供真实机器人运行场景下的完整对接数据，为训练和验证机器人对接控制深度学习或强化学习模型提供了高质量的数据样本。旨在直接解决移动机器人对接过程中的定位精度不足、对接成功率低及耗时过长等问题，典型应用于工业自动化装配、机器人协作作业、精密设备对接等场景，助力优化对接算法逻辑，提升机器人反光板对接的效率与精准度

制造

时序
PCB瑕疵检测数据集

印刷电路板（PCB）在制造过程中经常会出现多种表面缺陷，这些缺陷不仅影响外观，还可能对电路板的性能造成损害。因此检测 PCB 表面缺陷对于品质管控至关重要。传统的缺陷检测方式主要依赖人工视觉检查，存在主观性强、效率低下等问题。该数据集包含9 种 PCB 表面缺陷类别，这些缺陷根据其成因、位置和形态进行分类，旨在推动基于深度学习的 PCB 表面缺陷检测研究。

制造

图像
医疗大模型预训练医疗知识数据集

数据分类和量级：包含医疗知识库（临床所见65万条；手术及操作10万条；检查检验6万条；药品药物7.5万条）、知识问答库75万条；图谱三元组145万条；医学文献45万本；数据质量：总量353.5万条数据，知识库都经过清洗和学校专业老师矫正标注，数据都有合规凭证，正规知识产权授权，数据质量有保证。

医疗

文本
通用型中文指令式大模型训练数据集

约 519,000 条 (519k) 样本每条样本为一个 “指令 (instruction) → 输出 (output)” 对，应对各类自然语言任务，例如翻译、文本生成、编辑、数学、逻辑判断、写作等。

其他

文本
车轮检测、分割及与车轮关联信息数据集

车轮提供了一种通用的几何结构，能够进行精确且一致的标注，这可用于提高车辆姿态估计的准确性。然而，自动驾驶系统中的车轮检测研究关注度有限，且缺乏专门的数据集。我们基于nuscenes构建了一个车轮数据集，该数据集提供了2D边界框、像素级分割掩码以及车轮-车辆的关联标签。

交通

图像
苏州轨道交通出行OD统计

该数据集统计了苏州轨道交通各站点间的出行OD（Origin-Destination）排名信息，包括进站、出站车站名称、客流量、排名及交易日期。核心价值在于揭示乘客出行规律与热点路径，可用于优化线路规划、调度资源配置、提升运营效率，适用于交通管理、商业选址分析等场景。

交通

文本

表格

其他
多语言ASR训练音频数据

本数据集包含超过10万小时的大规模、多语言语音音频及其对应的高质量文本转录。数据集涵盖全球44种主要语言，全面覆盖了主流语种及重要区域语言，具备极强的语言多样性与代表性。

其他

文本

音频

更多参赛数据

聚合数据为您提供从入驻到变现的全方位支持。我们是您的"金牌销售",更是您的"安全技术官"

高额预付,锁定收益

经平台评估高商业价值的数据集,我们率先认可并提供高达60%的定价预付款,签订独家代理或代经营合同。

专业撮合,持续分佣

优质数据轻松变现,精准撮合交易,持续享受佣金分成,实现数据资产的长期增值。

安全可信,技术护航

银行级隐私计算与加密技术,全程保障您的数据资产安全与合规,无忧上传,放心交易。

双重激励,现金大奖

额外设立¥200万奖金池加持!这不仅是一个变现平台,更是一个奖励卓越的赛道。

数据征集期

2025.11.10 - 2026.03.20

专家评审期

2026.03.21 - 2026.03.30

结果公布

2026.03.31

联系咨询

参与本次活动，提供高质量数据集即有机会额外获得以下福利。联系咨询

最高10万奖励福利一

优质数据集有机会纳入苏州 OPC 相关政策支持，
获得专项政策扶持与奖励。

大模型 token 券福利二

提供热门大模型调用券，降低模型调用成本及开发门槛。

服务器云资源福利三

我们提供稳定的云服务支持，助力数据处理与部署。

数据资产确权凭证福利四

提供数据资产权属证明，让数据成果权属清晰、价值可溯。

模型成效评测凭证福利五

给数据进行权威的模型成效评测，提升数据影响力与市场信任度。

"百强先锋奖"

100席

评选规则：征集期结束后，专家评审团将依据《高质量数据集官方评判标准》，从所有参赛作品中评选出100个最具价值的数据集。

「奖励」 ¥1000元奖金 + ¥1000元聚合数据平台现金券

「荣誉」聚合数据和苏州人工智能联合颁发《数据启元计划 · 优质数据》荣誉证书

「福利」

获奖数据集将作为官方认证精选数据集，优先上架至聚合数据平台进行售卖

“免申即享”苏州相关人工智能政策

"数据创新奖"

10席

评选流程：专家评审团将从“百强先锋奖”获得者中，评选出10个在应用场景、数据维度或技术上最具创新性的数据集（不与“三强奖”重叠）。

「奖励」额外奖励¥10000元奖金

「荣誉」聚合数据和苏州人工智能联合颁发《数据启元计划 · 创新数据》荣誉证书

「福利」

获奖数据集将作为官方认证精选数据集，优先上架至聚合数据平台进行售卖

“免申即享”苏州相关人工智能政策

"巅峰对决"三强奖

评选流程：专家评审团将从100位“先锋奖”获得者中，评选出冠、亚、季军。

「荣誉」聚合数据和苏州人工智能联合颁发《数据启元计划 · 巅峰数据》荣誉证书

「福利」

获奖数据集将作为官方认证精选数据集，优先上架至聚合数据平台进行售卖

“免申即享”苏州相关人工智能政策

一等奖

1席

¥1,000,000

二等奖

1席

¥500,000

三等奖

1席

¥200,000

本次活动评审团由联合主办方「苏州人工智能」与主办方「聚合数据」的资深行业专家共同组成，确保评选的权威、专业与公正。

程超更多简介

苏州市人工智能重点实验室主任助理、北京大学大数据分析与应用技术国家工程实验室大数据分析技术创新中心主任

王娟更多简介

北京大学大数据分析与应用技术国家工程实验室特聘副研究员

张衎更多简介

苏州市人工智能公司首席数据科学家

三步开启您的数据变现之旅

注册聚合数据账号

成为"数据启元计划"成员

去注册 →

完成实名认证

确保账户安全与收益发放

去认证 →

提交数据信息

上传数据信息 / 数据字典 / 样本等

去上传 →

我们依据《高质量数据集官方评判标准》，从四大维度评估您的数据了解更多评判细则

「合规与安全性」

来源合法

权属清晰

严格脱敏

「AI应用价值」

评分占比 60%

高稀缺性

高商业价值

标注精良

蕴含丰富行业知识

「数据基础质量」

评分占比 30%

准确性

完整性

一致性

「文档与易用性」

评分占比 10%

元数据完整

数据字典清晰

格式规范

Q 谁可以参加?

无论您是个人开发者、科研人员，还是企业数据团队，我们都热烈欢迎。

Q 我需要上传全部数据吗？

在活动征集期间,您无需上传完整数据。仅需按照指引提交数据集的元数据、数据字典和一份已脱敏的数据样本(如50条记录)供专家评审。

Q 如何保证我的数据安全与合规?

我们有严格的审核机制,您也需要签署《数据合规承诺书》。平台严禁任何包含原始个人身份信息的数据。我们承诺对您提交的非公开信息负有严格的保密义务。

任何比赛活动问题

请通过添加下方钉钉号与我们联系

钉钉扫码添加：ag01gr7 (钉钉号)

主办方

天聚地合（苏州）科技股份有限公司

联合主办方

苏州市人工智能有限公司

请先登录

登录后可上传数据，点击快捷登录

请先登录

暂时无法查看你上传的数据集，点击快捷登录

高质量数据集官方评判标准

前言

为响应国家"人工智能+"行动号召，推动数据要素高质量发展，并确保"数据启元计划"的公平、公正与高标准，我们依据《高质量数据集建设指引》等行业权威文件，特制定本评判标准。

本标准旨在定义平台对于"高质量数据集"的价值主张，并为所有数据供应商提供一套清晰、透明、可执行的提交与评估指南。我们的目标是：让真正的价值获得市场的最高认可与回报。

核心评判维度与评分占比

所有提交的数据集信息，将由平台专家评审团从以下四大维度进行综合评估。

维度一为"一票否决项"，是参与评选的必备门槛，不计入总分。
维度二、三、四为评分项，总分100分，具体评分占比如下：

评判维度	核心价值	评分占比
维度一：合规与安全性	一票否决项	（资格准入）
维度二：数据基础质量	决定数据集的"可用性"	30%
维度三：AI应用价值	决定数据集的"含金量"	60%
维度四：文档与易用性	决定数据集的"用户体验"	10%

一票否决维度一：合规与安全性 (一票否决项)

这是平台准入的基石，任何不符合此维度标准的数据集将不被接纳。

核心指标	评判标准
1. 来源合法性	数据采集方式必须符合国家法律法规，严禁通过非法手段获取。供应商需签署《数据合规承诺书》。
2. 隐私安全性	严格遵守《个人信息保护法》等法规。若涉及个人信息，必须提供已获得用户明确授权的证明，或已完成专业、不可逆的匿名化/脱敏处理。
3. 权属清晰性	供应商必须拥有该数据的完整所有权或合法的转售、授权权利，无任何版权纠纷。
4. 内容价值观	数据内容不得违反社会主义核心价值观，不得包含歧视性、商业违法、侵犯他人合法权益等非法内容。

30% 维度二：数据基础质量 (评分占比 30%)

我们参考国家标准，从数据的"健康度"评估其是否稳定、可靠。

核心指标	评判标准
5. 准确性	数据值与其所代表的真实世界实体相符，标签、数值、描述无明显错误。
6. 完整性	结构完整，关键字段的缺失值比例在合理范围内。
7. 一致性	数据在整个集合中保持格式、单位、术语、分类标准等的统一。
8. 真实性	非合成数据能追溯到采集源头；合成数据能追溯生成算法和过程，且符合目标场景的真实分布规律。

60% 维度三：AI应用价值 (评分占比 60%)

这是评定最终奖项的核心依据，重点评估数据对AI模型训练与产业应用的实际贡献。

核心指标	评判标准
9. 稀缺性与价值	(核心) 数据是否难以通过公开渠道获取？是否锚定产业痛点、具备高商业应用价值？
10. 知识密度	(核心) 数据是否蕴含丰富的行业知识、逻辑关系或推理链条？是否为"行业专识"而非"通识"数据集？
11. 标注质量	(针对已标注数据) 标注是否精准、规范？是否采用多模态、思维链等高级标注方法？
12. 多样性与均衡性	数据是否覆盖多场景、多类别，特别是边缘案例 (Edge Cases)？类别分布是否相对均衡？
13. 时效性	数据的采集时间和更新频率是否满足目标应用场景的要求？

10% 维度四：文档与易用性 (评分占比 10%)

一份没有"说明书"的数据，价值将大打折扣。规范的文档是高质量的必要组成部分。

核心指标	评判标准
14. 元数据完整性	必须提供清晰的元数据，包括：数据集规模、格式、采集方法、时间范围、地理覆盖、更新频率等。
15. 数据字典清晰度	必须提供详细的数据字典，解释每个字段的名称、数据类型、单位、含义及枚举值。
16. 格式规范性	数据应采用行业通用的、机器可读的标准格式（如CSV, JSON, Parquet等），便于用户直接使用。

最终奖项评判细则

所有奖项均在通过"维度一"合规审核的数据集中评选产生。

🏆 一、"百强先锋奖"

评选标准：依据「核心评判维度与评分占比」的总分（100分制） 进行排名，总分排名前100的数据集，将获得"百强先锋奖"。
评选目标：此奖项旨在奖励综合质量最高、最具市场潜力的100个数据集。

💡 二、"数据创新奖"

评选标准：专家评审团将从"百强先锋奖"获得者中，评选出10个在 应用场景、数据维度或技术方法 上最具创新性的数据集。
评选目标：此奖项旨在鼓励和发掘具有开创性思维的数据集，其总分可能不是最高的，但在某一方面的创新能带来新的启发。
约束条件：此奖项不与"三强巅峰奖"重叠。
"创新性"参考指标：
- 应用场景创新：将数据应用于一个全新的领域或解决一个前所未有的问题。
- 数据维度创新：采集或标注了全新的数据特征、标签体系或模态。
- 技术方法创新：在数据采集、合成、清洗或标注过程中使用了独特或前沿的技术手段。

👑 三、"三强巅峰奖"

评选标准：专家评审团将从"百强先锋奖"获得者中，依据以下"维度三：AI应用价值"的S级标准，结合总分排名，评选出冠、亚、季军。
评选目标：此奖项旨在嘉奖综合价值最顶尖、最能代表行业未来方向的3个数据集。

核心指标	百强先锋奖	三强巅峰奖
稀缺性与价值	高价值、较稀缺。数据集针对明确的行业痛点，具有很高的商业应用潜力，且难以通过常规公开渠道获取。	独家性、决定性价值。数据集具有独家性或极高的获取壁垒。它不仅能解决当前问题，更有可能开创新的应用场景或商业模式。
知识密度	行业通识级。数据集蕴含丰富的行业通用知识和逻辑，是构建强大行业模型所必需的"高质量燃料"。	行业专识级、含推理链。数据集包含深度的领域专业知识、复杂的逻辑关系甚至是"思维链"过程，能让模型学会"推理"。
标注质量	专业级精准。 (针对已标注数据) 标注精准、一致性高，由专业人员完成，能够满足主流AI任务的需求。	专家级/开拓性标注。 (针对已标注数据) 标注极其精细，由多位领域专家交叉验证，或包含复杂、前沿的标注类型。
多样性与均衡性	覆盖广泛。数据全面覆盖了目标场景下的常见情况和一部分边缘案例，类别分布合理。	极限工况、高度鲁棒。数据刻意、大量地包含了极其罕见但至关重要的边缘案例，能极大提升模型的鲁棒性。
时效性	高时效性。数据是近期的，能够反映当前或近期的真实业务状况。	实时性/高频更新。数据具有很强的时效性，可能是实时产生或高频更新的，对预测类模型价值巨大。

「数据启元计划」数据集征集活动 · 获奖名单公示

致各位开发者与合作伙伴：

自「数据启元计划」数据集征集活动启动以来，我们收到了来自全国各地开发者提交的高质量数据集。经过专家评审团依据《高质量数据集官方评判标准》，从数据维度、应用场景、技术创新性及商业价值等维度的严格评审，本次活动的最终获奖名单现已正式揭晓！

感谢每一位“数据筑基者”的参与，是你们的贡献加速了 AI 产业的协同发展。

🏆 一、巅峰对决 · 三强奖

荣誉： 获得「数据启元计划 · 巅峰数据」荣誉证书，并入选官方认证精选数据集。

奖项	获奖账户 (UID)	奖金
一等奖	zhuzi14	¥ 1,000,000
二等奖	langtng	¥ 500,000
三等奖	mtkj197	¥ 200,000

💡 二、数据创新奖（10 席）

荣誉： 额外获得 ¥10,000 现金奖励及「数据启元计划 · 创新数据」荣誉证书。

获奖名单（UID）：

kels****y23
cool****h56
baix****025
suzh****ong
xue****nai
siji****ang
evda****ta
fing****edia
juhe****hong
shen****_bio

🎖️ 三、百强先锋奖（部分名单公示）

荣誉： 获得 ¥1000 现金 + ¥1000 平台券，及「数据启元计划 · 优质数据」证书。

注：以下为该奖项的部分获奖 UID，获奖用户会通过邮件收到获奖通知。

liuj****hao
huan****xue
chen****135
hh12****465
2024****zyx
cesh****123
54hu****ge
aifl****ore
altd****ech
baix****225
cool****56
ctea****hi
danc****0de
zhuz****214
haoc****hng
harl****ie
hell****213
hxpe****net
ipid****hen
lqtt****ttt
keep****123
jhsj****708
larr****yrz
xusc****252
yyhh****ter
ami****bha
nast****464
publ****cai
pz19****9pz
siji****ang
cgtr****ove
wosu****nle
1391****222
ying****shu
ynt1****999
yuzh****ome

机器人反光板对接数据集

PCB瑕疵检测数据集

医疗大模型预训练医疗知识数据集

通用型中文指令式大模型训练数据集

车轮检测、分割及与车轮关联信息数据集

苏州轨道交通出行OD统计

多语言ASR训练音频数据

高额预付,锁定收益

专业撮合,持续分佣

安全可信,技术护航

双重激励,现金大奖

注册聚合数据账号

完成实名认证

提交数据信息

「合规与安全性」

「AI应用价值」

「数据基础质量」

「文档与易用性」

主办方

联合主办方

请先登录

我的数据集

请先登录

高质量数据集官方评判标准

前言

核心评判维度与评分占比

一票否决 维度一：合规与安全性 (一票否决项)

30% 维度二：数据基础质量 (评分占比 30%)

60% 维度三：AI应用价值 (评分占比 60%)

10% 维度四：文档与易用性 (评分占比 10%)

最终奖项评判细则

🏆 一、"百强先锋奖"

💡 二、"数据创新奖"

👑 三、"三强巅峰奖"

「数据启元计划」数据集征集活动 · 获奖名单公示

🏆 一、 巅峰对决 · 三强奖

💡 二、 数据创新奖（10 席）

🎖️ 三、 百强先锋奖（部分名单公示）

一票否决维度一：合规与安全性 (一票否决项)

🏆 一、巅峰对决 · 三强奖

💡 二、数据创新奖（10 席）

🎖️ 三、百强先锋奖（部分名单公示）