为响应国家"人工智能+"行动号召,推动数据要素高质量发展,并确保"数据启元计划"的公平、公正与高标准,我们依据《高质量数据集建设指引》等行业权威文件,特制定本评判标准。
本标准旨在定义平台对于"高质量数据集"的价值主张,并为所有数据供应商提供一套清晰、透明、可执行的提交与评估指南。我们的目标是:让真正的价值获得市场的最高认可与回报。
聚合数据为您提供从入驻到变现的全方位支持。我们是您的"金牌销售",更是您的"安全技术官"
经平台评估高商业价值的数据集,我们率先认可并提供高达60%的定价预付款,签订独家代理或代经营合同。
优质数据轻松变现,精准撮合交易,持续享受佣金分成,实现数据资产的长期增值。
银行级隐私计算与加密技术,全程保障您的数据资产安全与合规,无忧上传,放心交易。
额外设立¥200万奖金池加持!这不仅是一个变现平台,更是一个奖励卓越的赛道。
数据征集期
专家评审期
结果公布
评选规则:征集期结束后,专家评审团将依据《高质量数据集官方评判标准》,从所有参赛作品中评选出100个最具价值的数据集。
获奖数据集将作为官方认证精选数据集,优先上架至聚合数据平台进行售卖
“免申即享”苏州相关人工智能政策
评选流程:专家评审团将从“百强先锋奖”获得者中,评选出10个在应用场景、数据维度或技术上最具创新性的数据集(不与“三强奖”重叠)。
获奖数据集将作为官方认证精选数据集,优先上架至聚合数据平台进行售卖
“免申即享”苏州相关人工智能政策
评选流程:专家评审团将从100位“先锋奖”获得者中,评选出冠、亚、季军。
获奖数据集将作为官方认证精选数据集,优先上架至聚合数据平台进行售卖
“免申即享”苏州相关人工智能政策
1席
¥1,000,000
1席
¥500,000
1席
¥200,000
本次活动评审团由联合主办方「苏州人工智能」与主办方「聚合数据」的资深行业专家共同组成,确保评选的权威、专业与公正。
苏州市人工智能重点实验室主任助理、北京大学大数据分析与应用技术国家工程实验室大数据分析技术创新中心主任
北京大学大数据分析与应用技术国家工程实验室特聘副研究员
苏州市人工智能公司首席数据科学家
三步开启您的数据变现之旅
我们依据《高质量数据集官方评判标准》,从四大维度评估您的数据了解更多评判细则
无论您是个人开发者、科研人员,还是企业数据团队,我们都热烈欢迎 。
在活动征集期间,您无需上传完整数据。仅需按照指引提交数据集的元数据、数据字典和一份已脱敏的数据样本(如50条记录)供专家评审。
我们有严格的审核机制,您也需要签署《数据合规承诺书》。平台严禁任何包含原始个人身份信息的数据。我们承诺对您提交的非公开信息负有严格的保密义务。
暂时无法查看你上传的数据集,点击快捷登录
为响应国家"人工智能+"行动号召,推动数据要素高质量发展,并确保"数据启元计划"的公平、公正与高标准,我们依据《高质量数据集建设指引》等行业权威文件,特制定本评判标准。
本标准旨在定义平台对于"高质量数据集"的价值主张,并为所有数据供应商提供一套清晰、透明、可执行的提交与评估指南。我们的目标是:让真正的价值获得市场的最高认可与回报。
所有提交的数据集信息,将由平台专家评审团从以下四大维度进行综合评估。
| 评判维度 | 核心价值 | 评分占比 |
|---|---|---|
| 维度一:合规与安全性 | 一票否决项 | (资格准入) |
| 维度二:数据基础质量 | 决定数据集的"可用性" | 30% |
| 维度三:AI应用价值 | 决定数据集的"含金量" | 60% |
| 维度四:文档与易用性 | 决定数据集的"用户体验" | 10% |
这是平台准入的基石,任何不符合此维度标准的数据集将不被接纳。
| 核心指标 | 评判标准 |
|---|---|
| 1. 来源合法性 | 数据采集方式必须符合国家法律法规,严禁通过非法手段获取。供应商需签署《数据合规承诺书》。 |
| 2. 隐私安全性 | 严格遵守《个人信息保护法》等法规。若涉及个人信息,必须提供已获得用户明确授权的证明,或已完成专业、不可逆的匿名化/脱敏处理。 |
| 3. 权属清晰性 | 供应商必须拥有该数据的完整所有权或合法的转售、授权权利,无任何版权纠纷。 |
| 4. 内容价值观 | 数据内容不得违反社会主义核心价值观,不得包含歧视性、商业违法、侵犯他人合法权益等非法内容。 |
我们参考国家标准,从数据的"健康度"评估其是否稳定、可靠。
| 核心指标 | 评判标准 |
|---|---|
| 5. 准确性 | 数据值与其所代表的真实世界实体相符,标签、数值、描述无明显错误。 |
| 6. 完整性 | 结构完整,关键字段的缺失值比例在合理范围内。 |
| 7. 一致性 | 数据在整个集合中保持格式、单位、术语、分类标准等的统一。 |
| 8. 真实性 | 非合成数据能追溯到采集源头;合成数据能追溯生成算法和过程,且符合目标场景的真实分布规律。 |
这是评定最终奖项的核心依据,重点评估数据对AI模型训练与产业应用的实际贡献。
| 核心指标 | 评判标准 |
|---|---|
| 9. 稀缺性与价值 | (核心) 数据是否难以通过公开渠道获取?是否锚定产业痛点、具备高商业应用价值? |
| 10. 知识密度 | (核心) 数据是否蕴含丰富的行业知识、逻辑关系或推理链条?是否为"行业专识"而非"通识"数据集? |
| 11. 标注质量 | (针对已标注数据) 标注是否精准、规范?是否采用多模态、思维链等高级标注方法? |
| 12. 多样性与均衡性 | 数据是否覆盖多场景、多类别,特别是边缘案例 (Edge Cases)?类别分布是否相对均衡? |
| 13. 时效性 | 数据的采集时间和更新频率是否满足目标应用场景的要求? |
一份没有"说明书"的数据,价值将大打折扣。规范的文档是高质量的必要组成部分。
| 核心指标 | 评判标准 |
|---|---|
| 14. 元数据完整性 | 必须提供清晰的元数据,包括:数据集规模、格式、采集方法、时间范围、地理覆盖、更新频率等。 |
| 15. 数据字典清晰度 | 必须提供详细的数据字典,解释每个字段的名称、数据类型、单位、含义及枚举值。 |
| 16. 格式规范性 | 数据应采用行业通用的、机器可读的标准格式(如CSV, JSON, Parquet等),便于用户直接使用。 |
所有奖项均在通过"维度一"合规审核的数据集中评选产生。
| 核心指标 | 百强先锋奖 | 三强巅峰奖 |
|---|---|---|
| 稀缺性与价值 | 高价值、较稀缺。 数据集针对明确的行业痛点,具有很高的商业应用潜力,且难以通过常规公开渠道获取。 | 独家性、决定性价值。 数据集具有独家性或极高的获取壁垒。它不仅能解决当前问题,更有可能开创新的应用场景或商业模式。 |
| 知识密度 | 行业通识级。 数据集蕴含丰富的行业通用知识和逻辑,是构建强大行业模型所必需的"高质量燃料"。 | 行业专识级、含推理链。 数据集包含深度的领域专业知识、复杂的逻辑关系甚至是"思维链"过程,能让模型学会"推理"。 |
| 标注质量 | 专业级精准。 (针对已标注数据) 标注精准、一致性高,由专业人员完成,能够满足主流AI任务的需求。 | 专家级/开拓性标注。 (针对已标注数据) 标注极其精细,由多位领域专家交叉验证,或包含复杂、前沿的标注类型。 |
| 多样性与均衡性 | 覆盖广泛。 数据全面覆盖了目标场景下的常见情况和一部分边缘案例,类别分布合理。 | 极限工况、高度鲁棒。 数据刻意、大量地包含了极其罕见但至关重要的边缘案例,能极大提升模型的鲁棒性。 |
| 时效性 | 高时效性。 数据是近期的,能够反映当前或近期的真实业务状况。 | 实时性/高频更新。 数据具有很强的时效性,可能是实时产生或高频更新的,对预测类模型价值巨大。 |
所有提交的数据集将经过专家评审团的严格评审,评审工作将于2026.01.03 - 2026.01.13进行
我们将在公布时间准时发布最终获奖名单
苏州市人工智能重点实验室主任助理、北京大学大数据分析与应用技术国家工程实验室大数据分析技术创新中心主任
主要研究方向是智能化治理、下一代人工智能、数据要素运营等,具有丰富大数据、人工智能及智慧城市顶层设计和落地实施经验。中国大数据产业发展指数、中国数字经济产业发展指数总负责人,参与多项科技部重点研发计划、重大专项,取得发明专利及软著20余项。
先后参与负责北京市海淀区、东城区、经济开发区、上海化工区、江苏盐城、苏州吴江区、安徽合肥、宁夏银川、云南玉溪、贵州黔西南等地大数据和智慧城市顶层设计咨询和项目落地;以及国家开发银行、全国煤炭交易中心、北京一卡通、安徽交控集团、方正信产等大型国企的数字化转型总体设计和技术支撑。