全国政策结构化训练数据集

本数据集包含全国四级政府万余官网公开发布的近百万条政策文本及条款关联。通过深度清洗、结构化重构及行业知识标注,将分散非结构化文本转化为高质量机器可读语料。直击政策获取难、理解门槛高、标注难度大三大痛点,有效抑制AI“幻觉”并消除信息差,可直接用于政务垂直大模型训练、智能政策匹配与服务、产业分析与宏观研判、供应链管理与风险预测、产品规划与市场策略调整以及合规检索与风控等应用场景

行业:
制造、金融、政务服务、社会治理、法律
国标分类:
行业专识数据集
36
59
2026-03-04

数据集介绍

数据属性

数据模态
文本
数据格式
CSV JSON TXT
记录数/样本数
1880000条纪录
文件数量
1880000个文件
总大小
3TB
数据语言
中文简体
地理覆盖范围
中国大陆
时间覆盖范围
2021年至今
数据更新频率
每日
数据采集方式
公开网络爬取 线下采集
预期用途
预训练 微调 评估
标注状态
部分标注
标注类型
分类标签 关键点标注 关系标注 文本实体识别(NER) 文本情感分类 意图识别 思维链(CoT)标注
数 据 驱 动 未 来
Data Drives The Future
0512-88869195
客服微信二维码

微信扫码,咨询客服

数 据 驱 动 未 来
Data Drives The Future