通用型中文指令式大模型训练数据集

约 519,000 条 (519k) 样本 每条样本为一个 “指令 (instruction) → 输出 (output)” 对,应对各类自然语言任务,例如翻译、文本生成、编辑、数学、逻辑判断、写作等。

行业:
人工智能
国标分类:
通识数据集
39
75
2025-12-03

数据集介绍

数据属性

数据模态
文本
数据格式
CSV
记录数/样本数
约 519,000 条
文件数量
1
总大小
200MB
地理覆盖范围
中国大陆
时间覆盖范围
不涉及
数据更新频率
静态(不再更新)
数据采集方式
公开网络爬取 公共数据集获取
预期用途
预训练 微调
标注状态
完全未标注
数 据 驱 动 未 来
Data Drives The Future
0512-88869195
客服微信二维码

微信扫码,咨询客服

数 据 驱 动 未 来
Data Drives The Future