【数据启元计划】征集高质量AI数据集_提供数据集下载试用_聚合数据

精选
大学物理四大力学高阶数据集

该数据集系统覆盖现代物理理论的四大核心支柱（量子力学、电动力学、热力学统计物理、分析力学），是物理学中抽象程度最高、推理链条最长、数学结构最复杂的一类问题集合。其核心价值在于为 AI 提供科研级理论物理推理样本，解决模型在变分原理、算符形式主义、统计系综、电磁场理论等方面的能力缺失。典型应用于科研型 AI、理论物理辅助系统以及高端 AI for Science 模型的能力上限探索。

教育

文本

363

精选
合金合成数据集

本数据集涵盖Cu-Ni-Co-Si、Cu-Fe-P、Cu-Cr-Zr等多个合金体系数据，按照成分配比、生产工艺、材料性能、微观结构的全链路关联主线，结构化收录了化学成分、工艺参数、显微组织特征及力学与物理性能等关键维度，有效解决了该领域实验数据分散、整合成本高的痛点，可为机器学习与材料计算提供高质量、即用型的数据集，直接支撑合金设计、性能预测与工艺优化等AI研发场景。

制造

文本

938

精选
大学物理经典习题数据集

本数据集精选大学阶段普通物理经典习题，系统覆盖力学、热学、电磁学、振动与波、光学等内容，是高中物理向理论物理与工程物理过渡的关键桥梁。其核心价值在于提供“物理建模 → 数学表达 → 定量求解 → 物理意义解释”的完整推理样本，弥补模型在高于中学、低于专业理论物理层级的物理理解断层。典型应用于 AI 物理解题、科学推理模型训练、AI for Science 基础能力构建以及物理教育智能系统。

教育

文本

359

精选
高中物理基础建模数据集

本数据集系统覆盖高中物理的力学、电磁学、热学与光学等核心模块，其题目设计强调物理建模、定量计算与物理意义分析。核心价值在于为AI提供大量从实际情境抽象为数学模型，再经数学推导求解的完整样本，专门针对模型在理解物理概念本质、判断公式适用条件及执行严谨多步计算等方面的短板进行训练。该数据集适用于开发专用物理解题模型、构建智能AI物理教辅系统，以及对通用大模型进行物理世界建模与科学推理能力的专项增强。

教育

文本

328

世界各地食物的营养成分数据集

这不仅仅是一个数据集；它是一个鲜活的、不断发展的项目，在健康、营养和可持续发展领域有着切实的应用。无论您对营养、供应链还是食品对环境的影响感兴趣，您都有能力做出改变。

消费

文本

938

精选
高中数学核心题型数据集

本数据集系统收录高中阶段数学核心题型，覆盖函数、数列、立体几何、解析几何、概率统计等高频与难点内容，完整体现高中数学的知识结构与解题逻辑。其核心价值在于为大模型提供结构化、层次清晰的基础数学推理样本，解决模型在基础数学理解、符号运算、逻辑推导与规范解题表达方面能力不足的问题。典型应用场景包括智能题库生成、AI 数学辅导、教育大模型预训练与对齐，以及通用推理模型的基础数学能力增强。

教育

文本

396

慢性肾病风险数据集（2026）

数据集为20万条合成电子健康记录，基于流行病学研究、国际临床指南及同行评审肾脏病学文献设计，包含人口统计、生活方式、临床检验、治疗路径及医疗资源利用等82个临床特征，可用于构建疾病风险预测与进展分析模型，适用于慢性肾病风险预测、疾病分类及医疗机器学习研究等场景。

医疗

表格

0

糖尿病医院再入院数据集

数据集为1999至2008年间美国130家医院糖尿病患者的临床记录，包含超过10万条患者就诊记录及50个属性特征，可用于构建再入院预测分类模型，辅助识别高风险糖尿病患者，适用于再入院风险预测、临床特征分析及医疗机器学习教学等场景。

医疗

表格

0

大模型基准评测与API定价数据集

数据集基于公开评测榜单、厂商模型卡片整理的大模型截面表格数据集，收录34款主流大模型评测得分、API调用价格、上下文窗口、多模态、开源属性等指标，适配大模型性价比对比、模型选型推荐建模、前沿LLM横向对比、AI算力采购分析教学实训。适用于大模型选型决策、生成式AI成本优化、LLM性能评测研究场景。

其他

表格

0

大模型与生成式AI使用行为分析数据集

数据集为人工合成企业大模型调用单表表格数据集，覆盖千条企业用户与LLM交互仿真记录，包含大模型名称、业务领域、任务类型多分类标签，以响应成功与否作为二分类目标，配套延迟、Token消耗、幻觉、调用成本、满意度量化指标，适配大模型服务稳定性预测、幻觉风险识别、API成本优化、AI业务BI可视化教学实训。适用于企业大模型运维分析、生成式 AI用户行为建模、LLM推理性能优化场景。

其他

表格

0

光子AI加速器与GPU对比数据集

数据集基于芯片厂商白皮书、学术论文公开参数整理的AI芯片硬件截面表格数据集，收录2020–2025年17款光子/电子AI加速芯片完整硬件指标，包含算力、能效、精度、显存、工艺、芯片类型分类标签，自带大量厂商未披露指标空值，适配光计算与传统GPU性能对比、AI芯片能效回归、硬件EDA分析、半导体科研教学实训。适用于光电计算硬件对比、大模型算力硬件选型、半导体AI芯片性能分析场景。

其他

表格

0

2026世界杯赛事概况赛果统计数据集

数据集基于FotMob API公开接口抓取的多文件夹异构体育赛事数据集，包含3份CSV对照表+1396份JSON原始赛事文件，覆盖48支球队、1243名球员、104场赛程的小组分组、赛场事件、攻防数据、球员生涯表现、球队排名全维度指标，结构化表格+半结构化JSON双格式，适配足球赛事数据工程、球队球员表现分类、赛事胜负回归。适用于足球赛事统计建模、体育数据仓库开发、世界杯赛事趋势分析场景。

其他

表格

其他

0

2026版谷歌应用商店数据集

数据集为人工合成移动端应用市场单表表格数据集，共11500款2026年安卓应用仿真样本，覆盖应用分类、题材、评分、下载量、付费模式、内购 / 广告商业化、系统适配全维度指标，适配应用市场热度回归、付费应用转化分类、品类用户画像、移动端BI可视化教学实训。适用于移动互联网市场分析、APP推荐系统建模、应用商业化策略研究场景。

消费

表格

0

全维度航天任务与运载火箭数据集

数据集多表关联航天科技时序表格数据集，4份CSV关联业务表，覆盖60余年航天发射记录、火箭硬件参数、航天AI应用、全球航天产业年度经济指标，自带时序、分类标签，适配火箭可靠性二分类、航天产业时序预测、航天AI落地统计、航天行业BI可视化教学实训。适用于航天工程数据分析、商业航天宏观时序建模、太空科技科研场景。

其他

时序

表格

0

AMD每日股价历史数据集

数据集基于雅虎财经公开行情整理的美股金融时序表格数据集，覆盖1980–2026超长日线交易记录，包含标准OHLCV行情、复权价格、分红、拆股时序指标，适配量化策略回测、股价时序预测、波动率收益分析、金融时序可视化教学实训。适用于半导体行业量化建模、美股时序机器学习、量化交易策略研发场景。

金融

时序

表格

0

2026国际货币基金组织全球经济GDP数据集

数据集基于IMF公开宏观统计数据清洗整理的宏观经济截面表格数据集，覆盖218个国家及地区2026年单年度GDP静态指标，包含国家多分类标签、GDP总量/人均连续数值、经济增速与数据质量标记字段，自带原始数据源损坏缺失样本，适配宏观经济回归建模、跨国经济对比、数据清洗审计实训。适用于宏观经济学科研、跨国市场规模测算、宏观特征机器学习场景。

金融

表格

0

AI生成文本与人写文本对比数据集

数据集为人工合成多格式NLP文本表格数据集，提供CSV/XLSX双格式主表，覆盖科技/医疗/金融/新闻等多领域仿真文本，附带可读性、原创度、词句统计等语言学元数据，核心二元标签区分AI生成/人工撰写文本，适配AI内容检测二分类、文体计量分析、大模型评测、NLP特征工程教学实训。适用于大模型文本鉴伪、自然语言分类、提示词工程、学术AI检测科研场景。

其他

文本

表格

0

2026信用卡欺诈检测数据集

数据集为人工合成金融风控结构化表格数据集，共20000条信用卡仿真交易样本，全部字段为可读业务风控指标，内置AI诈骗、3D验证、VPN、加密货币商户等2026新型欺诈场景，欺诈样本占比1.7%天然类别不平衡，适配金融欺诈二分类建模、不平衡样本算法、风控特征工程教学实训。适用于银行支付风控建模、金融反欺诈机器学习、不平衡样本算法对比场景。

金融

表格

0

CRM销售线索与客户数据集

数据集为人工合成客户关系管理多文件数据库数据集，内置SQLite业务库、建表SQL、Python分析脚本、说明文档，包含销售线索、存量客户双关联数据表，适配 SQL实操、销售漏斗分析、客户分层、BI可视化教学实训。适用于企业CRM经营数据分析、SQL多表联查、销售线索转化建模场景。

消费

文本

0

2026校园就业预测数据集

数据集为人工合成高校工科求职单表表格数据集，共20000条学生仿真截面样本，包含学业成绩、编程刷题、实习项目、AI技能多分类标签，以是否拿到offer、入职薪资分别作为二分类、回归建模目标，适配校园就业预测、应届生薪资预估、学生能力特征工程教学实训。适用于高校就业数据分析、校园机器学习、学生求职画像分析场景。

教育

表格

0

电商产品智能分析数据集

数据集为人工合成多表关联电商时序表格数据集，6份CSV关联业务表，覆盖3.5年完整用户时序行为，包含用户画像、商品类目、浏览会话、6类交互、订单、评价文本全维度指标，内置冷启动样本、NLP文本、用户行为链路，适配推荐系统、图机器学习、用户分群、商品销量时序预测、评论情感NLP教学实训。适用于电商推荐算法研发、用户生命周期运营、电商NLP舆情分析、时序营收预测场景。

消费

表格

9

精选 大学物理四大力学高阶数据集

精选 合金合成数据集

精选 大学物理经典习题数据集

精选 高中物理基础建模数据集

世界各地食物的营养成分数据集

精选 高中数学核心题型数据集

慢性肾病风险数据集（2026）

糖尿病医院再入院数据集

大模型基准评测与API定价数据集

大模型与生成式AI使用行为分析数据集

光子AI加速器与GPU对比数据集

2026世界杯赛事概况赛果统计数据集

2026版谷歌应用商店数据集

全维度航天任务与运载火箭数据集

AMD每日股价历史数据集

2026国际货币基金组织全球经济GDP数据集

AI生成文本与人写文本对比数据集

2026信用卡欺诈检测数据集

CRM销售线索与客户数据集

2026校园就业预测数据集

电商产品智能分析数据集

精选 大学物理四大力学高阶数据集

精选 合金合成数据集

精选 大学物理经典习题数据集

精选 高中物理基础建模数据集

世界各地食物的营养成分数据集

精选 高中数学核心题型数据集

慢性肾病风险数据集（2026）

糖尿病医院再入院数据集

大模型基准评测与API定价数据集

大模型与生成式AI使用行为分析数据集

光子AI加速器与GPU对比数据集

2026世界杯赛事概况赛果统计数据集

2026版谷歌应用商店数据集

全维度航天任务与运载火箭数据集

AMD每日股价历史数据集

2026国际货币基金组织全球经济GDP数据集

AI生成文本与人写文本对比数据集

2026信用卡欺诈检测数据集

CRM销售线索与客户数据集

2026校园就业预测数据集

电商产品智能分析数据集

精选
大学物理四大力学高阶数据集

精选
合金合成数据集

精选
大学物理经典习题数据集

精选
高中物理基础建模数据集

精选
高中数学核心题型数据集

精选
大学物理四大力学高阶数据集

精选
合金合成数据集

精选
大学物理经典习题数据集

精选
高中物理基础建模数据集

精选
高中数学核心题型数据集