数据集聚焦 “自然语言 Python 问题 - 代码” 匹配场景,包含 13000 + 条唯一数据样本,核心由 “人类易懂的 Python 问题描述” 和 “对应可执行的 Python 代码” 两列构成。数据覆盖多样化的 Python 编程问题场景,标注精准且无重复样本,专为大语言模型(LLM)的 Python 代码相关能力训练打造,可直接用于模型的训练、微调与效果验证。
教育
文本
表格
本数据集含10000 张验证码图片,每张图片对应10 位随机字符串,文件名即为验证码文本标注,无需额外标签。验证码字符颜色随机、对齐随机,贴近真实场景。数据规范、质量稳定,可直接用于验证码识别、OCR 模型训练、字符检测与算法验证,使用便捷、适用性广。
教育
图像
本数据集包含10000条以上零售业务交易记录,涵盖详细的销售信息,核心包括营收、成本、利润、商品类别、客户细分及支付方式等关键维度,数据完整且贴合零售业务场景。该数据集非常适用于:商业智能项目、Power BI和Tableau仪表盘制作、销售业绩分析、盈利能力分析、机器学习实践,为各类相关任务及商业决策提供精准、实用的基础数据支撑。
消费
表格
航空业是全球成本最高的行业之一。理解航线特征、运营成本与盈利能力之间的关系,对航线网络规划、机队优化和收益管理至关重要。本数据集模拟了一家以迪拜(DXB)为枢纽的中东大型航空公司一整年的航班级财务数据,涵盖 30 条航线,包括短途、中途和长途航线。可用于航司收益管理建模、航线效益评估与枢纽网络运营优化等研究与决策场景。
交通
文本
表格
社交媒体俚语与表情符号情感数据集,含 14,000 条标注样本,分积极、消极、中性、讽刺 4 类。核心字段为 text 和 label,以 CSV 格式存储,融入表情符号、俚语等噪声,适配多类建模方法,可用于情感分析、讽刺检测、模型微调及学术与工业应用,聚焦模型鲁棒性。
教育
文本
表格
数据集包含了16年多(2010-2026年)标普500指数中按市值排名前10的公司的每日股市数据。涵盖历史开盘价、最高价、最低价、收盘价和成交量(OHLCV)数据,并经过精心清洗和结构化处理,适用于数据分析、机器学习和金融预测。可为量化策略回测、股价趋势预测与投资风险建模提供高质量实证数据支撑。
金融
文本
表格
该数据集涵盖2008-2025年共18年,记录了美国前1000个城市对市场的季度平均国内机票价格。涵盖了2008年金融危机复苏、燃油价格波动、新冠疫情兴衰及疫情后票价通胀等行业重大事件,全面反映美国国内航空票价的长期变化趋势。可为航空出行成本预测、机票定价策略优化及旅游消费趋势分析提供数据支撑。
交通
表格
创业公司融资与成功数据集包含全球多个国家、不同行业的20万家创业公司详细信息,涵盖融资历史、财务表现、增长指标、估值及退出结果等核心内容。数据集为CSV格式,共20万行、18列,可用性满分,采用CC0公有领域协议,专为机器学习、财务分析、投资研究等场景设计,助力探索创业公司成功与失败的关键影响因素。
金融
表格
2024-2026年期间,全球贸易遭遇了前所未有的波动性。从不断变化的地缘政治联盟,到气候变化引发的极端天气模式,物流从业者需要努力维持“准时制”效率。本数据集包含5000条国际运输记录,模拟了现代全球供应链中固有的复杂、非线性风险。支持供应链韧性评估、物流风险预警算法与智能调度模型的训练与验证。
交通
文本
表格
游戏与心理健康行为数据集,是一个面向行为科学、心理健康与游戏分析领域的大规模合成数据集,旨在为相关研究提供标准化、规模化的数据源支持,助力探索游戏行为与个体身心健康、社会生活等维度的关联。
教育
文本
表格
本数据集包含全国四级政府万余官网公开发布的近百万条政策文本及条款关联。通过深度清洗、结构化重构及行业知识标注,将分散非结构化文本转化为高质量机器可读语料。直击政策获取难、理解门槛高、标注难度大三大痛点,有效抑制AI“幻觉”并消除信息差,可直接用于政务垂直大模型训练、智能政策匹配与服务、产业分析与宏观研判、供应链管理与风险预测、产品规划与市场策略调整以及合规检索与风控等应用场景
其他
文本
本数据集收录国家官方公开的强制性国家标准(GB)结构化元数据,包含标准号、中英文名称、实施状态、CCS/ICS 分类、发布与实施日期、主管部门、采标信息等。覆盖即将实施、现行、废止三类标准,数据合规、干净、可直接用于行业大模型训练、合规检索、政策分析等场景。
其他
文本
表格
本数据集是一个面向分析实践的超市销售交易样本数据。其系统记录了从订单生成、商品定价、税费计算到最终收款的全流程关键信息,包括订单日期、顾客姓名、零售价格、数量、税费及订单总额。其核心设计目标是服务于销售绩效分析、收入结构解读与顾客行为洞察,为进行时间序列分析、财务报表模拟及客户细分等任务提供真实、结构化的数据基础,适用于数据分析教学、可视化仪表板开发以及入门至中级的预测建模项目。
消费
图像
表格
本数据集是一个高质量、规模达3万条记录的合成数据集,专为模拟和研究AI驱动的自动化简历筛选流程而设计。它系统地整合了候选人的工作经验、技能匹配度、教育背景、项目经历及简历质量等多维度特征,并包含一个基于综合评估生成的二元目标变量(是否通过筛选)。该数据集以逻辑关联模拟真实招聘模式,非常适合用于开发简历筛选的分类模型、分析招聘决策中的特征重要性,以及研究算法公平性与潜在偏见。
人力资源
图像
表格
本数据集是涵盖2018至2026年的全球运动鞋零售综合数据集,聚焦多品牌运动鞋销售动态、定价策略与消费者行为,整合6个全球知名运动鞋品牌的真实化数据,覆盖全球多个国家。数据集包含超3万条记录,涵盖订单、品牌、定价、消费者、销售渠道等多维度核心字段,专为探索性数据分析、销售预测及机器学习任务设计,可全面支撑趋势分析、需求预测、消费者洞察等研究,为零售行业决策提供真实、全面的标准化数据支撑。
消费
图像
表格
本数据集专为零售分析、机器学习与深度学习实验而设计,是一个合成但贴近现实的模拟数据集。它包含1.5万行数据,模拟了一个虚构零售连锁店的每日产品级销售快照,涵盖定价、促销、门店客流量、竞争情况、库存水平及顾客行为等11个具有非线性依赖关系的数值特征。该数据集通过引入相关性、季节性与复杂交互,真实模拟了销售动态,非常适合用于回归预测、自监督学习、特征工程探索以及异常检测等任务。
消费
图像
表格
本数据集通过整合客户档案、产品属性(类别、品牌、规格)、多层级的门店与区域地理位置信息,以及销售额、利润率、折扣金额等核心财务指标,系统地构建了零售交易的多维度全景视图。它旨在为深入的探索性数据分析提供坚实基础,使分析者能够有效揭示跨产品线与地域的销售周期性规律、不同客群的购买偏好与价值贡献结构、高利润产品的驱动因素,并识别潜在的市场细分机会,为库存优化、精准营销及区域战略提供数据驱动的决策支持。
金融
图像
表格
本数据集是一个整合了奥运成绩与社会经济指标的国家级面板数据,涵盖1960-2016年各夏季奥运会参与国。其核心在于通过每运动员奖牌数等效率指标,结合世界银行提供的同期人口、人均GDP等数据,构建了一个公平评估不同规模国家奥运产出的分析框架。本数据集为探究国家资源投入与体育产出的关系、识别高效体育体系、构建奖牌预测模型提供了结构严谨、干净可用的数据基础,是体育经济学与数据科学交叉研究的理想工具。
其他
图像
表格
本数据集包含1000条完整记录与13个特征变量,旨在量化分析影响程序员效率的多维因素。数据高度模拟了现代开发者的真实工作场景,核心变量包括传统的编码时长、代码行数和Bug数量,并纳入了AI使用时长、认知负荷、睡眠时长与压力水平等关键影响因子。该数据集结构纯净、无缺失值、规模适中,是进行相关性研究、回归分析与生产力预测模型构建的理想资源,适用于探究技术工具与个体状态如何共同塑造开发效率。
其他
图像
表格
本数据集完整记录了客户的国家、年龄、薪资与购买决策信息,为数据科学实践提供了典型样本。它适用于从数据清洗(如处理缺失薪资、编码国家变量)到探索性分析(如洞察不同年龄段购买力)的全流程学习。在此基础上,数据可直接用于构建分类模型(如逻辑回归、决策树),以客户特征预测购买行为,帮助初学者掌握监督式机器学习从特征工程、模型训练到评估优化的完整流程。其结构清晰、规模适中,是理想的入门实践材料。
消费
图像
表格
本数据集为合成生成的匿名数据集,旨在分析社交媒体使用行为与个人健康、福祉及生产力的关联。它模拟了全球不同年龄与国家用户的数字习惯,核心变量涵盖使用时长、平台偏好、夜间使用等行为指标,以及成瘾水平、焦虑抑郁评分、睡眠质量与生产力影响等心理与功能指标。数据集以成瘾评分为目标变量,构建了从行为到结果的完整分析链,在保护隐私的前提下模拟现实趋势,适用于探索性分析、模式挖掘、心理健康相关性研究及预测建模。
社会治理
图像
表格
数据集聚焦 “自然语言 Python 问题 - 代码” 匹配场景,包含 13000 + 条唯一数据样本,核心由 “人类易懂的 Python 问题描述” 和 “对应可执行的 Python 代码” 两列构成。数据覆盖多样化的 Python 编程问题场景,标注精准且无重复样本,专为大语言模型(LLM)的 Python 代码相关能力训练打造,可直接用于模型的训练、微调与效果验证。
教育
文本
表格
本数据集含10000 张验证码图片,每张图片对应10 位随机字符串,文件名即为验证码文本标注,无需额外标签。验证码字符颜色随机、对齐随机,贴近真实场景。数据规范、质量稳定,可直接用于验证码识别、OCR 模型训练、字符检测与算法验证,使用便捷、适用性广。
教育
图像
本数据集包含10000条以上零售业务交易记录,涵盖详细的销售信息,核心包括营收、成本、利润、商品类别、客户细分及支付方式等关键维度,数据完整且贴合零售业务场景。该数据集非常适用于:商业智能项目、Power BI和Tableau仪表盘制作、销售业绩分析、盈利能力分析、机器学习实践,为各类相关任务及商业决策提供精准、实用的基础数据支撑。
消费
表格
航空业是全球成本最高的行业之一。理解航线特征、运营成本与盈利能力之间的关系,对航线网络规划、机队优化和收益管理至关重要。本数据集模拟了一家以迪拜(DXB)为枢纽的中东大型航空公司一整年的航班级财务数据,涵盖 30 条航线,包括短途、中途和长途航线。可用于航司收益管理建模、航线效益评估与枢纽网络运营优化等研究与决策场景。
交通
文本
表格
社交媒体俚语与表情符号情感数据集,含 14,000 条标注样本,分积极、消极、中性、讽刺 4 类。核心字段为 text 和 label,以 CSV 格式存储,融入表情符号、俚语等噪声,适配多类建模方法,可用于情感分析、讽刺检测、模型微调及学术与工业应用,聚焦模型鲁棒性。
教育
文本
表格
数据集包含了16年多(2010-2026年)标普500指数中按市值排名前10的公司的每日股市数据。涵盖历史开盘价、最高价、最低价、收盘价和成交量(OHLCV)数据,并经过精心清洗和结构化处理,适用于数据分析、机器学习和金融预测。可为量化策略回测、股价趋势预测与投资风险建模提供高质量实证数据支撑。
金融
文本
表格
该数据集涵盖2008-2025年共18年,记录了美国前1000个城市对市场的季度平均国内机票价格。涵盖了2008年金融危机复苏、燃油价格波动、新冠疫情兴衰及疫情后票价通胀等行业重大事件,全面反映美国国内航空票价的长期变化趋势。可为航空出行成本预测、机票定价策略优化及旅游消费趋势分析提供数据支撑。
交通
表格
创业公司融资与成功数据集包含全球多个国家、不同行业的20万家创业公司详细信息,涵盖融资历史、财务表现、增长指标、估值及退出结果等核心内容。数据集为CSV格式,共20万行、18列,可用性满分,采用CC0公有领域协议,专为机器学习、财务分析、投资研究等场景设计,助力探索创业公司成功与失败的关键影响因素。
金融
表格
2024-2026年期间,全球贸易遭遇了前所未有的波动性。从不断变化的地缘政治联盟,到气候变化引发的极端天气模式,物流从业者需要努力维持“准时制”效率。本数据集包含5000条国际运输记录,模拟了现代全球供应链中固有的复杂、非线性风险。支持供应链韧性评估、物流风险预警算法与智能调度模型的训练与验证。
交通
文本
表格
游戏与心理健康行为数据集,是一个面向行为科学、心理健康与游戏分析领域的大规模合成数据集,旨在为相关研究提供标准化、规模化的数据源支持,助力探索游戏行为与个体身心健康、社会生活等维度的关联。
教育
文本
表格
本数据集包含全国四级政府万余官网公开发布的近百万条政策文本及条款关联。通过深度清洗、结构化重构及行业知识标注,将分散非结构化文本转化为高质量机器可读语料。直击政策获取难、理解门槛高、标注难度大三大痛点,有效抑制AI“幻觉”并消除信息差,可直接用于政务垂直大模型训练、智能政策匹配与服务、产业分析与宏观研判、供应链管理与风险预测、产品规划与市场策略调整以及合规检索与风控等应用场景
其他
文本
本数据集收录国家官方公开的强制性国家标准(GB)结构化元数据,包含标准号、中英文名称、实施状态、CCS/ICS 分类、发布与实施日期、主管部门、采标信息等。覆盖即将实施、现行、废止三类标准,数据合规、干净、可直接用于行业大模型训练、合规检索、政策分析等场景。
其他
文本
表格
本数据集是一个面向分析实践的超市销售交易样本数据。其系统记录了从订单生成、商品定价、税费计算到最终收款的全流程关键信息,包括订单日期、顾客姓名、零售价格、数量、税费及订单总额。其核心设计目标是服务于销售绩效分析、收入结构解读与顾客行为洞察,为进行时间序列分析、财务报表模拟及客户细分等任务提供真实、结构化的数据基础,适用于数据分析教学、可视化仪表板开发以及入门至中级的预测建模项目。
消费
图像
表格
本数据集是一个高质量、规模达3万条记录的合成数据集,专为模拟和研究AI驱动的自动化简历筛选流程而设计。它系统地整合了候选人的工作经验、技能匹配度、教育背景、项目经历及简历质量等多维度特征,并包含一个基于综合评估生成的二元目标变量(是否通过筛选)。该数据集以逻辑关联模拟真实招聘模式,非常适合用于开发简历筛选的分类模型、分析招聘决策中的特征重要性,以及研究算法公平性与潜在偏见。
人力资源
图像
表格
本数据集是涵盖2018至2026年的全球运动鞋零售综合数据集,聚焦多品牌运动鞋销售动态、定价策略与消费者行为,整合6个全球知名运动鞋品牌的真实化数据,覆盖全球多个国家。数据集包含超3万条记录,涵盖订单、品牌、定价、消费者、销售渠道等多维度核心字段,专为探索性数据分析、销售预测及机器学习任务设计,可全面支撑趋势分析、需求预测、消费者洞察等研究,为零售行业决策提供真实、全面的标准化数据支撑。
消费
图像
表格
本数据集专为零售分析、机器学习与深度学习实验而设计,是一个合成但贴近现实的模拟数据集。它包含1.5万行数据,模拟了一个虚构零售连锁店的每日产品级销售快照,涵盖定价、促销、门店客流量、竞争情况、库存水平及顾客行为等11个具有非线性依赖关系的数值特征。该数据集通过引入相关性、季节性与复杂交互,真实模拟了销售动态,非常适合用于回归预测、自监督学习、特征工程探索以及异常检测等任务。
消费
图像
表格
本数据集通过整合客户档案、产品属性(类别、品牌、规格)、多层级的门店与区域地理位置信息,以及销售额、利润率、折扣金额等核心财务指标,系统地构建了零售交易的多维度全景视图。它旨在为深入的探索性数据分析提供坚实基础,使分析者能够有效揭示跨产品线与地域的销售周期性规律、不同客群的购买偏好与价值贡献结构、高利润产品的驱动因素,并识别潜在的市场细分机会,为库存优化、精准营销及区域战略提供数据驱动的决策支持。
金融
图像
表格
本数据集是一个整合了奥运成绩与社会经济指标的国家级面板数据,涵盖1960-2016年各夏季奥运会参与国。其核心在于通过每运动员奖牌数等效率指标,结合世界银行提供的同期人口、人均GDP等数据,构建了一个公平评估不同规模国家奥运产出的分析框架。本数据集为探究国家资源投入与体育产出的关系、识别高效体育体系、构建奖牌预测模型提供了结构严谨、干净可用的数据基础,是体育经济学与数据科学交叉研究的理想工具。
其他
图像
表格
本数据集包含1000条完整记录与13个特征变量,旨在量化分析影响程序员效率的多维因素。数据高度模拟了现代开发者的真实工作场景,核心变量包括传统的编码时长、代码行数和Bug数量,并纳入了AI使用时长、认知负荷、睡眠时长与压力水平等关键影响因子。该数据集结构纯净、无缺失值、规模适中,是进行相关性研究、回归分析与生产力预测模型构建的理想资源,适用于探究技术工具与个体状态如何共同塑造开发效率。
其他
图像
表格
本数据集完整记录了客户的国家、年龄、薪资与购买决策信息,为数据科学实践提供了典型样本。它适用于从数据清洗(如处理缺失薪资、编码国家变量)到探索性分析(如洞察不同年龄段购买力)的全流程学习。在此基础上,数据可直接用于构建分类模型(如逻辑回归、决策树),以客户特征预测购买行为,帮助初学者掌握监督式机器学习从特征工程、模型训练到评估优化的完整流程。其结构清晰、规模适中,是理想的入门实践材料。
消费
图像
表格
本数据集为合成生成的匿名数据集,旨在分析社交媒体使用行为与个人健康、福祉及生产力的关联。它模拟了全球不同年龄与国家用户的数字习惯,核心变量涵盖使用时长、平台偏好、夜间使用等行为指标,以及成瘾水平、焦虑抑郁评分、睡眠质量与生产力影响等心理与功能指标。数据集以成瘾评分为目标变量,构建了从行为到结果的完整分析链,在保护隐私的前提下模拟现实趋势,适用于探索性分析、模式挖掘、心理健康相关性研究及预测建模。
社会治理
图像
表格