社交媒体俚语与表情符号情感数据集,含 14,000 条标注样本,分积极、消极、中性、讽刺 4 类。核心字段为 text 和 label,以 CSV 格式存储,融入表情符号、俚语等噪声,适配多类建模方法,可用于情感分析、讽刺检测、模型微调及学术与工业应用,聚焦模型鲁棒性。
教育
文本
表格
数据集包含了16年多(2010-2026年)标普500指数中按市值排名前10的公司的每日股市数据。涵盖历史开盘价、最高价、最低价、收盘价和成交量(OHLCV)数据,并经过精心清洗和结构化处理,适用于数据分析、机器学习和金融预测。可为量化策略回测、股价趋势预测与投资风险建模提供高质量实证数据支撑。
金融
文本
表格
该数据集涵盖2008-2025年共18年,记录了美国前1000个城市对市场的季度平均国内机票价格。涵盖了2008年金融危机复苏、燃油价格波动、新冠疫情兴衰及疫情后票价通胀等行业重大事件,全面反映美国国内航空票价的长期变化趋势。可为航空出行成本预测、机票定价策略优化及旅游消费趋势分析提供数据支撑。
交通
表格
创业公司融资与成功数据集包含全球多个国家、不同行业的20万家创业公司详细信息,涵盖融资历史、财务表现、增长指标、估值及退出结果等核心内容。数据集为CSV格式,共20万行、18列,可用性满分,采用CC0公有领域协议,专为机器学习、财务分析、投资研究等场景设计,助力探索创业公司成功与失败的关键影响因素。
金融
表格
2024-2026年期间,全球贸易遭遇了前所未有的波动性。从不断变化的地缘政治联盟,到气候变化引发的极端天气模式,物流从业者需要努力维持“准时制”效率。本数据集包含5000条国际运输记录,模拟了现代全球供应链中固有的复杂、非线性风险。支持供应链韧性评估、物流风险预警算法与智能调度模型的训练与验证。
交通
文本
表格
游戏与心理健康行为数据集,是一个面向行为科学、心理健康与游戏分析领域的大规模合成数据集,旨在为相关研究提供标准化、规模化的数据源支持,助力探索游戏行为与个体身心健康、社会生活等维度的关联。
教育
文本
表格
本数据集包含全国四级政府万余官网公开发布的近百万条政策文本及条款关联。通过深度清洗、结构化重构及行业知识标注,将分散非结构化文本转化为高质量机器可读语料。直击政策获取难、理解门槛高、标注难度大三大痛点,有效抑制AI“幻觉”并消除信息差,可直接用于政务垂直大模型训练、智能政策匹配与服务、产业分析与宏观研判、供应链管理与风险预测、产品规划与市场策略调整以及合规检索与风控等应用场景
其他
文本
本数据集收录国家官方公开的强制性国家标准(GB)结构化元数据,包含标准号、中英文名称、实施状态、CCS/ICS 分类、发布与实施日期、主管部门、采标信息等。覆盖即将实施、现行、废止三类标准,数据合规、干净、可直接用于行业大模型训练、合规检索、政策分析等场景。
其他
文本
表格
本数据集是一个面向分析实践的超市销售交易样本数据。其系统记录了从订单生成、商品定价、税费计算到最终收款的全流程关键信息,包括订单日期、顾客姓名、零售价格、数量、税费及订单总额。其核心设计目标是服务于销售绩效分析、收入结构解读与顾客行为洞察,为进行时间序列分析、财务报表模拟及客户细分等任务提供真实、结构化的数据基础,适用于数据分析教学、可视化仪表板开发以及入门至中级的预测建模项目。
消费
图像
表格
本数据集是一个高质量、规模达3万条记录的合成数据集,专为模拟和研究AI驱动的自动化简历筛选流程而设计。它系统地整合了候选人的工作经验、技能匹配度、教育背景、项目经历及简历质量等多维度特征,并包含一个基于综合评估生成的二元目标变量(是否通过筛选)。该数据集以逻辑关联模拟真实招聘模式,非常适合用于开发简历筛选的分类模型、分析招聘决策中的特征重要性,以及研究算法公平性与潜在偏见。
人力资源
图像
表格
本数据集是一个包含约5000条记录的综合性数据集,旨在全景式追踪与分析国际学生的流动轨迹与生涯发展。数据整合了学生从来源国、目的地与大学专业等起点信息,到入学年份、奖学金、成绩等学习过程指标,并延伸至毕业就业状态、起薪及签证转换等关键结果。通过覆盖留学决策、学业表现到职业开端的完整链条,本数据集为探究全球人才流动规律、评估教育政策成效以及理解个人背景与发展结果间的复杂关联提供了宝贵的实证研究基础。
教育
图像
表格
本数据集是涵盖2018至2026年的全球运动鞋零售综合数据集,聚焦多品牌运动鞋销售动态、定价策略与消费者行为,整合6个全球知名运动鞋品牌的真实化数据,覆盖全球多个国家。数据集包含超3万条记录,涵盖订单、品牌、定价、消费者、销售渠道等多维度核心字段,专为探索性数据分析、销售预测及机器学习任务设计,可全面支撑趋势分析、需求预测、消费者洞察等研究,为零售行业决策提供真实、全面的标准化数据支撑。
消费
图像
表格
本数据集专为零售分析、机器学习与深度学习实验而设计,是一个合成但贴近现实的模拟数据集。它包含1.5万行数据,模拟了一个虚构零售连锁店的每日产品级销售快照,涵盖定价、促销、门店客流量、竞争情况、库存水平及顾客行为等11个具有非线性依赖关系的数值特征。该数据集通过引入相关性、季节性与复杂交互,真实模拟了销售动态,非常适合用于回归预测、自监督学习、特征工程探索以及异常检测等任务。
消费
图像
表格
本数据集通过整合客户档案、产品属性(类别、品牌、规格)、多层级的门店与区域地理位置信息,以及销售额、利润率、折扣金额等核心财务指标,系统地构建了零售交易的多维度全景视图。它旨在为深入的探索性数据分析提供坚实基础,使分析者能够有效揭示跨产品线与地域的销售周期性规律、不同客群的购买偏好与价值贡献结构、高利润产品的驱动因素,并识别潜在的市场细分机会,为库存优化、精准营销及区域战略提供数据驱动的决策支持。
金融
图像
表格
本数据集是一个整合了奥运成绩与社会经济指标的国家级面板数据,涵盖1960-2016年各夏季奥运会参与国。其核心在于通过每运动员奖牌数等效率指标,结合世界银行提供的同期人口、人均GDP等数据,构建了一个公平评估不同规模国家奥运产出的分析框架。本数据集为探究国家资源投入与体育产出的关系、识别高效体育体系、构建奖牌预测模型提供了结构严谨、干净可用的数据基础,是体育经济学与数据科学交叉研究的理想工具。
其他
图像
表格
本数据集包含1000条完整记录与13个特征变量,旨在量化分析影响程序员效率的多维因素。数据高度模拟了现代开发者的真实工作场景,核心变量包括传统的编码时长、代码行数和Bug数量,并纳入了AI使用时长、认知负荷、睡眠时长与压力水平等关键影响因子。该数据集结构纯净、无缺失值、规模适中,是进行相关性研究、回归分析与生产力预测模型构建的理想资源,适用于探究技术工具与个体状态如何共同塑造开发效率。
其他
图像
表格
本数据集完整记录了客户的国家、年龄、薪资与购买决策信息,为数据科学实践提供了典型样本。它适用于从数据清洗(如处理缺失薪资、编码国家变量)到探索性分析(如洞察不同年龄段购买力)的全流程学习。在此基础上,数据可直接用于构建分类模型(如逻辑回归、决策树),以客户特征预测购买行为,帮助初学者掌握监督式机器学习从特征工程、模型训练到评估优化的完整流程。其结构清晰、规模适中,是理想的入门实践材料。
消费
图像
表格
本数据集为合成生成的匿名数据集,旨在分析社交媒体使用行为与个人健康、福祉及生产力的关联。它模拟了全球不同年龄与国家用户的数字习惯,核心变量涵盖使用时长、平台偏好、夜间使用等行为指标,以及成瘾水平、焦虑抑郁评分、睡眠质量与生产力影响等心理与功能指标。数据集以成瘾评分为目标变量,构建了从行为到结果的完整分析链,在保护隐私的前提下模拟现实趋势,适用于探索性分析、模式挖掘、心理健康相关性研究及预测建模。
社会治理
图像
表格
本数据集源自美国农业部经济研究局的权威调查,系统整理了美国小麦生产自1998、2004年等历史基准年份至今的纵向经济数据。它不仅提供了全国层面的趋势,更以细分维度详细呈现了不同产区的运营成本、间接成本以及总收益价值。该数据集以其精细的成本结构分解和长期的跨区域可比性,为农业政策的效果评估、生产投资的效益分析、农场管理的成本优化以及相关的学术经济研究提供了极为宝贵且可靠的量化基础。
农业
文本
图像
表格
本数据集是一个结构化、多源整合的教育研究数据集,收录了不同群体在阅读上的表现结果,并关联了丰富的人口统计学特征与关键背景环境因素。数据旨在探究年龄、性别、教育背景、家庭语言环境、阅读资源可及性和数字设备使用习惯等多元变量,如何单独或交互地影响个体的阅读理解能力、阅读速度及阅读兴趣水平。本数据集不仅适用于教育研究者进行差异分析与相关性研究,也为数据科学家构建回归或分类预测模型提供了高质量的基准数据。
教育
图像
表格
本数据集旨在通过临床症状对动物健康状况进行风险评估。它涵盖了从鸟类到哺乳动物在内的多类物种,每条记录包含五种观察到的症状描述,核心目标为构建一个能根据症状特征预测动物健康状况是否处于危险状态的二元分类模型。数据集中的文本型症状描述存在自然语言的不规范性,同时样本可能存在类别不平衡问题,这为机器学习实践者提供了处理现实数据、构建鲁棒分类器的典型学习场景,适用于动物福利与健康监测领域的研究与应用探索。
其他
图像
表格
社交媒体俚语与表情符号情感数据集,含 14,000 条标注样本,分积极、消极、中性、讽刺 4 类。核心字段为 text 和 label,以 CSV 格式存储,融入表情符号、俚语等噪声,适配多类建模方法,可用于情感分析、讽刺检测、模型微调及学术与工业应用,聚焦模型鲁棒性。
教育
文本
表格
数据集包含了16年多(2010-2026年)标普500指数中按市值排名前10的公司的每日股市数据。涵盖历史开盘价、最高价、最低价、收盘价和成交量(OHLCV)数据,并经过精心清洗和结构化处理,适用于数据分析、机器学习和金融预测。可为量化策略回测、股价趋势预测与投资风险建模提供高质量实证数据支撑。
金融
文本
表格
该数据集涵盖2008-2025年共18年,记录了美国前1000个城市对市场的季度平均国内机票价格。涵盖了2008年金融危机复苏、燃油价格波动、新冠疫情兴衰及疫情后票价通胀等行业重大事件,全面反映美国国内航空票价的长期变化趋势。可为航空出行成本预测、机票定价策略优化及旅游消费趋势分析提供数据支撑。
交通
表格
创业公司融资与成功数据集包含全球多个国家、不同行业的20万家创业公司详细信息,涵盖融资历史、财务表现、增长指标、估值及退出结果等核心内容。数据集为CSV格式,共20万行、18列,可用性满分,采用CC0公有领域协议,专为机器学习、财务分析、投资研究等场景设计,助力探索创业公司成功与失败的关键影响因素。
金融
表格
2024-2026年期间,全球贸易遭遇了前所未有的波动性。从不断变化的地缘政治联盟,到气候变化引发的极端天气模式,物流从业者需要努力维持“准时制”效率。本数据集包含5000条国际运输记录,模拟了现代全球供应链中固有的复杂、非线性风险。支持供应链韧性评估、物流风险预警算法与智能调度模型的训练与验证。
交通
文本
表格
游戏与心理健康行为数据集,是一个面向行为科学、心理健康与游戏分析领域的大规模合成数据集,旨在为相关研究提供标准化、规模化的数据源支持,助力探索游戏行为与个体身心健康、社会生活等维度的关联。
教育
文本
表格
本数据集包含全国四级政府万余官网公开发布的近百万条政策文本及条款关联。通过深度清洗、结构化重构及行业知识标注,将分散非结构化文本转化为高质量机器可读语料。直击政策获取难、理解门槛高、标注难度大三大痛点,有效抑制AI“幻觉”并消除信息差,可直接用于政务垂直大模型训练、智能政策匹配与服务、产业分析与宏观研判、供应链管理与风险预测、产品规划与市场策略调整以及合规检索与风控等应用场景
其他
文本
本数据集收录国家官方公开的强制性国家标准(GB)结构化元数据,包含标准号、中英文名称、实施状态、CCS/ICS 分类、发布与实施日期、主管部门、采标信息等。覆盖即将实施、现行、废止三类标准,数据合规、干净、可直接用于行业大模型训练、合规检索、政策分析等场景。
其他
文本
表格
本数据集是一个面向分析实践的超市销售交易样本数据。其系统记录了从订单生成、商品定价、税费计算到最终收款的全流程关键信息,包括订单日期、顾客姓名、零售价格、数量、税费及订单总额。其核心设计目标是服务于销售绩效分析、收入结构解读与顾客行为洞察,为进行时间序列分析、财务报表模拟及客户细分等任务提供真实、结构化的数据基础,适用于数据分析教学、可视化仪表板开发以及入门至中级的预测建模项目。
消费
图像
表格
本数据集是一个高质量、规模达3万条记录的合成数据集,专为模拟和研究AI驱动的自动化简历筛选流程而设计。它系统地整合了候选人的工作经验、技能匹配度、教育背景、项目经历及简历质量等多维度特征,并包含一个基于综合评估生成的二元目标变量(是否通过筛选)。该数据集以逻辑关联模拟真实招聘模式,非常适合用于开发简历筛选的分类模型、分析招聘决策中的特征重要性,以及研究算法公平性与潜在偏见。
人力资源
图像
表格
本数据集是一个包含约5000条记录的综合性数据集,旨在全景式追踪与分析国际学生的流动轨迹与生涯发展。数据整合了学生从来源国、目的地与大学专业等起点信息,到入学年份、奖学金、成绩等学习过程指标,并延伸至毕业就业状态、起薪及签证转换等关键结果。通过覆盖留学决策、学业表现到职业开端的完整链条,本数据集为探究全球人才流动规律、评估教育政策成效以及理解个人背景与发展结果间的复杂关联提供了宝贵的实证研究基础。
教育
图像
表格
本数据集是涵盖2018至2026年的全球运动鞋零售综合数据集,聚焦多品牌运动鞋销售动态、定价策略与消费者行为,整合6个全球知名运动鞋品牌的真实化数据,覆盖全球多个国家。数据集包含超3万条记录,涵盖订单、品牌、定价、消费者、销售渠道等多维度核心字段,专为探索性数据分析、销售预测及机器学习任务设计,可全面支撑趋势分析、需求预测、消费者洞察等研究,为零售行业决策提供真实、全面的标准化数据支撑。
消费
图像
表格
本数据集专为零售分析、机器学习与深度学习实验而设计,是一个合成但贴近现实的模拟数据集。它包含1.5万行数据,模拟了一个虚构零售连锁店的每日产品级销售快照,涵盖定价、促销、门店客流量、竞争情况、库存水平及顾客行为等11个具有非线性依赖关系的数值特征。该数据集通过引入相关性、季节性与复杂交互,真实模拟了销售动态,非常适合用于回归预测、自监督学习、特征工程探索以及异常检测等任务。
消费
图像
表格
本数据集通过整合客户档案、产品属性(类别、品牌、规格)、多层级的门店与区域地理位置信息,以及销售额、利润率、折扣金额等核心财务指标,系统地构建了零售交易的多维度全景视图。它旨在为深入的探索性数据分析提供坚实基础,使分析者能够有效揭示跨产品线与地域的销售周期性规律、不同客群的购买偏好与价值贡献结构、高利润产品的驱动因素,并识别潜在的市场细分机会,为库存优化、精准营销及区域战略提供数据驱动的决策支持。
金融
图像
表格
本数据集是一个整合了奥运成绩与社会经济指标的国家级面板数据,涵盖1960-2016年各夏季奥运会参与国。其核心在于通过每运动员奖牌数等效率指标,结合世界银行提供的同期人口、人均GDP等数据,构建了一个公平评估不同规模国家奥运产出的分析框架。本数据集为探究国家资源投入与体育产出的关系、识别高效体育体系、构建奖牌预测模型提供了结构严谨、干净可用的数据基础,是体育经济学与数据科学交叉研究的理想工具。
其他
图像
表格
本数据集包含1000条完整记录与13个特征变量,旨在量化分析影响程序员效率的多维因素。数据高度模拟了现代开发者的真实工作场景,核心变量包括传统的编码时长、代码行数和Bug数量,并纳入了AI使用时长、认知负荷、睡眠时长与压力水平等关键影响因子。该数据集结构纯净、无缺失值、规模适中,是进行相关性研究、回归分析与生产力预测模型构建的理想资源,适用于探究技术工具与个体状态如何共同塑造开发效率。
其他
图像
表格
本数据集完整记录了客户的国家、年龄、薪资与购买决策信息,为数据科学实践提供了典型样本。它适用于从数据清洗(如处理缺失薪资、编码国家变量)到探索性分析(如洞察不同年龄段购买力)的全流程学习。在此基础上,数据可直接用于构建分类模型(如逻辑回归、决策树),以客户特征预测购买行为,帮助初学者掌握监督式机器学习从特征工程、模型训练到评估优化的完整流程。其结构清晰、规模适中,是理想的入门实践材料。
消费
图像
表格
本数据集为合成生成的匿名数据集,旨在分析社交媒体使用行为与个人健康、福祉及生产力的关联。它模拟了全球不同年龄与国家用户的数字习惯,核心变量涵盖使用时长、平台偏好、夜间使用等行为指标,以及成瘾水平、焦虑抑郁评分、睡眠质量与生产力影响等心理与功能指标。数据集以成瘾评分为目标变量,构建了从行为到结果的完整分析链,在保护隐私的前提下模拟现实趋势,适用于探索性分析、模式挖掘、心理健康相关性研究及预测建模。
社会治理
图像
表格
本数据集源自美国农业部经济研究局的权威调查,系统整理了美国小麦生产自1998、2004年等历史基准年份至今的纵向经济数据。它不仅提供了全国层面的趋势,更以细分维度详细呈现了不同产区的运营成本、间接成本以及总收益价值。该数据集以其精细的成本结构分解和长期的跨区域可比性,为农业政策的效果评估、生产投资的效益分析、农场管理的成本优化以及相关的学术经济研究提供了极为宝贵且可靠的量化基础。
农业
文本
图像
表格
本数据集是一个结构化、多源整合的教育研究数据集,收录了不同群体在阅读上的表现结果,并关联了丰富的人口统计学特征与关键背景环境因素。数据旨在探究年龄、性别、教育背景、家庭语言环境、阅读资源可及性和数字设备使用习惯等多元变量,如何单独或交互地影响个体的阅读理解能力、阅读速度及阅读兴趣水平。本数据集不仅适用于教育研究者进行差异分析与相关性研究,也为数据科学家构建回归或分类预测模型提供了高质量的基准数据。
教育
图像
表格
本数据集旨在通过临床症状对动物健康状况进行风险评估。它涵盖了从鸟类到哺乳动物在内的多类物种,每条记录包含五种观察到的症状描述,核心目标为构建一个能根据症状特征预测动物健康状况是否处于危险状态的二元分类模型。数据集中的文本型症状描述存在自然语言的不规范性,同时样本可能存在类别不平衡问题,这为机器学习实践者提供了处理现实数据、构建鲁棒分类器的典型学习场景,适用于动物福利与健康监测领域的研究与应用探索。
其他
图像
表格