本数据集源自美国农业部经济研究局的权威调查,系统整理了美国小麦生产自1998、2004年等历史基准年份至今的纵向经济数据。它不仅提供了全国层面的趋势,更以细分维度详细呈现了不同产区的运营成本、间接成本以及总收益价值。该数据集以其精细的成本结构分解和长期的跨区域可比性,为农业政策的效果评估、生产投资的效益分析、农场管理的成本优化以及相关的学术经济研究提供了极为宝贵且可靠的量化基础。
农业
文本
图像
表格
本数据集是一个结构化、多源整合的教育研究数据集,收录了不同群体在阅读上的表现结果,并关联了丰富的人口统计学特征与关键背景环境因素。数据旨在探究年龄、性别、教育背景、家庭语言环境、阅读资源可及性和数字设备使用习惯等多元变量,如何单独或交互地影响个体的阅读理解能力、阅读速度及阅读兴趣水平。本数据集不仅适用于教育研究者进行差异分析与相关性研究,也为数据科学家构建回归或分类预测模型提供了高质量的基准数据。
教育
图像
表格
本数据集旨在通过临床症状对动物健康状况进行风险评估。它涵盖了从鸟类到哺乳动物在内的多类物种,每条记录包含五种观察到的症状描述,核心目标为构建一个能根据症状特征预测动物健康状况是否处于危险状态的二元分类模型。数据集中的文本型症状描述存在自然语言的不规范性,同时样本可能存在类别不平衡问题,这为机器学习实践者提供了处理现实数据、构建鲁棒分类器的典型学习场景,适用于动物福利与健康监测领域的研究与应用探索。
其他
图像
表格
本数据集是一个完全合成的仿真数据集,旨在模拟影响软件开发人员工作压力水平的多种现实因素。通过整合工作时长、睡眠时间、代码缺陷、项目截止日期等10个关键特征,数据集构建了符合真实逻辑的压力模型,目标变量为0-100的连续压力评分。其价值在于模拟了特征间的非线性交互效应,准确反映了压力形成的复杂机制,适用于进行压力预测建模、特征重要性分析与交互研究,也是机器学习处理非线性与混合类型数据的优质教学案例。
其他
图像
表格
本数据集为研究新冠长期健康影响的合成数据集,聚焦于模拟不同严重程度感染者在康复后面对的长期健康挑战,核心指标包括疲劳、呼吸问题、心理健康与恢复时长。它整合了人口统计学信息、感染严重度、住院史、生活习惯及衍生的长期新冠风险等级,构建了从急性感染到后遗症的完整分析链条。该数据集在保护隐私的前提下模拟真实世界模式,适用于探索性数据分析、风险分类预测建模以及公共卫生与临床医学领域的教学研究。
其他
图像
表格
本数据集是一个使用Python完全合成生成的个人消费记录模拟数据集,包含1000余条记录,高度模拟现实世界个人财务行为。其字段覆盖消费日期、金额、消费类别及支付方式等。数据通过受控随机化方法生成,在确保高度现实性的同时实现了完全匿名化处理与隐私安全保证。该数据集结构清晰、主题明确,旨在为探索性数据分析、消费模式可视化、预算管理洞察及构建消费预测机器学习模型提供一个理想且无风险的研究与练习平台。
消费
图像
表格
本数据集包含10000条记录的合成数据,旨在分析数字生活习惯与生理因素对眼部健康的影响。它通过模拟真实行为模式,构建眼健康综合评分指标,整合了屏幕使用参数、户外活动、基础生理与心理状态等特征。数据聚焦于量化屏幕时间、亮度等数字生活变量,和年龄、户外光照等因素如何共同作用于视觉健康。其结构完整、特征清晰,适用于回归预测、相关性分析与特征重要性研究,为健康科技与行为分析领域提供高质量模拟数据资源。
其他
图像
表格
本数据集收录了某电商企业2022-2024年超3500笔的交易记录。数据涵盖电子产品、配件和办公用品三大核心品类并细分为北东南西四个主要销售区域。每条记录不仅包含销售额与数量,还有每笔交易产生的净利润,使分析超越收入层面,深入透视不同产品、区域及时间维度的真实盈利能力和成本结构。其旨在通过多维度分析,揭示驱动利润的关键因素与潜在运营问题,为企业的定价策略、库存管理和区域资源调配提供坚实的数据支持。
消费
图像
表格
本数据集系统记录了从2022年1月至2024年12月为期三年的电商平台交易明细数据。它涵盖了订单时间、产品类别与名称、销售区域、销售数量、销售额及利润等核心业务维度,形成了一个可用于深入分析销售动态、产品表现与区域业绩的完整数据基础。该数据集旨在支持多角度的时间序列趋势预测、产品组合效益评估、区域市场策略制定以及整体财务表现分析,为电商运营决策提供数据驱动的洞察。
消费
图像
表格
本数据集是一个包含10万条记录的合成零售数据集,全面模拟易腐商品从采购、存储到销售或报废的全链路管理。数据覆盖10个商品品类,时间跨度两年,并包含多家门店与供应商信息。它整合了产品详情、存储环境、需求模式、损耗风险及财务结果等42个特征变量,完整刻画影响易腐品利润与浪费的核心因素。它专为构建损耗预测、智能补货、需求预测及动态定价优化模型而设计,是零售运营分析与供应链数据科学的综合性实践平台。
消费
图像
表格
本数据集提供了一个覆盖2010至2025年、80多个国家及多元行业的合成职位数据库,旨在填补追踪人工智能对就业长期影响的全球数据空白。它包含5000条记录,每条均整合了AI采用信号、技能需求、薪资动态、自动化风险及行业成熟度等多维指标。该数据集基于真实市场趋势模拟生成,为研究人员分析AI职位增长时序、量化技能薪资溢价、评估岗位替代风险以及进行技能聚类,提供了一个全面、安全且结构化的研究与实践平台。
人力资源
图像
表格
本数据集是一个广泛应用于推荐系统研究和实践的基准数据集,收录了海量用户对电影的显式评分记录。其核心数据包括用户ID、电影ID、评分值及时间戳,构建了标准的“用户-物品”交互矩阵。该数据集清晰体现了用户偏好稀疏性、评分分布偏差及时序效应等核心挑战。其旨在为开发和评估协同过滤、矩阵分解、深度学习推荐等算法提供一个标准化、可复现的实验平台,是推荐系统入门学习与前沿算法研究的理想数据资源。
其他
图像
表格
本数据集用于量化分析粉底液产品的色号多样性及包容性。它采集自美国、尼日利亚、日本与印度市场的头部品牌,通过提取官方色板的十六进制颜色值,并转换为CIE Lab明度值,将色彩转化为可量化数据。数据包含8个预设分组,除地区畅销榜外,特别设置了由BIPOC创始人创立的品牌组别,以探究创始人背景对色彩包容性的影响。该数据集为美妆行业的多样性研究、产品设计与社会文化分析提供了结构化支持。
其他
图像
表格
本数据集提供了1901-2016年所有诺贝尔奖得主的完整、结构化的记录。它收录了在化学、文学、生理学或医学等六大领域的获奖者信息。每条记录包含获奖年份、类别和获奖者姓名等基础信息,以及获奖年龄、性别、国别、所属机构和获奖原因等多维数据。该数据集为分析科学与社会领域中的获奖趋势、地理分布、机构贡献、多样性变迁以及学科演变提供了独一无二的数据基础,是历史研究、科学社会学分析与数据科学教学的宝贵资源。
教育
图像
表格
本数据源自2.5亿参数神经网络血液检测分析平台,汇总了2025-2026年间覆盖10个国家、共264.4万份血液检测分析。每条记录代表一个国家在某个月的宏观健康快照,包含8类疾病/风险状态的流行率、5级风险分层分布以及平台使用量指标。数据完全匿名且仅发布国家级汇总统计。其为全球流行病学对比、疾病风险预测建模、医学大语言模型微调及公共卫生教育提供了稀缺的、高质量的真实世界基准资源。
医疗
表格
图&网络
本数据集是一个整合了全球权威监测机构记录的、覆盖长达两百年的5.0级以上大地震的综合性目录。数据结合了早期历史档案与现代仪器记录,收录了每次地震事件的发生时间、经纬度坐标、震级、深度、定位误差等参数。它旨在为分析全球地震活动的长期时空演变规律、识别地震危险区、研究震级-深度关系以及评估历史数据的完整性提供一套干净、结构化且跨时代可比的数据基础,是地球物理学、灾害风险评估及数据可视化领域的宝贵资源。
其他
图像
表格
本数据集是一个覆盖全球12个城市2014-2024年的逐日气象观测数据合集。其包含了每日的平均温度、相对湿度、降雨量及风速等核心气象要素,形成了长期、连续且标准化的高质量时间序列。其价值在于为研究者与分析师提供了一个可立即用于分析全球气候模式、城市热岛效应、极端天气事件频率以及长期气候变化趋势的基准数据集。本数据集适用于探索性数据分析、时间序列预测建模、跨区域气候对比研究以及相关的机器学习项目。
其他
图像
表格
本数据集收录了NASA“每日天文图说”项目超30年的11186条完整元数据。每条记录包含精选天文图片或视频的高质量链接、专业天文学家撰写的详细科学解释、标题及发布日期等信息。数据集融合了科学视觉内容与专业文本描述,不仅覆盖了深空天体、太阳系与太空任务等主题,更因其权威的来源、超长的时间跨度与标准化的结构,成为进行天文教育、科学传播研究、自然语言处理以及多模态计算机视觉模型训练的独特而珍贵的资源。
制造
图像
表格
图&网络
本数据集是一个融合了家庭日用电量与对应天气观测指标的时间序列数据集,时间跨度为四年。用电量数据聚合自家庭用电量数据集,天气特征取自官方气象数据。数据集以日为观测单元,每条记录整合了当天的用电总量与多项关键气象变量,清晰地构建了天气条件与能源消耗之间的关联框架。该数据集结构规整、时间连续,为时间序列回归、能源需求预测、特征工程探索以及经典机器学习模型评估而设计,是研究气候敏感型能源需求的理想资源。
能源
图像
表格
本数据集包含2600条记录的合成数据,高度模拟在线外卖平台的每日订单的真实场景,完整覆盖从下单到完成的流程。其核心变量包括顾客年龄、餐厅类型、配送时长、支付方式及订单状态等。数据在高度还原现实业务逻辑的同时确保完全匿名与隐私安全。其结构规整、特征明确,适用于探索性数据分析、配送时间预测、订单状态分类及客户行为洞察,是数据科学初学者和实践者接触业务分析、时序模式挖掘与机器学习建模的理想入门材料。
消费
图像
表格
本数据集是一个适用于自然语言处理任务的高质量、已标注的新闻文章集合。它包含了超过20万篇新闻文章,每篇文章都带有标题、简短的摘要、作者、发布日期,以及多类别主题标签。数据集已经过系统的清洗与预处理,移除了重复项与缺失记录,并标准化了文本与日期格式。其规模庞大、类别多样、文本结构清晰的特点,使其成为进行多类别文本分类、主题建模、新闻摘要生成等任务的理想基准数据,尤其适合用于教育、研究和算法开发。
其他
图像
表格
本数据集源自美国农业部经济研究局的权威调查,系统整理了美国小麦生产自1998、2004年等历史基准年份至今的纵向经济数据。它不仅提供了全国层面的趋势,更以细分维度详细呈现了不同产区的运营成本、间接成本以及总收益价值。该数据集以其精细的成本结构分解和长期的跨区域可比性,为农业政策的效果评估、生产投资的效益分析、农场管理的成本优化以及相关的学术经济研究提供了极为宝贵且可靠的量化基础。
农业
文本
图像
表格
本数据集是一个结构化、多源整合的教育研究数据集,收录了不同群体在阅读上的表现结果,并关联了丰富的人口统计学特征与关键背景环境因素。数据旨在探究年龄、性别、教育背景、家庭语言环境、阅读资源可及性和数字设备使用习惯等多元变量,如何单独或交互地影响个体的阅读理解能力、阅读速度及阅读兴趣水平。本数据集不仅适用于教育研究者进行差异分析与相关性研究,也为数据科学家构建回归或分类预测模型提供了高质量的基准数据。
教育
图像
表格
本数据集旨在通过临床症状对动物健康状况进行风险评估。它涵盖了从鸟类到哺乳动物在内的多类物种,每条记录包含五种观察到的症状描述,核心目标为构建一个能根据症状特征预测动物健康状况是否处于危险状态的二元分类模型。数据集中的文本型症状描述存在自然语言的不规范性,同时样本可能存在类别不平衡问题,这为机器学习实践者提供了处理现实数据、构建鲁棒分类器的典型学习场景,适用于动物福利与健康监测领域的研究与应用探索。
其他
图像
表格
本数据集是一个完全合成的仿真数据集,旨在模拟影响软件开发人员工作压力水平的多种现实因素。通过整合工作时长、睡眠时间、代码缺陷、项目截止日期等10个关键特征,数据集构建了符合真实逻辑的压力模型,目标变量为0-100的连续压力评分。其价值在于模拟了特征间的非线性交互效应,准确反映了压力形成的复杂机制,适用于进行压力预测建模、特征重要性分析与交互研究,也是机器学习处理非线性与混合类型数据的优质教学案例。
其他
图像
表格
本数据集为研究新冠长期健康影响的合成数据集,聚焦于模拟不同严重程度感染者在康复后面对的长期健康挑战,核心指标包括疲劳、呼吸问题、心理健康与恢复时长。它整合了人口统计学信息、感染严重度、住院史、生活习惯及衍生的长期新冠风险等级,构建了从急性感染到后遗症的完整分析链条。该数据集在保护隐私的前提下模拟真实世界模式,适用于探索性数据分析、风险分类预测建模以及公共卫生与临床医学领域的教学研究。
其他
图像
表格
本数据集是一个使用Python完全合成生成的个人消费记录模拟数据集,包含1000余条记录,高度模拟现实世界个人财务行为。其字段覆盖消费日期、金额、消费类别及支付方式等。数据通过受控随机化方法生成,在确保高度现实性的同时实现了完全匿名化处理与隐私安全保证。该数据集结构清晰、主题明确,旨在为探索性数据分析、消费模式可视化、预算管理洞察及构建消费预测机器学习模型提供一个理想且无风险的研究与练习平台。
消费
图像
表格
本数据集包含10000条记录的合成数据,旨在分析数字生活习惯与生理因素对眼部健康的影响。它通过模拟真实行为模式,构建眼健康综合评分指标,整合了屏幕使用参数、户外活动、基础生理与心理状态等特征。数据聚焦于量化屏幕时间、亮度等数字生活变量,和年龄、户外光照等因素如何共同作用于视觉健康。其结构完整、特征清晰,适用于回归预测、相关性分析与特征重要性研究,为健康科技与行为分析领域提供高质量模拟数据资源。
其他
图像
表格
本数据集收录了某电商企业2022-2024年超3500笔的交易记录。数据涵盖电子产品、配件和办公用品三大核心品类并细分为北东南西四个主要销售区域。每条记录不仅包含销售额与数量,还有每笔交易产生的净利润,使分析超越收入层面,深入透视不同产品、区域及时间维度的真实盈利能力和成本结构。其旨在通过多维度分析,揭示驱动利润的关键因素与潜在运营问题,为企业的定价策略、库存管理和区域资源调配提供坚实的数据支持。
消费
图像
表格
本数据集系统记录了从2022年1月至2024年12月为期三年的电商平台交易明细数据。它涵盖了订单时间、产品类别与名称、销售区域、销售数量、销售额及利润等核心业务维度,形成了一个可用于深入分析销售动态、产品表现与区域业绩的完整数据基础。该数据集旨在支持多角度的时间序列趋势预测、产品组合效益评估、区域市场策略制定以及整体财务表现分析,为电商运营决策提供数据驱动的洞察。
消费
图像
表格
本数据集是一个包含10万条记录的合成零售数据集,全面模拟易腐商品从采购、存储到销售或报废的全链路管理。数据覆盖10个商品品类,时间跨度两年,并包含多家门店与供应商信息。它整合了产品详情、存储环境、需求模式、损耗风险及财务结果等42个特征变量,完整刻画影响易腐品利润与浪费的核心因素。它专为构建损耗预测、智能补货、需求预测及动态定价优化模型而设计,是零售运营分析与供应链数据科学的综合性实践平台。
消费
图像
表格
本数据集提供了一个覆盖2010至2025年、80多个国家及多元行业的合成职位数据库,旨在填补追踪人工智能对就业长期影响的全球数据空白。它包含5000条记录,每条均整合了AI采用信号、技能需求、薪资动态、自动化风险及行业成熟度等多维指标。该数据集基于真实市场趋势模拟生成,为研究人员分析AI职位增长时序、量化技能薪资溢价、评估岗位替代风险以及进行技能聚类,提供了一个全面、安全且结构化的研究与实践平台。
人力资源
图像
表格
本数据集是一个广泛应用于推荐系统研究和实践的基准数据集,收录了海量用户对电影的显式评分记录。其核心数据包括用户ID、电影ID、评分值及时间戳,构建了标准的“用户-物品”交互矩阵。该数据集清晰体现了用户偏好稀疏性、评分分布偏差及时序效应等核心挑战。其旨在为开发和评估协同过滤、矩阵分解、深度学习推荐等算法提供一个标准化、可复现的实验平台,是推荐系统入门学习与前沿算法研究的理想数据资源。
其他
图像
表格
本数据集用于量化分析粉底液产品的色号多样性及包容性。它采集自美国、尼日利亚、日本与印度市场的头部品牌,通过提取官方色板的十六进制颜色值,并转换为CIE Lab明度值,将色彩转化为可量化数据。数据包含8个预设分组,除地区畅销榜外,特别设置了由BIPOC创始人创立的品牌组别,以探究创始人背景对色彩包容性的影响。该数据集为美妆行业的多样性研究、产品设计与社会文化分析提供了结构化支持。
其他
图像
表格
本数据集提供了1901-2016年所有诺贝尔奖得主的完整、结构化的记录。它收录了在化学、文学、生理学或医学等六大领域的获奖者信息。每条记录包含获奖年份、类别和获奖者姓名等基础信息,以及获奖年龄、性别、国别、所属机构和获奖原因等多维数据。该数据集为分析科学与社会领域中的获奖趋势、地理分布、机构贡献、多样性变迁以及学科演变提供了独一无二的数据基础,是历史研究、科学社会学分析与数据科学教学的宝贵资源。
教育
图像
表格
本数据源自2.5亿参数神经网络血液检测分析平台,汇总了2025-2026年间覆盖10个国家、共264.4万份血液检测分析。每条记录代表一个国家在某个月的宏观健康快照,包含8类疾病/风险状态的流行率、5级风险分层分布以及平台使用量指标。数据完全匿名且仅发布国家级汇总统计。其为全球流行病学对比、疾病风险预测建模、医学大语言模型微调及公共卫生教育提供了稀缺的、高质量的真实世界基准资源。
医疗
表格
图&网络
本数据集是一个整合了全球权威监测机构记录的、覆盖长达两百年的5.0级以上大地震的综合性目录。数据结合了早期历史档案与现代仪器记录,收录了每次地震事件的发生时间、经纬度坐标、震级、深度、定位误差等参数。它旨在为分析全球地震活动的长期时空演变规律、识别地震危险区、研究震级-深度关系以及评估历史数据的完整性提供一套干净、结构化且跨时代可比的数据基础,是地球物理学、灾害风险评估及数据可视化领域的宝贵资源。
其他
图像
表格
本数据集是一个覆盖全球12个城市2014-2024年的逐日气象观测数据合集。其包含了每日的平均温度、相对湿度、降雨量及风速等核心气象要素,形成了长期、连续且标准化的高质量时间序列。其价值在于为研究者与分析师提供了一个可立即用于分析全球气候模式、城市热岛效应、极端天气事件频率以及长期气候变化趋势的基准数据集。本数据集适用于探索性数据分析、时间序列预测建模、跨区域气候对比研究以及相关的机器学习项目。
其他
图像
表格
本数据集收录了NASA“每日天文图说”项目超30年的11186条完整元数据。每条记录包含精选天文图片或视频的高质量链接、专业天文学家撰写的详细科学解释、标题及发布日期等信息。数据集融合了科学视觉内容与专业文本描述,不仅覆盖了深空天体、太阳系与太空任务等主题,更因其权威的来源、超长的时间跨度与标准化的结构,成为进行天文教育、科学传播研究、自然语言处理以及多模态计算机视觉模型训练的独特而珍贵的资源。
制造
图像
表格
图&网络
本数据集是一个融合了家庭日用电量与对应天气观测指标的时间序列数据集,时间跨度为四年。用电量数据聚合自家庭用电量数据集,天气特征取自官方气象数据。数据集以日为观测单元,每条记录整合了当天的用电总量与多项关键气象变量,清晰地构建了天气条件与能源消耗之间的关联框架。该数据集结构规整、时间连续,为时间序列回归、能源需求预测、特征工程探索以及经典机器学习模型评估而设计,是研究气候敏感型能源需求的理想资源。
能源
图像
表格
本数据集包含2600条记录的合成数据,高度模拟在线外卖平台的每日订单的真实场景,完整覆盖从下单到完成的流程。其核心变量包括顾客年龄、餐厅类型、配送时长、支付方式及订单状态等。数据在高度还原现实业务逻辑的同时确保完全匿名与隐私安全。其结构规整、特征明确,适用于探索性数据分析、配送时间预测、订单状态分类及客户行为洞察,是数据科学初学者和实践者接触业务分析、时序模式挖掘与机器学习建模的理想入门材料。
消费
图像
表格
本数据集是一个适用于自然语言处理任务的高质量、已标注的新闻文章集合。它包含了超过20万篇新闻文章,每篇文章都带有标题、简短的摘要、作者、发布日期,以及多类别主题标签。数据集已经过系统的清洗与预处理,移除了重复项与缺失记录,并标准化了文本与日期格式。其规模庞大、类别多样、文本结构清晰的特点,使其成为进行多类别文本分类、主题建模、新闻摘要生成等任务的理想基准数据,尤其适合用于教育、研究和算法开发。
其他
图像
表格