数据集源自官方公开政府数据,涵盖 2020年至2024年洛杉矶市的详细犯罪报案记录。数据包含犯罪类型、地点、时间、受害者信息及案件状态等。适用于探索性数据分析、可视化展示,可构建机器学习模型用于犯罪预测、分类和趋势分析,也有助于研究犯罪时间规律、地理分布,洞察城市安全状况。
社会治理
文本
表格
数据集源于 NASA 的 NeoWS API,涵盖 1900 年 1 月 1 日至 2026 年 4 月 4 日的小行星信息,共 41 列 23,447 条记录。数据可用于搜索特定小行星或按与地球最近接近日期查找。适用于天文学研究,如分析小行星轨道特征、潜在危险性,助力了解小行星动态及对地球的潜在影响。
其他
文本
表格
数据集涵盖 3000 款有线和无线耳机产品,包含来自制造商数据表及零售平台的 30 项特征数据,无缺失值。数据涉及 50 多个品牌,发布年份在 2016 - 2024 年,价格 20 - 2000 美元不等。适用于探索性数据分析、机器学习、数据可视化及市场研究等场景,助力挖掘耳机市场规律与趋势。
消费
文本
表格
数据集聚焦一家欧洲银行 10,000 名客户的账户信息,涵盖信用评分、账户余额、产品信息及客户是否流失等关键数据。可用于分析客户流失原因、预测流失可能性、研究客户总体特征、比较不同国籍客户行为差异以及对客户进行细分等场景,为银行制定客户关系管理策略提供有力数据支持。
金融
文本
表格
该数据集聚焦 2010 - 2024 年中国 42 个城市生活成本与薪资对比,数据源于中国国家统计局工资报告及 Numbeo 等。涵盖城市层级、人口、工资、生活成本等多方面信息,可用于分析中国城市经济发展、居民生活负担、探究工资增长与通货膨胀关系、各层级城市发展差异等,为研究中国城市经济社会状况提供有力数据支持。
社会治理
文本
表格
该数据集为虚构视频流媒体平台 MavenFlix 的订阅记录,涵盖 2022 年 9 月至 2023 年 9 月约 2900 名订阅者信息。每条记录包含客户订阅的关键数据,如订阅费用、创建与取消日期、订阅间隔及支付状态。适用于分析平台订阅趋势、客户留存等情况,助于了解平台运营状况和用户行为。
其他
文本
表格
数据集涵盖 1957 年至 2024 年轨道与亚轨道太空发射的完整历史,包含 7500 次发射等丰富信息,分属 5 个时代,涉及 92 种火箭、35 个发射场等。数据集含 5 个文件,记录发射、组织、火箭等详细数据。适用于分析发射成功率、成本变化、国家竞争等太空领域相关研究。
其他
文本
表格
数据集源自暗能量光谱仪数据发布,包含 5 万个经光谱确认的天文天体记录,涵盖恒星、星系和类星体,跨度达 124 亿光年。数据集含 51 列,覆盖天球坐标、光谱红移等多方面数据,且在三个光谱类别上平衡。适用于多类光谱分类、光度红移回归等数据科学研究,助力探索宇宙天体奥秘与宇宙学研究。
教育
文本
表格
数据集模拟大型零售公司固定资产登记册,含 10 万项资产的财务、运营及审计相关属性。可用于探索性数据分析、机器学习、财务建模以及审计与风险分析等场景。为研究零售企业固定资产管理,挖掘财务与审计信息提供有力数据支持,助力企业优化资产管理策略。
消费
文本
表格
数据集结合真实与合成数据,模拟碳定年实际状况,用于估算考古及环境样本年代。数据集含原始实验室测量值与反映测量噪声、污染等变化的合成样本。通过多个特征,适用于借助回归模型预测样本年代、处理嘈杂科学数据、开展特征工程及研究测量影响等场景,为碳定年相关研究及模型评估提供实用数据。
教育
文本
表格
该数据聚焦劳动力管理(WFM),构建端到端数据管道与 KPI 仪表板。针对企业 WFM 数据来源多样、队列名杂乱等常见问题,利用 Python、PySpark 等技术,从多数据源获取数据,经清洗、标准化等处理,生成适合预测、KPI 验证及自动化的 SQL 主数据集,可用于需求预测、Power BI 可视化等场景,展示数据工程全流程概念与实践。
教育
文本
表格
生物&化学
数据集聚焦黄金这一重要宏观经济资产的定价行为。借助先进统计与可视化技术,可全面探索黄金市场动态。涵盖市场结构可视化、波动聚集性等多个关键分析主题,应用交互式蜡烛图等多种可视化技术。适用于研究人员在制定策略前,通过可视化分析挖掘黄金市场隐藏结构,洞察市场动态与金融稳定状况。
金融
文本
表格
分子相互作用流形与活性悬崖数据集,完全合成且达科研级别,用于模拟化学空间特性。与传统分子数据集不同,它采用多视角、关系型且具流形感知的表示法,融合多种特征于统一框架。适用于药物发现、分子相似性学习等高级机器学习任务,其独特架构弥补了学术与现实药物发现数据间差距,推动模型应对复杂场景。
教育
文本
图像
表格
数据集包含 33502 个工业电气符号,以 33500 张 EPLAN IEC、NFPA、GB 电气符号的 PNG 图像形式呈现,附带完整技术元数据和 AI 生成的视觉描述。适用于自动化工程中电气符号的自动分类、电气原理图的工业 OCR、相关模型微调以及技术文档的视觉检索增强生成等场景。
制造
文本
图像
表格
数据集包含谷歌 Lyria 3 Pro 和 Suno v4.5 这两款领先 AI 模型生成的高保真音频样本。数据集格式为高比特率 MP3,采样率 44.1kHz,立体声,目标 BPM 在 85 - 128 之间。样本基于三种压力测试分类,用于频谱取证分析和生成式基准测试,评估 AI 在特定音乐场景下的表现,助力比较两款 AI 模型在复杂音乐环境中的优劣。
其他
音频
电子商务数据集涵盖了网络零售、农村电商、农产品、电商企业、电商直播等一站式电商数据监测、统计和分析服务数据,帮助客户及时掌握网络零售情况,把脉区域电商发展态势,支撑工作总结调度、地区排名、企业奖补、运营分析等场景,助力政府部门开展电商运行监测、发展分析研判、政策决策和公共服务,指导本地区电商产业发展。
其他
文本
RAG 实践数据集是为助力检索增强生成(RAG)系统的构建与评估而打造的多领域研究论文 PDF 数据集。数据集涵盖 AI、NLP、医疗保健、金融等多领域,以原始 PDF 格式呈现,模拟真实世界中数据摄取场景,存在检索噪声、文档长、相关性混杂等挑战。适用于 RAG 系统开发、文档检索实验、嵌入模型评估等,帮助研究人员理解 RAG 局限性并探索改进方法。
教育
文本
其他
数据集基于多场比赛的单圈级别数据。把原始遥测数据转化为结构化形式,精心构建多种特征,像轮胎磨损、比赛进程等相关指标,还设有 “PitNextLap” 目标变量用于预测车手下一圈是否进站。适用于预测进站决策、赛事策略建模、轮胎磨损分析等场景,对 F1 赛事策略研究和机器学习应用极具价值,适合不同水平的用户用来学习。
文旅
文本
表格
数据集为马萨诸塞州综合医院 2011 - 2022 年约 1000 名患者的合成数据。涵盖患者人口统计、保险覆盖、医疗就诊及治疗程序等信息。可用于分析患者入院及再入院情况、平均住院时长、每次就诊平均费用,以及保险覆盖治疗程序数量等。有助于医院进行资源规划、费用管理和保险政策评估。
医疗
文本
表格
数据集源自 Retraction Watch 数据库,经筛选、清理等处理,包含 64,267 篇撤稿科学出版物的元数据及相关链接。数据涵盖标题、期刊、撤稿原因等多字段,可用于时间序列分析、分类建模等数据科学应用。适用于研究人员分析科研诚信、出版模式等,助力提升科研质量。
教育
文本
表格
该数据集聚焦于苏打水瓶装生产线,包含生产效率与停机时间相关数据,具体涵盖每批产品的操作员、产品详情、生产起止时间以及停机因素等。可用于分析生产线当前效率,排查表现不佳的操作员,找出导致停机的主要因素,以及确定是否有操作员在特定操作失误上存在困扰。有助于企业提升生产管理水平,优化生产流程,提高生产效率。
制造
文本
表格
数据集源自官方公开政府数据,涵盖 2020年至2024年洛杉矶市的详细犯罪报案记录。数据包含犯罪类型、地点、时间、受害者信息及案件状态等。适用于探索性数据分析、可视化展示,可构建机器学习模型用于犯罪预测、分类和趋势分析,也有助于研究犯罪时间规律、地理分布,洞察城市安全状况。
社会治理
文本
表格
数据集源于 NASA 的 NeoWS API,涵盖 1900 年 1 月 1 日至 2026 年 4 月 4 日的小行星信息,共 41 列 23,447 条记录。数据可用于搜索特定小行星或按与地球最近接近日期查找。适用于天文学研究,如分析小行星轨道特征、潜在危险性,助力了解小行星动态及对地球的潜在影响。
其他
文本
表格
数据集涵盖 3000 款有线和无线耳机产品,包含来自制造商数据表及零售平台的 30 项特征数据,无缺失值。数据涉及 50 多个品牌,发布年份在 2016 - 2024 年,价格 20 - 2000 美元不等。适用于探索性数据分析、机器学习、数据可视化及市场研究等场景,助力挖掘耳机市场规律与趋势。
消费
文本
表格
数据集聚焦一家欧洲银行 10,000 名客户的账户信息,涵盖信用评分、账户余额、产品信息及客户是否流失等关键数据。可用于分析客户流失原因、预测流失可能性、研究客户总体特征、比较不同国籍客户行为差异以及对客户进行细分等场景,为银行制定客户关系管理策略提供有力数据支持。
金融
文本
表格
该数据集聚焦 2010 - 2024 年中国 42 个城市生活成本与薪资对比,数据源于中国国家统计局工资报告及 Numbeo 等。涵盖城市层级、人口、工资、生活成本等多方面信息,可用于分析中国城市经济发展、居民生活负担、探究工资增长与通货膨胀关系、各层级城市发展差异等,为研究中国城市经济社会状况提供有力数据支持。
社会治理
文本
表格
该数据集为虚构视频流媒体平台 MavenFlix 的订阅记录,涵盖 2022 年 9 月至 2023 年 9 月约 2900 名订阅者信息。每条记录包含客户订阅的关键数据,如订阅费用、创建与取消日期、订阅间隔及支付状态。适用于分析平台订阅趋势、客户留存等情况,助于了解平台运营状况和用户行为。
其他
文本
表格
数据集涵盖 1957 年至 2024 年轨道与亚轨道太空发射的完整历史,包含 7500 次发射等丰富信息,分属 5 个时代,涉及 92 种火箭、35 个发射场等。数据集含 5 个文件,记录发射、组织、火箭等详细数据。适用于分析发射成功率、成本变化、国家竞争等太空领域相关研究。
其他
文本
表格
数据集源自暗能量光谱仪数据发布,包含 5 万个经光谱确认的天文天体记录,涵盖恒星、星系和类星体,跨度达 124 亿光年。数据集含 51 列,覆盖天球坐标、光谱红移等多方面数据,且在三个光谱类别上平衡。适用于多类光谱分类、光度红移回归等数据科学研究,助力探索宇宙天体奥秘与宇宙学研究。
教育
文本
表格
数据集模拟大型零售公司固定资产登记册,含 10 万项资产的财务、运营及审计相关属性。可用于探索性数据分析、机器学习、财务建模以及审计与风险分析等场景。为研究零售企业固定资产管理,挖掘财务与审计信息提供有力数据支持,助力企业优化资产管理策略。
消费
文本
表格
数据集结合真实与合成数据,模拟碳定年实际状况,用于估算考古及环境样本年代。数据集含原始实验室测量值与反映测量噪声、污染等变化的合成样本。通过多个特征,适用于借助回归模型预测样本年代、处理嘈杂科学数据、开展特征工程及研究测量影响等场景,为碳定年相关研究及模型评估提供实用数据。
教育
文本
表格
该数据聚焦劳动力管理(WFM),构建端到端数据管道与 KPI 仪表板。针对企业 WFM 数据来源多样、队列名杂乱等常见问题,利用 Python、PySpark 等技术,从多数据源获取数据,经清洗、标准化等处理,生成适合预测、KPI 验证及自动化的 SQL 主数据集,可用于需求预测、Power BI 可视化等场景,展示数据工程全流程概念与实践。
教育
文本
表格
生物&化学
数据集聚焦黄金这一重要宏观经济资产的定价行为。借助先进统计与可视化技术,可全面探索黄金市场动态。涵盖市场结构可视化、波动聚集性等多个关键分析主题,应用交互式蜡烛图等多种可视化技术。适用于研究人员在制定策略前,通过可视化分析挖掘黄金市场隐藏结构,洞察市场动态与金融稳定状况。
金融
文本
表格
分子相互作用流形与活性悬崖数据集,完全合成且达科研级别,用于模拟化学空间特性。与传统分子数据集不同,它采用多视角、关系型且具流形感知的表示法,融合多种特征于统一框架。适用于药物发现、分子相似性学习等高级机器学习任务,其独特架构弥补了学术与现实药物发现数据间差距,推动模型应对复杂场景。
教育
文本
图像
表格
数据集包含 33502 个工业电气符号,以 33500 张 EPLAN IEC、NFPA、GB 电气符号的 PNG 图像形式呈现,附带完整技术元数据和 AI 生成的视觉描述。适用于自动化工程中电气符号的自动分类、电气原理图的工业 OCR、相关模型微调以及技术文档的视觉检索增强生成等场景。
制造
文本
图像
表格
数据集包含谷歌 Lyria 3 Pro 和 Suno v4.5 这两款领先 AI 模型生成的高保真音频样本。数据集格式为高比特率 MP3,采样率 44.1kHz,立体声,目标 BPM 在 85 - 128 之间。样本基于三种压力测试分类,用于频谱取证分析和生成式基准测试,评估 AI 在特定音乐场景下的表现,助力比较两款 AI 模型在复杂音乐环境中的优劣。
其他
音频
电子商务数据集涵盖了网络零售、农村电商、农产品、电商企业、电商直播等一站式电商数据监测、统计和分析服务数据,帮助客户及时掌握网络零售情况,把脉区域电商发展态势,支撑工作总结调度、地区排名、企业奖补、运营分析等场景,助力政府部门开展电商运行监测、发展分析研判、政策决策和公共服务,指导本地区电商产业发展。
其他
文本
RAG 实践数据集是为助力检索增强生成(RAG)系统的构建与评估而打造的多领域研究论文 PDF 数据集。数据集涵盖 AI、NLP、医疗保健、金融等多领域,以原始 PDF 格式呈现,模拟真实世界中数据摄取场景,存在检索噪声、文档长、相关性混杂等挑战。适用于 RAG 系统开发、文档检索实验、嵌入模型评估等,帮助研究人员理解 RAG 局限性并探索改进方法。
教育
文本
其他
数据集基于多场比赛的单圈级别数据。把原始遥测数据转化为结构化形式,精心构建多种特征,像轮胎磨损、比赛进程等相关指标,还设有 “PitNextLap” 目标变量用于预测车手下一圈是否进站。适用于预测进站决策、赛事策略建模、轮胎磨损分析等场景,对 F1 赛事策略研究和机器学习应用极具价值,适合不同水平的用户用来学习。
文旅
文本
表格
数据集为马萨诸塞州综合医院 2011 - 2022 年约 1000 名患者的合成数据。涵盖患者人口统计、保险覆盖、医疗就诊及治疗程序等信息。可用于分析患者入院及再入院情况、平均住院时长、每次就诊平均费用,以及保险覆盖治疗程序数量等。有助于医院进行资源规划、费用管理和保险政策评估。
医疗
文本
表格
数据集源自 Retraction Watch 数据库,经筛选、清理等处理,包含 64,267 篇撤稿科学出版物的元数据及相关链接。数据涵盖标题、期刊、撤稿原因等多字段,可用于时间序列分析、分类建模等数据科学应用。适用于研究人员分析科研诚信、出版模式等,助力提升科研质量。
教育
文本
表格
该数据集聚焦于苏打水瓶装生产线,包含生产效率与停机时间相关数据,具体涵盖每批产品的操作员、产品详情、生产起止时间以及停机因素等。可用于分析生产线当前效率,排查表现不佳的操作员,找出导致停机的主要因素,以及确定是否有操作员在特定操作失误上存在困扰。有助于企业提升生产管理水平,优化生产流程,提高生产效率。
制造
文本
表格