数据集聚焦一家欧洲银行 10,000 名客户的账户信息,涵盖信用评分、账户余额、产品信息及客户是否流失等关键数据。可用于分析客户流失原因、预测流失可能性、研究客户总体特征、比较不同国籍客户行为差异以及对客户进行细分等场景,为银行制定客户关系管理策略提供有力数据支持。
金融
文本
表格
该数据集聚焦 2010 - 2024 年中国 42 个城市生活成本与薪资对比,数据源于中国国家统计局工资报告及 Numbeo 等。涵盖城市层级、人口、工资、生活成本等多方面信息,可用于分析中国城市经济发展、居民生活负担、探究工资增长与通货膨胀关系、各层级城市发展差异等,为研究中国城市经济社会状况提供有力数据支持。
社会治理
文本
表格
该数据集为虚构视频流媒体平台 MavenFlix 的订阅记录,涵盖 2022 年 9 月至 2023 年 9 月约 2900 名订阅者信息。每条记录包含客户订阅的关键数据,如订阅费用、创建与取消日期、订阅间隔及支付状态。适用于分析平台订阅趋势、客户留存等情况,助于了解平台运营状况和用户行为。
其他
文本
表格
数据集涵盖 1957 年至 2024 年轨道与亚轨道太空发射的完整历史,包含 7500 次发射等丰富信息,分属 5 个时代,涉及 92 种火箭、35 个发射场等。数据集含 5 个文件,记录发射、组织、火箭等详细数据。适用于分析发射成功率、成本变化、国家竞争等太空领域相关研究。
其他
文本
表格
数据集源自暗能量光谱仪数据发布,包含 5 万个经光谱确认的天文天体记录,涵盖恒星、星系和类星体,跨度达 124 亿光年。数据集含 51 列,覆盖天球坐标、光谱红移等多方面数据,且在三个光谱类别上平衡。适用于多类光谱分类、光度红移回归等数据科学研究,助力探索宇宙天体奥秘与宇宙学研究。
教育
文本
表格
数据集模拟大型零售公司固定资产登记册,含 10 万项资产的财务、运营及审计相关属性。可用于探索性数据分析、机器学习、财务建模以及审计与风险分析等场景。为研究零售企业固定资产管理,挖掘财务与审计信息提供有力数据支持,助力企业优化资产管理策略。
消费
文本
表格
数据集结合真实与合成数据,模拟碳定年实际状况,用于估算考古及环境样本年代。数据集含原始实验室测量值与反映测量噪声、污染等变化的合成样本。通过多个特征,适用于借助回归模型预测样本年代、处理嘈杂科学数据、开展特征工程及研究测量影响等场景,为碳定年相关研究及模型评估提供实用数据。
教育
文本
表格
该数据聚焦劳动力管理(WFM),构建端到端数据管道与 KPI 仪表板。针对企业 WFM 数据来源多样、队列名杂乱等常见问题,利用 Python、PySpark 等技术,从多数据源获取数据,经清洗、标准化等处理,生成适合预测、KPI 验证及自动化的 SQL 主数据集,可用于需求预测、Power BI 可视化等场景,展示数据工程全流程概念与实践。
教育
文本
表格
生物&化学
数据集聚焦黄金这一重要宏观经济资产的定价行为。借助先进统计与可视化技术,可全面探索黄金市场动态。涵盖市场结构可视化、波动聚集性等多个关键分析主题,应用交互式蜡烛图等多种可视化技术。适用于研究人员在制定策略前,通过可视化分析挖掘黄金市场隐藏结构,洞察市场动态与金融稳定状况。
金融
文本
表格
分子相互作用流形与活性悬崖数据集,完全合成且达科研级别,用于模拟化学空间特性。与传统分子数据集不同,它采用多视角、关系型且具流形感知的表示法,融合多种特征于统一框架。适用于药物发现、分子相似性学习等高级机器学习任务,其独特架构弥补了学术与现实药物发现数据间差距,推动模型应对复杂场景。
教育
文本
图像
表格
数据集包含 33502 个工业电气符号,以 33500 张 EPLAN IEC、NFPA、GB 电气符号的 PNG 图像形式呈现,附带完整技术元数据和 AI 生成的视觉描述。适用于自动化工程中电气符号的自动分类、电气原理图的工业 OCR、相关模型微调以及技术文档的视觉检索增强生成等场景。
制造
文本
图像
表格
数据集包含谷歌 Lyria 3 Pro 和 Suno v4.5 这两款领先 AI 模型生成的高保真音频样本。数据集格式为高比特率 MP3,采样率 44.1kHz,立体声,目标 BPM 在 85 - 128 之间。样本基于三种压力测试分类,用于频谱取证分析和生成式基准测试,评估 AI 在特定音乐场景下的表现,助力比较两款 AI 模型在复杂音乐环境中的优劣。
其他
音频
电子商务数据集涵盖了网络零售、农村电商、农产品、电商企业、电商直播等一站式电商数据监测、统计和分析服务数据,帮助客户及时掌握网络零售情况,把脉区域电商发展态势,支撑工作总结调度、地区排名、企业奖补、运营分析等场景,助力政府部门开展电商运行监测、发展分析研判、政策决策和公共服务,指导本地区电商产业发展。
其他
文本
RAG 实践数据集是为助力检索增强生成(RAG)系统的构建与评估而打造的多领域研究论文 PDF 数据集。数据集涵盖 AI、NLP、医疗保健、金融等多领域,以原始 PDF 格式呈现,模拟真实世界中数据摄取场景,存在检索噪声、文档长、相关性混杂等挑战。适用于 RAG 系统开发、文档检索实验、嵌入模型评估等,帮助研究人员理解 RAG 局限性并探索改进方法。
教育
文本
其他
数据集基于多场比赛的单圈级别数据。把原始遥测数据转化为结构化形式,精心构建多种特征,像轮胎磨损、比赛进程等相关指标,还设有 “PitNextLap” 目标变量用于预测车手下一圈是否进站。适用于预测进站决策、赛事策略建模、轮胎磨损分析等场景,对 F1 赛事策略研究和机器学习应用极具价值,适合不同水平的用户用来学习。
文旅
文本
表格
数据集为马萨诸塞州综合医院 2011 - 2022 年约 1000 名患者的合成数据。涵盖患者人口统计、保险覆盖、医疗就诊及治疗程序等信息。可用于分析患者入院及再入院情况、平均住院时长、每次就诊平均费用,以及保险覆盖治疗程序数量等。有助于医院进行资源规划、费用管理和保险政策评估。
医疗
文本
表格
数据集源自 Retraction Watch 数据库,经筛选、清理等处理,包含 64,267 篇撤稿科学出版物的元数据及相关链接。数据涵盖标题、期刊、撤稿原因等多字段,可用于时间序列分析、分类建模等数据科学应用。适用于研究人员分析科研诚信、出版模式等,助力提升科研质量。
教育
文本
表格
该数据集聚焦于苏打水瓶装生产线,包含生产效率与停机时间相关数据,具体涵盖每批产品的操作员、产品详情、生产起止时间以及停机因素等。可用于分析生产线当前效率,排查表现不佳的操作员,找出导致停机的主要因素,以及确定是否有操作员在特定操作失误上存在困扰。有助于企业提升生产管理水平,优化生产流程,提高生产效率。
制造
文本
表格
数据集涵盖 1970 年至 2022 年发布的乐高套装信息,包含每套的主题、零件数、推荐年龄、零售价格及图片。适用于分析乐高套装发布数量趋势,探究价格与零件数的关系,挖掘各十年最热门主题,以及研究乐高小人仔与授权套装的关联。为乐高爱好者、市场研究者、行业分析人员等提供数据支持,助力了解乐高产品发展与市场偏好。
消费
文本
表格
数据集涵盖 2015 至 2025 年,卡拉奇中等教育委员会 12 年级计算机科学试卷题目。包含选择题、简答题和长答题,聚焦试卷二理论部分。适用于备考学生系统复习,熟悉题型与考点,教师用于出题、调整教学,研究人员分析出题规律,开发人员构建教育工具,助力计算机科学教学与学习。
教育
文本
表格
现代艺术博物馆(MoMA)馆藏数据集包含 157,630 条记录,覆盖 MoMA 收藏并录入数据库的所有作品。数据集涵盖作品标题、艺术家、创作日期、媒介、尺寸及收购日期等基本元数据,部分记录信息标注 “未经批准”。适用于分析艺术品的 “现代性”、热门艺术家、收购日期趋势及常见艺术品类型等,助力深入了解 MoMA 馆藏特点与艺术发展脉络。
文旅
文本
表格
数据集聚焦一家欧洲银行 10,000 名客户的账户信息,涵盖信用评分、账户余额、产品信息及客户是否流失等关键数据。可用于分析客户流失原因、预测流失可能性、研究客户总体特征、比较不同国籍客户行为差异以及对客户进行细分等场景,为银行制定客户关系管理策略提供有力数据支持。
金融
文本
表格
该数据集聚焦 2010 - 2024 年中国 42 个城市生活成本与薪资对比,数据源于中国国家统计局工资报告及 Numbeo 等。涵盖城市层级、人口、工资、生活成本等多方面信息,可用于分析中国城市经济发展、居民生活负担、探究工资增长与通货膨胀关系、各层级城市发展差异等,为研究中国城市经济社会状况提供有力数据支持。
社会治理
文本
表格
该数据集为虚构视频流媒体平台 MavenFlix 的订阅记录,涵盖 2022 年 9 月至 2023 年 9 月约 2900 名订阅者信息。每条记录包含客户订阅的关键数据,如订阅费用、创建与取消日期、订阅间隔及支付状态。适用于分析平台订阅趋势、客户留存等情况,助于了解平台运营状况和用户行为。
其他
文本
表格
数据集涵盖 1957 年至 2024 年轨道与亚轨道太空发射的完整历史,包含 7500 次发射等丰富信息,分属 5 个时代,涉及 92 种火箭、35 个发射场等。数据集含 5 个文件,记录发射、组织、火箭等详细数据。适用于分析发射成功率、成本变化、国家竞争等太空领域相关研究。
其他
文本
表格
数据集源自暗能量光谱仪数据发布,包含 5 万个经光谱确认的天文天体记录,涵盖恒星、星系和类星体,跨度达 124 亿光年。数据集含 51 列,覆盖天球坐标、光谱红移等多方面数据,且在三个光谱类别上平衡。适用于多类光谱分类、光度红移回归等数据科学研究,助力探索宇宙天体奥秘与宇宙学研究。
教育
文本
表格
数据集模拟大型零售公司固定资产登记册,含 10 万项资产的财务、运营及审计相关属性。可用于探索性数据分析、机器学习、财务建模以及审计与风险分析等场景。为研究零售企业固定资产管理,挖掘财务与审计信息提供有力数据支持,助力企业优化资产管理策略。
消费
文本
表格
数据集结合真实与合成数据,模拟碳定年实际状况,用于估算考古及环境样本年代。数据集含原始实验室测量值与反映测量噪声、污染等变化的合成样本。通过多个特征,适用于借助回归模型预测样本年代、处理嘈杂科学数据、开展特征工程及研究测量影响等场景,为碳定年相关研究及模型评估提供实用数据。
教育
文本
表格
该数据聚焦劳动力管理(WFM),构建端到端数据管道与 KPI 仪表板。针对企业 WFM 数据来源多样、队列名杂乱等常见问题,利用 Python、PySpark 等技术,从多数据源获取数据,经清洗、标准化等处理,生成适合预测、KPI 验证及自动化的 SQL 主数据集,可用于需求预测、Power BI 可视化等场景,展示数据工程全流程概念与实践。
教育
文本
表格
生物&化学
数据集聚焦黄金这一重要宏观经济资产的定价行为。借助先进统计与可视化技术,可全面探索黄金市场动态。涵盖市场结构可视化、波动聚集性等多个关键分析主题,应用交互式蜡烛图等多种可视化技术。适用于研究人员在制定策略前,通过可视化分析挖掘黄金市场隐藏结构,洞察市场动态与金融稳定状况。
金融
文本
表格
分子相互作用流形与活性悬崖数据集,完全合成且达科研级别,用于模拟化学空间特性。与传统分子数据集不同,它采用多视角、关系型且具流形感知的表示法,融合多种特征于统一框架。适用于药物发现、分子相似性学习等高级机器学习任务,其独特架构弥补了学术与现实药物发现数据间差距,推动模型应对复杂场景。
教育
文本
图像
表格
数据集包含 33502 个工业电气符号,以 33500 张 EPLAN IEC、NFPA、GB 电气符号的 PNG 图像形式呈现,附带完整技术元数据和 AI 生成的视觉描述。适用于自动化工程中电气符号的自动分类、电气原理图的工业 OCR、相关模型微调以及技术文档的视觉检索增强生成等场景。
制造
文本
图像
表格
数据集包含谷歌 Lyria 3 Pro 和 Suno v4.5 这两款领先 AI 模型生成的高保真音频样本。数据集格式为高比特率 MP3,采样率 44.1kHz,立体声,目标 BPM 在 85 - 128 之间。样本基于三种压力测试分类,用于频谱取证分析和生成式基准测试,评估 AI 在特定音乐场景下的表现,助力比较两款 AI 模型在复杂音乐环境中的优劣。
其他
音频
电子商务数据集涵盖了网络零售、农村电商、农产品、电商企业、电商直播等一站式电商数据监测、统计和分析服务数据,帮助客户及时掌握网络零售情况,把脉区域电商发展态势,支撑工作总结调度、地区排名、企业奖补、运营分析等场景,助力政府部门开展电商运行监测、发展分析研判、政策决策和公共服务,指导本地区电商产业发展。
其他
文本
RAG 实践数据集是为助力检索增强生成(RAG)系统的构建与评估而打造的多领域研究论文 PDF 数据集。数据集涵盖 AI、NLP、医疗保健、金融等多领域,以原始 PDF 格式呈现,模拟真实世界中数据摄取场景,存在检索噪声、文档长、相关性混杂等挑战。适用于 RAG 系统开发、文档检索实验、嵌入模型评估等,帮助研究人员理解 RAG 局限性并探索改进方法。
教育
文本
其他
数据集基于多场比赛的单圈级别数据。把原始遥测数据转化为结构化形式,精心构建多种特征,像轮胎磨损、比赛进程等相关指标,还设有 “PitNextLap” 目标变量用于预测车手下一圈是否进站。适用于预测进站决策、赛事策略建模、轮胎磨损分析等场景,对 F1 赛事策略研究和机器学习应用极具价值,适合不同水平的用户用来学习。
文旅
文本
表格
数据集为马萨诸塞州综合医院 2011 - 2022 年约 1000 名患者的合成数据。涵盖患者人口统计、保险覆盖、医疗就诊及治疗程序等信息。可用于分析患者入院及再入院情况、平均住院时长、每次就诊平均费用,以及保险覆盖治疗程序数量等。有助于医院进行资源规划、费用管理和保险政策评估。
医疗
文本
表格
数据集源自 Retraction Watch 数据库,经筛选、清理等处理,包含 64,267 篇撤稿科学出版物的元数据及相关链接。数据涵盖标题、期刊、撤稿原因等多字段,可用于时间序列分析、分类建模等数据科学应用。适用于研究人员分析科研诚信、出版模式等,助力提升科研质量。
教育
文本
表格
该数据集聚焦于苏打水瓶装生产线,包含生产效率与停机时间相关数据,具体涵盖每批产品的操作员、产品详情、生产起止时间以及停机因素等。可用于分析生产线当前效率,排查表现不佳的操作员,找出导致停机的主要因素,以及确定是否有操作员在特定操作失误上存在困扰。有助于企业提升生产管理水平,优化生产流程,提高生产效率。
制造
文本
表格
数据集涵盖 1970 年至 2022 年发布的乐高套装信息,包含每套的主题、零件数、推荐年龄、零售价格及图片。适用于分析乐高套装发布数量趋势,探究价格与零件数的关系,挖掘各十年最热门主题,以及研究乐高小人仔与授权套装的关联。为乐高爱好者、市场研究者、行业分析人员等提供数据支持,助力了解乐高产品发展与市场偏好。
消费
文本
表格
数据集涵盖 2015 至 2025 年,卡拉奇中等教育委员会 12 年级计算机科学试卷题目。包含选择题、简答题和长答题,聚焦试卷二理论部分。适用于备考学生系统复习,熟悉题型与考点,教师用于出题、调整教学,研究人员分析出题规律,开发人员构建教育工具,助力计算机科学教学与学习。
教育
文本
表格
现代艺术博物馆(MoMA)馆藏数据集包含 157,630 条记录,覆盖 MoMA 收藏并录入数据库的所有作品。数据集涵盖作品标题、艺术家、创作日期、媒介、尺寸及收购日期等基本元数据,部分记录信息标注 “未经批准”。适用于分析艺术品的 “现代性”、热门艺术家、收购日期趋势及常见艺术品类型等,助力深入了解 MoMA 馆藏特点与艺术发展脉络。
文旅
文本
表格