数据集涵盖网飞平台上电影和电视剧的结构化信息,共 8807 条记录,12 列元数据,包括节目 ID、类型、标题等。数据含分类、文本和数字属性,部分列有缺失值。可用于分析数字娱乐趋势、内容分布等,为研究网飞内容生态及流媒体行业发展提供有力支持。
其他
文本
表格
数据集专为多类别图像分类任务设计,包含 40 种害虫的图像数据。通过对这些图像的学习,可训练模型准确识别不同害虫物种。该数据集在农业害虫监测、生物多样性研究等场景具有重要应用价值,有助于精准防治害虫,保护农作物和生态环境。
农业
文本
图像
数据集源于高能粒子物理实验,记录质子 - 质子碰撞产生粒子的运动学特性,像运行编号、动量分量、总能量等,可用性高。适用于粒子物理研究,如质量重建、信号与背景分类及异常检测,助力探索新物理现象,为相关领域科研提供重要数据支撑。
教育
文本
表格
数据集包含 120,000 条合成但高度逼真的医疗保险索赔数据,专为收入周期管理(RCM)、医疗保健人工智能及拒赔预测建模打造。数据涵盖 CPT 手术代码、ICD - 10 诊断代码等多类信息,且有独特的拒赔智能层,含 X12 拒赔原因代码等内容。适用于索赔拒赔预测、RCM 自动化等场景,为医疗领域相关人员提供有力数据支持。
医疗
文本
数据集由 Greenformance 公司为 GreenformanceOptimizer 项目创建,含一台 3D 打印机的真实世界时间序列数据,涵盖功耗与机器状态信息,并在 AIRoV 会议展示。可用于研究 3D 打印机功耗规律、优化能源利用及分析机器状态与功耗关系,助力 3D 打印行业绿色发展。
制造
文本
表格
数据集包含 47707 条官方车辆安全召回记录,覆盖多年、众多品牌与制造商。数据结合原始文件与 20 多个分析列,涵盖召回各关键信息。适用于消费者购车参考、制造商评估、监管分析等场景,助力提升车辆安全管理水平。
交通
文本
表格
数据集源自世界卫生组织全球卫生观察站,含 67,438 条观测,覆盖 200 个国家 34 年,整合 40 个相关指标。数据呈现三种疾病不同发展态势,可用于流行病学建模、负担评分等多领域,助力于了解全球性传播感染状况,制定针对性防控策略。
医疗
文本
表格
数据集含 16 万个 URL 样本,良性与恶意样本各 8 万,实现完美平衡。数据集经精心构建,含 24 个特征,基于词汇、结构和熵等,无需预处理即可用于训练评估机器学习模型检测网络钓鱼 URL。适用于高精度分类、特征分析及对抗性研究等,助力提升网络安全威胁检测能力。
教育
文本
表格
数据集是大规模合成医疗数据集,含 120,000 条患者记录与 26 个结构化特征,模拟真实可穿戴健康监测和患者风险评估场景。数据覆盖生命体征、生活方式等多方面,专为预测性医疗分析、早期疾病风险检测等设计,且针对多种常用数据处理和机器学习库优化,方便相关研究与应用。
医疗
文本
表格
数据集包含 2498 张 720p 分辨率的工业用小型载物箱堆垛的逼真合成图像,通过 NVIDIA Omniverse SORDI.ai 进行渲染。数据集利用不同级别的域随机化设置,从对象外观到背景环境再到光照进行随机化处理,同时具备多种数据采集设置。适用于计算机视觉相关研究,如模型训练,提升模型对不同场景的适应性。
制造
图像
数据集提供时间同步的同步相量通信数据,主要用于智能电网网络安全研究。数据涵盖正常通信及 FDI、TSA 攻击场景下 3 小时的网络流量,具备原始捕获、结构化表格及预处理的机器学习可用等多种数据形式,基于模拟智能电网测试平台构建并经文献与模型验证。适用于异常检测、入侵检测、智能电网网络安全研究等多个领域。
教育
文本
表格
数据集是大规模的模拟数据集,筛选后提供一个平衡的 5 万样本数据集。数据集涵盖材料属性、器件结构等多方面 48 个特征,用于可再生能源等研究。适用于机器学习模型训练、特征分析等任务,助力钙钛矿太阳能电池效率提升与结构优化,推动可再生能源领域发展。
能源
文本
表格
数据集围绕尼泊尔易受水文气象灾害的背景构建,以 2021 年梅拉姆奇洪水事件为契机开发,旨在为早期灾害预测系统提供支撑。数据源于尼泊尔 BIPAD 门户和 NASA POWER API,涵盖日降水量、土壤湿度等关键特征。适用于训练随机森林模型,助力提升滑坡和洪水灾害的预警能力,保护生命与基础设施。
社会治理
文本
表格
数据集聚焦 12 个非洲城市,为解决蛇咬伤问题而构建。数据集引入城市蛇类迁徙风险指数(USDRI),结合四种机制评估风险。数据源于 iNaturalist、GBIF 等,涉及蛇类目击、物种、医院距离等信息。适用于研究蛇类迁徙与城市发展关系,助力制定蛇咬伤预防策略,提升非洲城市蛇类安全管理水平。
社会治理
文本
表格
数据集拥有超 100 万高质量教育问答对话,专为训练 AI 聊天机器人、教育辅助工具和语言模型打造。数据覆盖 8 个教育类别,涵盖中小学及大学多样学术科目,答案经严格验证,采用便于使用的 CSV 格式,还会定期更新。适用于 AI 教育应用开发、语言模型优化等,助力提升 AI 教育服务质量。
其他
文本
表格
数据集包含 20万条标本观测记录,涉及100多种水生生物,覆盖地球各大水生生物群落。数据涵盖分类学、栖息地、生态学等多方面,源于多个权威生物数据库。适用于物种分类、保护状态预测、生物多样性研究等,助力水生生态研究与海洋保护。
其他
文本
表格
数据集涵盖一家美国全国性糖果经销商从工厂到客户的销售及地理空间运输信息。包含客户与工厂位置、销售订单与目标、产品细节等数据。适用于分析运输路线效率、产品利润率及优化产品线布局,助力经销商提升物流效率、降低成本、提高利润。
消费
文本
表格
数据集源于一家虚构的计算机硬件销售公司的 B2B 销售管道。它涵盖客户账户、产品、销售团队和销售机会等信息,可用于评估销售团队及个人表现、分析销售趋势和产品赢单率等。通过这些分析,能帮助企业优化销售策略、提升业绩、合理分配资源。
消费
文本
表格
数据集源自官方公开政府数据,涵盖 2020年至2024年洛杉矶市的详细犯罪报案记录。数据包含犯罪类型、地点、时间、受害者信息及案件状态等。适用于探索性数据分析、可视化展示,可构建机器学习模型用于犯罪预测、分类和趋势分析,也有助于研究犯罪时间规律、地理分布,洞察城市安全状况。
社会治理
文本
表格
数据集源于 NASA 的 NeoWS API,涵盖 1900 年 1 月 1 日至 2026 年 4 月 4 日的小行星信息,共 41 列 23,447 条记录。数据可用于搜索特定小行星或按与地球最近接近日期查找。适用于天文学研究,如分析小行星轨道特征、潜在危险性,助力了解小行星动态及对地球的潜在影响。
其他
文本
表格
数据集涵盖 3000 款有线和无线耳机产品,包含来自制造商数据表及零售平台的 30 项特征数据,无缺失值。数据涉及 50 多个品牌,发布年份在 2016 - 2024 年,价格 20 - 2000 美元不等。适用于探索性数据分析、机器学习、数据可视化及市场研究等场景,助力挖掘耳机市场规律与趋势。
消费
文本
表格
数据集涵盖网飞平台上电影和电视剧的结构化信息,共 8807 条记录,12 列元数据,包括节目 ID、类型、标题等。数据含分类、文本和数字属性,部分列有缺失值。可用于分析数字娱乐趋势、内容分布等,为研究网飞内容生态及流媒体行业发展提供有力支持。
其他
文本
表格
数据集专为多类别图像分类任务设计,包含 40 种害虫的图像数据。通过对这些图像的学习,可训练模型准确识别不同害虫物种。该数据集在农业害虫监测、生物多样性研究等场景具有重要应用价值,有助于精准防治害虫,保护农作物和生态环境。
农业
文本
图像
数据集源于高能粒子物理实验,记录质子 - 质子碰撞产生粒子的运动学特性,像运行编号、动量分量、总能量等,可用性高。适用于粒子物理研究,如质量重建、信号与背景分类及异常检测,助力探索新物理现象,为相关领域科研提供重要数据支撑。
教育
文本
表格
数据集包含 120,000 条合成但高度逼真的医疗保险索赔数据,专为收入周期管理(RCM)、医疗保健人工智能及拒赔预测建模打造。数据涵盖 CPT 手术代码、ICD - 10 诊断代码等多类信息,且有独特的拒赔智能层,含 X12 拒赔原因代码等内容。适用于索赔拒赔预测、RCM 自动化等场景,为医疗领域相关人员提供有力数据支持。
医疗
文本
数据集由 Greenformance 公司为 GreenformanceOptimizer 项目创建,含一台 3D 打印机的真实世界时间序列数据,涵盖功耗与机器状态信息,并在 AIRoV 会议展示。可用于研究 3D 打印机功耗规律、优化能源利用及分析机器状态与功耗关系,助力 3D 打印行业绿色发展。
制造
文本
表格
数据集包含 47707 条官方车辆安全召回记录,覆盖多年、众多品牌与制造商。数据结合原始文件与 20 多个分析列,涵盖召回各关键信息。适用于消费者购车参考、制造商评估、监管分析等场景,助力提升车辆安全管理水平。
交通
文本
表格
数据集源自世界卫生组织全球卫生观察站,含 67,438 条观测,覆盖 200 个国家 34 年,整合 40 个相关指标。数据呈现三种疾病不同发展态势,可用于流行病学建模、负担评分等多领域,助力于了解全球性传播感染状况,制定针对性防控策略。
医疗
文本
表格
数据集含 16 万个 URL 样本,良性与恶意样本各 8 万,实现完美平衡。数据集经精心构建,含 24 个特征,基于词汇、结构和熵等,无需预处理即可用于训练评估机器学习模型检测网络钓鱼 URL。适用于高精度分类、特征分析及对抗性研究等,助力提升网络安全威胁检测能力。
教育
文本
表格
数据集是大规模合成医疗数据集,含 120,000 条患者记录与 26 个结构化特征,模拟真实可穿戴健康监测和患者风险评估场景。数据覆盖生命体征、生活方式等多方面,专为预测性医疗分析、早期疾病风险检测等设计,且针对多种常用数据处理和机器学习库优化,方便相关研究与应用。
医疗
文本
表格
数据集包含 2498 张 720p 分辨率的工业用小型载物箱堆垛的逼真合成图像,通过 NVIDIA Omniverse SORDI.ai 进行渲染。数据集利用不同级别的域随机化设置,从对象外观到背景环境再到光照进行随机化处理,同时具备多种数据采集设置。适用于计算机视觉相关研究,如模型训练,提升模型对不同场景的适应性。
制造
图像
数据集提供时间同步的同步相量通信数据,主要用于智能电网网络安全研究。数据涵盖正常通信及 FDI、TSA 攻击场景下 3 小时的网络流量,具备原始捕获、结构化表格及预处理的机器学习可用等多种数据形式,基于模拟智能电网测试平台构建并经文献与模型验证。适用于异常检测、入侵检测、智能电网网络安全研究等多个领域。
教育
文本
表格
数据集是大规模的模拟数据集,筛选后提供一个平衡的 5 万样本数据集。数据集涵盖材料属性、器件结构等多方面 48 个特征,用于可再生能源等研究。适用于机器学习模型训练、特征分析等任务,助力钙钛矿太阳能电池效率提升与结构优化,推动可再生能源领域发展。
能源
文本
表格
数据集围绕尼泊尔易受水文气象灾害的背景构建,以 2021 年梅拉姆奇洪水事件为契机开发,旨在为早期灾害预测系统提供支撑。数据源于尼泊尔 BIPAD 门户和 NASA POWER API,涵盖日降水量、土壤湿度等关键特征。适用于训练随机森林模型,助力提升滑坡和洪水灾害的预警能力,保护生命与基础设施。
社会治理
文本
表格
数据集聚焦 12 个非洲城市,为解决蛇咬伤问题而构建。数据集引入城市蛇类迁徙风险指数(USDRI),结合四种机制评估风险。数据源于 iNaturalist、GBIF 等,涉及蛇类目击、物种、医院距离等信息。适用于研究蛇类迁徙与城市发展关系,助力制定蛇咬伤预防策略,提升非洲城市蛇类安全管理水平。
社会治理
文本
表格
数据集拥有超 100 万高质量教育问答对话,专为训练 AI 聊天机器人、教育辅助工具和语言模型打造。数据覆盖 8 个教育类别,涵盖中小学及大学多样学术科目,答案经严格验证,采用便于使用的 CSV 格式,还会定期更新。适用于 AI 教育应用开发、语言模型优化等,助力提升 AI 教育服务质量。
其他
文本
表格
数据集包含 20万条标本观测记录,涉及100多种水生生物,覆盖地球各大水生生物群落。数据涵盖分类学、栖息地、生态学等多方面,源于多个权威生物数据库。适用于物种分类、保护状态预测、生物多样性研究等,助力水生生态研究与海洋保护。
其他
文本
表格
数据集涵盖一家美国全国性糖果经销商从工厂到客户的销售及地理空间运输信息。包含客户与工厂位置、销售订单与目标、产品细节等数据。适用于分析运输路线效率、产品利润率及优化产品线布局,助力经销商提升物流效率、降低成本、提高利润。
消费
文本
表格
数据集源于一家虚构的计算机硬件销售公司的 B2B 销售管道。它涵盖客户账户、产品、销售团队和销售机会等信息,可用于评估销售团队及个人表现、分析销售趋势和产品赢单率等。通过这些分析,能帮助企业优化销售策略、提升业绩、合理分配资源。
消费
文本
表格
数据集源自官方公开政府数据,涵盖 2020年至2024年洛杉矶市的详细犯罪报案记录。数据包含犯罪类型、地点、时间、受害者信息及案件状态等。适用于探索性数据分析、可视化展示,可构建机器学习模型用于犯罪预测、分类和趋势分析,也有助于研究犯罪时间规律、地理分布,洞察城市安全状况。
社会治理
文本
表格
数据集源于 NASA 的 NeoWS API,涵盖 1900 年 1 月 1 日至 2026 年 4 月 4 日的小行星信息,共 41 列 23,447 条记录。数据可用于搜索特定小行星或按与地球最近接近日期查找。适用于天文学研究,如分析小行星轨道特征、潜在危险性,助力了解小行星动态及对地球的潜在影响。
其他
文本
表格
数据集涵盖 3000 款有线和无线耳机产品,包含来自制造商数据表及零售平台的 30 项特征数据,无缺失值。数据涉及 50 多个品牌,发布年份在 2016 - 2024 年,价格 20 - 2000 美元不等。适用于探索性数据分析、机器学习、数据可视化及市场研究等场景,助力挖掘耳机市场规律与趋势。
消费
文本
表格