数据集含有超 3000 张 DICOM 格式的数字化乳腺 X 光图像,针对 14 种以上乳腺病症进行像素级标注。该数据集适用于乳腺癌检测、病损分割,可助力医学成像领域的深度学习模型训练,为乳腺癌早期诊断提供关键数据支持,在医学与计算机视觉交叉领域具有重要价值。
医疗
图像
数据集含超 1000 份带注释的脑部 CT 扫描图像,涉及 10 种病症。以 Nii 格式存储,专为肿瘤分割、脑出血检测等任务设计。适用于医学领域中机器学习模型的训练,辅助实现语义分割、治疗方案规划等,助力对脑组织、结构和损伤的精确分析,推动脑部疾病诊断与治疗技术发展。
医疗
图像
数据集规模庞大,含超 150,000 张标注病症的胸部 CT 图像,涵盖 24 种病症。以 DICOM 格式存储,适用于医学领域肺部疾病检测、癌症诊断等任务,为训练深度学习模型提供丰富数据,助力计算机视觉在医学成像中的应用。
医疗
文本
图像
含Cot 思维链推理的完整人机AI协同创作过程认知图谱训练数据集(江苏公示名称) 由17份跨十多个领域首创性作品的约3000万字完整创作过程数据含CoT组成,完整记录了从灵感萌发到定稿的人机交互全过程,开创了"个人人机协同完整创作过程合规数据集资产"这一全新品类且含CoT。全球公开可查询范围内个人人机协同作品完整创作过程数据集未有先例。作者使用9份作品对72B开源模型进行微调对照实验详见数据集介绍
其他
文本
数据集包含 500 个以上来自城市路口和人行横道交通摄像头的视频,采用边界框标记,标注有时间、天气、车流量、行人数量及交通灯状态等元数据。适用于计算机视觉和机器学习领域,可用于实时交通场景下的车辆与行人检测、交通监控,为智慧城市的交通监测与预测提供数据支持。
交通
视频
数据集包含 2488 张以上水表图像,每组图像含照片及分割掩码各 1 个,并通过 OCR 标注水表读数及读数位置。适用于计算机视觉与机器学习领域,可支持 AI 模型完成水表读数和检测任务,应用于智慧城市的用水监测、客户服务优化及废水处理与供水系统提升等场景。
社会治理
图像
表格
数据集涵盖 5000 多张杂货店高质量货架图像,对商品的摆放正面、翻转、被遮挡等属性进行标注。适用于计算机视觉领域的产品检测、目标识别和图像分类任务,可支持零售自动化,如库存管理,以及杂货配送应用,助力提升零售行业运营效率和服务质量。
消费
图像
数据集包含 5000 多张处于满、空、垃圾散落等不同状态垃圾桶的标注图像。适用于计算机视觉、目标检测及机器学习领域,可训练分类模型和检测系统,助力智慧城市的垃圾类别划分、垃圾分类及垃圾收集工作,推动城市垃圾管理智能化发展。
社会治理
图像
数据集含 647 张密集人群图像,标注有人群规模相关关键点及人群密度类型等元数据,人群人数在 1000 - 13000 人。适用于智慧城市管理、安全监控等场景,可用于训练深度学习模型以实现人群计数、目标检测与计算机视觉任务,辅助进行大规模人群的管理与分析。
政务服务
图像
数据集包含超 10 小时来自阿联酋 20 多位阿拉伯语母语者的电话音质对话音频,以多种格式呈现且带注释,背景噪音低。适用于训练语音识别系统、对话模型及阿拉伯语语言处理工具,为阿拉伯语语音技术研究和应用开发,如语音助手、翻译系统等提供有力数据支持。
其他
音频
数据集涵盖超 10 小时 20 多位斯洛文尼亚语母语者的电话录音对话,以低噪的 MP3 和 WAV 格式呈现,音频片段约一分钟长,并带有结构化注释。适合用于斯洛文尼亚语语音识别、口语处理及语言模型训练,助力斯洛文尼亚语相关语音技术的研究与应用开发。
其他
音频
数据集包含超 10 小时越南语母语者的电话音质音频,源自 20 多位说话者,有详细注释。它为语音识别提供多样语料,为自然语言处理模型提供训练数据,适用于机器学习、多方言处理及语音 AI 系统基准测试,助力越南语语音技术在多领域的研究与应用开发。
其他
音频
数据集含超 10 小时 20 多位葡萄牙语母语者的电话对话音频,带详细注释、转录文本及说话者元数据。适用于训练语音识别、自然语言处理及机器学习模型。可用于开发葡萄牙语语音助手、优化语音转文字系统,助力葡萄牙语相关语音技术在多领域的应用与发展。
其他
音频
数据集包含 10 小时西班牙语母语者间的真实电话对话音频,配有 ID、语言等详细注释,专为训练西班牙语语音识别与自然语言处理模型设计。可用于开发西班牙语自动语音应用,如语音助手,或优化语言模型,辅助自然语言处理任务,助力西班牙语语音技术在实际场景中的应用。
其他
音频
数据集包含超 10 小时日语电话对话音频,采集自 20 多位日语母语者,涵盖多主题与领域。以音频数据为主,标注有 ID、语言等信息,由常见手机录制。适用于语音识别与自然语言处理任务,能为日语语音助手开发、日语语音转文字系统优化等提供关键数据支持,助力日语相关语音技术发展。
其他
音频
其他
数据集含 1760 小时医疗通话音频,涵盖医疗设备推广等多种场景,音频格式有 MP3 和 WAV,配 JSON 与 DOCX 转录文本,标注元数据。适用于语音识别、音频分类等任务,为医疗保健 AI 开发、语言模型优化提供优质数据,可助力医疗语音助手、智能诊断系统等应用的研发。
医疗
音频
数据集专为手部识别与计算机视觉研究打造,含 500,000 张标注图像,源于 50,000 人的数据采集。每套数据包含 6 张手掌照片、2 张打印手掌图像及 2 个回放视频,并配有年龄、性别等详细元数据。可用于开发和评估手部识别算法,在安防、身份验证等涉及手部识别的场景有重要应用。
其他
图像
数据集源于美国国家海洋和大气管理局及国家气象局风暴预测中心数据库。覆盖 1950 - 2025 年美国龙卷风多方面信息,如编号、时间、地点、强度、伤亡及财产损失等,可为气象研究、灾害评估等提供全面且较新的数据支持。
其他
文本
数据集由 15,000 条逼真的合成记录构成,含 30 个面向业务的数值特征,全面涵盖配送表现、客户行为等多个关键领域信息。数据结构反映真实业务模式,虽含少量缺失值和异常值,但整体均衡、格式简洁,适用于探索性分析、可视化展示及预测建模等现代分析工作流程,助力食品配送平台优化运营与提升客户体验。
消费
文本
表格
多智能体 - X是首个多语言智能体函数调用开源数据集,含 10,551 条记录,覆盖 12 种语言、7 种书写系统及 5 个关键领域。数据集按训练、开发、测试集划分,可用于多语言函数调用模型的训练与评估,在医疗、农业等关乎生命的关键领域的智能体应用开发中有重要价值。
其他
文本
数据集源自 NASA C - MAPSS 喷气发动机模拟数据,经整理优化适用于机器学习相关任务。数据集按复杂程度分为四个实验场景,涵盖多台发动机在多个运行周期的多变量时间序列数据。每个场景包含训练、测试及真实剩余使用寿命(RUL)值的文件。可用于预测发动机剩余寿命、开展预测性维护以及进行异常检测和健康阶段分类等研究,适合不同水平的机器学习项目。
制造
文本
表格
数据集含有超 3000 张 DICOM 格式的数字化乳腺 X 光图像,针对 14 种以上乳腺病症进行像素级标注。该数据集适用于乳腺癌检测、病损分割,可助力医学成像领域的深度学习模型训练,为乳腺癌早期诊断提供关键数据支持,在医学与计算机视觉交叉领域具有重要价值。
医疗
图像
数据集含超 1000 份带注释的脑部 CT 扫描图像,涉及 10 种病症。以 Nii 格式存储,专为肿瘤分割、脑出血检测等任务设计。适用于医学领域中机器学习模型的训练,辅助实现语义分割、治疗方案规划等,助力对脑组织、结构和损伤的精确分析,推动脑部疾病诊断与治疗技术发展。
医疗
图像
数据集规模庞大,含超 150,000 张标注病症的胸部 CT 图像,涵盖 24 种病症。以 DICOM 格式存储,适用于医学领域肺部疾病检测、癌症诊断等任务,为训练深度学习模型提供丰富数据,助力计算机视觉在医学成像中的应用。
医疗
文本
图像
含Cot 思维链推理的完整人机AI协同创作过程认知图谱训练数据集(江苏公示名称) 由17份跨十多个领域首创性作品的约3000万字完整创作过程数据含CoT组成,完整记录了从灵感萌发到定稿的人机交互全过程,开创了"个人人机协同完整创作过程合规数据集资产"这一全新品类且含CoT。全球公开可查询范围内个人人机协同作品完整创作过程数据集未有先例。作者使用9份作品对72B开源模型进行微调对照实验详见数据集介绍
其他
文本
数据集包含 500 个以上来自城市路口和人行横道交通摄像头的视频,采用边界框标记,标注有时间、天气、车流量、行人数量及交通灯状态等元数据。适用于计算机视觉和机器学习领域,可用于实时交通场景下的车辆与行人检测、交通监控,为智慧城市的交通监测与预测提供数据支持。
交通
视频
数据集包含 2488 张以上水表图像,每组图像含照片及分割掩码各 1 个,并通过 OCR 标注水表读数及读数位置。适用于计算机视觉与机器学习领域,可支持 AI 模型完成水表读数和检测任务,应用于智慧城市的用水监测、客户服务优化及废水处理与供水系统提升等场景。
社会治理
图像
表格
数据集涵盖 5000 多张杂货店高质量货架图像,对商品的摆放正面、翻转、被遮挡等属性进行标注。适用于计算机视觉领域的产品检测、目标识别和图像分类任务,可支持零售自动化,如库存管理,以及杂货配送应用,助力提升零售行业运营效率和服务质量。
消费
图像
数据集包含 5000 多张处于满、空、垃圾散落等不同状态垃圾桶的标注图像。适用于计算机视觉、目标检测及机器学习领域,可训练分类模型和检测系统,助力智慧城市的垃圾类别划分、垃圾分类及垃圾收集工作,推动城市垃圾管理智能化发展。
社会治理
图像
数据集含 647 张密集人群图像,标注有人群规模相关关键点及人群密度类型等元数据,人群人数在 1000 - 13000 人。适用于智慧城市管理、安全监控等场景,可用于训练深度学习模型以实现人群计数、目标检测与计算机视觉任务,辅助进行大规模人群的管理与分析。
政务服务
图像
数据集包含超 10 小时来自阿联酋 20 多位阿拉伯语母语者的电话音质对话音频,以多种格式呈现且带注释,背景噪音低。适用于训练语音识别系统、对话模型及阿拉伯语语言处理工具,为阿拉伯语语音技术研究和应用开发,如语音助手、翻译系统等提供有力数据支持。
其他
音频
数据集涵盖超 10 小时 20 多位斯洛文尼亚语母语者的电话录音对话,以低噪的 MP3 和 WAV 格式呈现,音频片段约一分钟长,并带有结构化注释。适合用于斯洛文尼亚语语音识别、口语处理及语言模型训练,助力斯洛文尼亚语相关语音技术的研究与应用开发。
其他
音频
数据集包含超 10 小时越南语母语者的电话音质音频,源自 20 多位说话者,有详细注释。它为语音识别提供多样语料,为自然语言处理模型提供训练数据,适用于机器学习、多方言处理及语音 AI 系统基准测试,助力越南语语音技术在多领域的研究与应用开发。
其他
音频
数据集含超 10 小时 20 多位葡萄牙语母语者的电话对话音频,带详细注释、转录文本及说话者元数据。适用于训练语音识别、自然语言处理及机器学习模型。可用于开发葡萄牙语语音助手、优化语音转文字系统,助力葡萄牙语相关语音技术在多领域的应用与发展。
其他
音频
数据集包含 10 小时西班牙语母语者间的真实电话对话音频,配有 ID、语言等详细注释,专为训练西班牙语语音识别与自然语言处理模型设计。可用于开发西班牙语自动语音应用,如语音助手,或优化语言模型,辅助自然语言处理任务,助力西班牙语语音技术在实际场景中的应用。
其他
音频
数据集包含超 10 小时日语电话对话音频,采集自 20 多位日语母语者,涵盖多主题与领域。以音频数据为主,标注有 ID、语言等信息,由常见手机录制。适用于语音识别与自然语言处理任务,能为日语语音助手开发、日语语音转文字系统优化等提供关键数据支持,助力日语相关语音技术发展。
其他
音频
其他
数据集含 1760 小时医疗通话音频,涵盖医疗设备推广等多种场景,音频格式有 MP3 和 WAV,配 JSON 与 DOCX 转录文本,标注元数据。适用于语音识别、音频分类等任务,为医疗保健 AI 开发、语言模型优化提供优质数据,可助力医疗语音助手、智能诊断系统等应用的研发。
医疗
音频
数据集专为手部识别与计算机视觉研究打造,含 500,000 张标注图像,源于 50,000 人的数据采集。每套数据包含 6 张手掌照片、2 张打印手掌图像及 2 个回放视频,并配有年龄、性别等详细元数据。可用于开发和评估手部识别算法,在安防、身份验证等涉及手部识别的场景有重要应用。
其他
图像
数据集源于美国国家海洋和大气管理局及国家气象局风暴预测中心数据库。覆盖 1950 - 2025 年美国龙卷风多方面信息,如编号、时间、地点、强度、伤亡及财产损失等,可为气象研究、灾害评估等提供全面且较新的数据支持。
其他
文本
数据集由 15,000 条逼真的合成记录构成,含 30 个面向业务的数值特征,全面涵盖配送表现、客户行为等多个关键领域信息。数据结构反映真实业务模式,虽含少量缺失值和异常值,但整体均衡、格式简洁,适用于探索性分析、可视化展示及预测建模等现代分析工作流程,助力食品配送平台优化运营与提升客户体验。
消费
文本
表格
多智能体 - X是首个多语言智能体函数调用开源数据集,含 10,551 条记录,覆盖 12 种语言、7 种书写系统及 5 个关键领域。数据集按训练、开发、测试集划分,可用于多语言函数调用模型的训练与评估,在医疗、农业等关乎生命的关键领域的智能体应用开发中有重要价值。
其他
文本
数据集源自 NASA C - MAPSS 喷气发动机模拟数据,经整理优化适用于机器学习相关任务。数据集按复杂程度分为四个实验场景,涵盖多台发动机在多个运行周期的多变量时间序列数据。每个场景包含训练、测试及真实剩余使用寿命(RUL)值的文件。可用于预测发动机剩余寿命、开展预测性维护以及进行异常检测和健康阶段分类等研究,适合不同水平的机器学习项目。
制造
文本
表格