该数据集系统覆盖现代物理理论的四大核心支柱(量子力学、电动力学、热力学统计物理、分析力学),是物理学中抽象程度最高、推理链条最长、数学结构最复杂的一类问题集合。其核心价值在于为 AI 提供科研级理论物理推理样本,解决模型在变分原理、算符形式主义、统计系综、电磁场理论等方面的能力缺失。典型应用于科研型 AI、理论物理辅助系统以及高端 AI for Science 模型的能力上限探索。
教育
文本
本数据集涵盖Cu-Ni-Co-Si、Cu-Fe-P、Cu-Cr-Zr等多个合金体系数据,按照成分配比、生产工艺、材料性能、微观结构的全链路关联主线,结构化收录了化学成分、工艺参数、显微组织特征及力学与物理性能等关键维度,有效解决了该领域实验数据分散、整合成本高的痛点,可为机器学习与材料计算提供高质量、即用型的数据集,直接支撑合金设计、性能预测与工艺优化等AI研发场景。
制造
文本
本数据集精选大学阶段普通物理经典习题,系统覆盖力学、热学、电磁学、振动与波、光学等内容,是高中物理向理论物理与工程物理过渡的关键桥梁。其核心价值在于提供“物理建模 → 数学表达 → 定量求解 → 物理意义解释”的完整推理样本,弥补模型在高于中学、低于专业理论物理层级的物理理解断层。典型应用于 AI 物理解题、科学推理模型训练、AI for Science 基础能力构建以及物理教育智能系统。
教育
文本
本数据集系统覆盖高中物理的力学、电磁学、热学与光学等核心模块,其题目设计强调物理建模、定量计算与物理意义分析。核心价值在于为AI提供大量从实际情境抽象为数学模型,再经数学推导求解的完整样本,专门针对模型在理解物理概念本质、判断公式适用条件及执行严谨多步计算等方面的短板进行训练。该数据集适用于开发专用物理解题模型、构建智能AI物理教辅系统,以及对通用大模型进行物理世界建模与科学推理能力的专项增强。
教育
文本
这不仅仅是一个数据集;它是一个鲜活的、不断发展的项目,在健康、营养和可持续发展领域有着切实的应用。无论您对营养、供应链还是食品对环境的影响感兴趣,您都有能力做出改变。
消费
文本
本数据集系统收录高中阶段数学核心题型,覆盖函数、数列、立体几何、解析几何、概率统计等高频与难点内容,完整体现高中数学的知识结构与解题逻辑。其核心价值在于为大模型提供结构化、层次清晰的基础数学推理样本,解决模型在基础数学理解、符号运算、逻辑推导与规范解题表达方面能力不足的问题。典型应用场景包括智能题库生成、AI 数学辅导、教育大模型预训练与对齐,以及通用推理模型的基础数学能力增强。
教育
文本
数据集聚焦2019-2025年全球数据中心的资源消耗情况,整合18110个真实数据中心的位置信息,结合行业模型生成水、电使用等运营指标,共包含12.6万余条记录、14项特征,为数据中心可持续性研究提供多维度、时序化的模拟数据,适用于时序预测、地理空间分析、可持续性研究及机器学习项目等场景。
能源
表格
数据集依托物理启发的环境关系,生成超430万条合成观测数据,覆盖50个城市的天气、空气质量等多维度信息,为环境研究提供高分辨率、多地域的模拟数据,可支撑AQI预测、污染分析等场景的数据需求,适用于AQI预测、气候研究、智慧城市规划及机器学习教学等领域。
社会治理
时序
表格
地理空间
数据集包含 552 张女性脱发相关的高分辨率头皮图像,覆盖276位女性受试者,每位提供顶部、正面2个视角的图像,标注信息关联Ludwig 脱发分级(3 类),同时配套年龄、性别、种族等元数据。图像格式为PNG、JPEG,标注文件以TXT格式呈现,可支撑脱发检测、头皮健康研究等模型训练,适配医疗诊断、美妆研发等多类应用场景。
医疗
图像
数据集包含超10小时韩语电话对话音频,由20多位韩语母语者录制,以M4A、MP3格式呈现,配套ID、语言、格式、时长等结构化标注,录制环境为低背景噪音的室内场景。数据集聚焦真实电话沟通场景,语音内容贴合日常服务、商务对话的口语特征,可直接支撑语音识别、自然语言处理等模型训练,适配通信服务、AI助手等多类实际应用场景。
其他
音频
数据集包含 2260 张高分辨率头皮图像,覆盖452位男性受试者,每位提供正面、顶部、背部、左侧、右侧共5个视角的图像,标注信息关联Norwood-Hamilton 脱发分级(7 类)及毛囊细节注释,同时配套性别、年龄、种族等元数据。图像以PNG、JPEG格式存储,标注文件采用TXT格式封装,可全方位支撑脱发检测、头皮健康分析等模型训练,s适用于医疗诊断、美妆研发等多类实际应用场景。
医疗
图像
数据集包含 10 小时以上的俄语电话对话音频,来源为 20 位以上俄语母语者,通过 Android 智能手机、iPhone 在低背景噪音的室内环境录制,音频格式涵盖 WAV、M4A、MP3,标注信息包括 ID、语言、格式、时长(分钟)。数据集聚焦真实场景的俄语口语对话,专门用于训练语音识别、自然语言处理类模型,适用于呼叫中心、多语言应用、AI 研究等多个领域。
其他
音频
数据集包含来自100个人的6000多张指纹图像,涵盖双手十指。这些图像通过ZKTeco ZK9500光学扫描仪采集,以PNG和BMP格式存储。数据集专为法医匹配、去噪和细节特征提取任务设计,提供了丰富的元数据标注,如性别、年龄、手指类型和手的方向等。该数据集适用于生物识别和安全研究领域,在消费设备安全认证、活体检测、政府与边境管控等多个场景中具有重要应用价值。
政务服务
图像
数据集包含 5000 个音频文件,涵盖真实人类录音与 AI 生成的语音样本,涉及 4 位说话者,支持 M4A、MP3 格式。主要用于深度伪造检测、生成语音分析、真假语音识别等任务,适用于网络安全、语音认证、媒体诚信等场景的模型开发与技术研究。
社会治理
音频
数据集包含超10000条MP4格式视频样本,涵盖“一”、“四”、“小”、“握拳“、“我”5种手部手势,由 UniData 团队通过众包服务采集,附带 ID、性别等元数据标注。该数据集专为手势识别类模型训练打造,适用于人机交互控制、医疗康复监测、AI 模型开发以及游戏娱乐交互等场景。
医疗
视频
数据集内含超30000条音频记录,覆盖狂喜、愉悦、悲伤、惊讶这四类常见情感。音频采用WAV、mpeg、amr格式,借助众包平台收集而来,并标注有文本内容、性别、年龄及国家等信息。该数据集专为训练情感与语音识别系统打造,适用于机器学习模型训练、人机交互优化、客户服务情感分析以及语音情感学术研究等场景。
教育
音频
数据集包含超 200 万份人类脑部 MRI 扫描图像及放射科医生报告,每次扫描约 30 个切片,层厚 1mm、层间距≤5mm 。覆盖 50 + 种病理,数据为 DiCOM 格式并搭配多维度标注。适用于脑部疾病诊断、医学研究及 AI 模型训练等场景。
医疗
文本
图像
数据集含 5000 + 高质量指纹图像,覆盖真实指纹及打印、重放等多种伪造攻击类型。专为指纹伪造与活体检测设计,提供不同设备、手指的标注数据,适用于训练评估生物识别安全及指纹识别系统,满足金融、移动设备等领域的反欺诈需求。
金融
图像
数据集包含 30000 张插画,分属 20 种艺术风格,如 3D、卡通等。以 PNG、JPG、JPEG 格式存储,分辨率至少 1024×1024 像素,均由专业插画师创作。数据集标注了风格、颜色等元数据,每组 10000 个文件。适用于图像分类、风格迁移等任务,为创意机器学习应用提供丰富训练数据。
其他
图像
数据集拥有超 5000 张带注释图像。图像涵盖不同年龄、场景个体的面部表情,标注 15 个地标点及 ID、性别元数据。以 jpg 格式存储图像,json 格式保存标注文件。适用于训练情感识别、表情分析和面部识别模型,为计算机视觉在面部分析领域的应用提供有力支持。
其他
图像
数据集是一款聚焦指纹生物识别安全的专业数据集,包含来自 100 名个体的 4000 余张指纹图像,通过 ZKTeco ZK9500 光学扫描仪采集,同时涵盖真实指纹与藻酸盐、橡皮泥、硅胶三类伪造材料制作的攻击样本。数据集附带性别、年龄、手指、手部、设备等元数据标注,适用于生物识别安全研究、伪造攻击检测、指纹识别模型训练等任务,为防范指纹伪造攻击的技术开发提供贴合实际场景的样本支持。
医疗
图像
该数据集系统覆盖现代物理理论的四大核心支柱(量子力学、电动力学、热力学统计物理、分析力学),是物理学中抽象程度最高、推理链条最长、数学结构最复杂的一类问题集合。其核心价值在于为 AI 提供科研级理论物理推理样本,解决模型在变分原理、算符形式主义、统计系综、电磁场理论等方面的能力缺失。典型应用于科研型 AI、理论物理辅助系统以及高端 AI for Science 模型的能力上限探索。
教育
文本
本数据集涵盖Cu-Ni-Co-Si、Cu-Fe-P、Cu-Cr-Zr等多个合金体系数据,按照成分配比、生产工艺、材料性能、微观结构的全链路关联主线,结构化收录了化学成分、工艺参数、显微组织特征及力学与物理性能等关键维度,有效解决了该领域实验数据分散、整合成本高的痛点,可为机器学习与材料计算提供高质量、即用型的数据集,直接支撑合金设计、性能预测与工艺优化等AI研发场景。
制造
文本
本数据集精选大学阶段普通物理经典习题,系统覆盖力学、热学、电磁学、振动与波、光学等内容,是高中物理向理论物理与工程物理过渡的关键桥梁。其核心价值在于提供“物理建模 → 数学表达 → 定量求解 → 物理意义解释”的完整推理样本,弥补模型在高于中学、低于专业理论物理层级的物理理解断层。典型应用于 AI 物理解题、科学推理模型训练、AI for Science 基础能力构建以及物理教育智能系统。
教育
文本
本数据集系统覆盖高中物理的力学、电磁学、热学与光学等核心模块,其题目设计强调物理建模、定量计算与物理意义分析。核心价值在于为AI提供大量从实际情境抽象为数学模型,再经数学推导求解的完整样本,专门针对模型在理解物理概念本质、判断公式适用条件及执行严谨多步计算等方面的短板进行训练。该数据集适用于开发专用物理解题模型、构建智能AI物理教辅系统,以及对通用大模型进行物理世界建模与科学推理能力的专项增强。
教育
文本
这不仅仅是一个数据集;它是一个鲜活的、不断发展的项目,在健康、营养和可持续发展领域有着切实的应用。无论您对营养、供应链还是食品对环境的影响感兴趣,您都有能力做出改变。
消费
文本
本数据集系统收录高中阶段数学核心题型,覆盖函数、数列、立体几何、解析几何、概率统计等高频与难点内容,完整体现高中数学的知识结构与解题逻辑。其核心价值在于为大模型提供结构化、层次清晰的基础数学推理样本,解决模型在基础数学理解、符号运算、逻辑推导与规范解题表达方面能力不足的问题。典型应用场景包括智能题库生成、AI 数学辅导、教育大模型预训练与对齐,以及通用推理模型的基础数学能力增强。
教育
文本
数据集聚焦2019-2025年全球数据中心的资源消耗情况,整合18110个真实数据中心的位置信息,结合行业模型生成水、电使用等运营指标,共包含12.6万余条记录、14项特征,为数据中心可持续性研究提供多维度、时序化的模拟数据,适用于时序预测、地理空间分析、可持续性研究及机器学习项目等场景。
能源
表格
数据集依托物理启发的环境关系,生成超430万条合成观测数据,覆盖50个城市的天气、空气质量等多维度信息,为环境研究提供高分辨率、多地域的模拟数据,可支撑AQI预测、污染分析等场景的数据需求,适用于AQI预测、气候研究、智慧城市规划及机器学习教学等领域。
社会治理
时序
表格
地理空间
数据集包含 552 张女性脱发相关的高分辨率头皮图像,覆盖276位女性受试者,每位提供顶部、正面2个视角的图像,标注信息关联Ludwig 脱发分级(3 类),同时配套年龄、性别、种族等元数据。图像格式为PNG、JPEG,标注文件以TXT格式呈现,可支撑脱发检测、头皮健康研究等模型训练,适配医疗诊断、美妆研发等多类应用场景。
医疗
图像
数据集包含超10小时韩语电话对话音频,由20多位韩语母语者录制,以M4A、MP3格式呈现,配套ID、语言、格式、时长等结构化标注,录制环境为低背景噪音的室内场景。数据集聚焦真实电话沟通场景,语音内容贴合日常服务、商务对话的口语特征,可直接支撑语音识别、自然语言处理等模型训练,适配通信服务、AI助手等多类实际应用场景。
其他
音频
数据集包含 2260 张高分辨率头皮图像,覆盖452位男性受试者,每位提供正面、顶部、背部、左侧、右侧共5个视角的图像,标注信息关联Norwood-Hamilton 脱发分级(7 类)及毛囊细节注释,同时配套性别、年龄、种族等元数据。图像以PNG、JPEG格式存储,标注文件采用TXT格式封装,可全方位支撑脱发检测、头皮健康分析等模型训练,s适用于医疗诊断、美妆研发等多类实际应用场景。
医疗
图像
数据集包含 10 小时以上的俄语电话对话音频,来源为 20 位以上俄语母语者,通过 Android 智能手机、iPhone 在低背景噪音的室内环境录制,音频格式涵盖 WAV、M4A、MP3,标注信息包括 ID、语言、格式、时长(分钟)。数据集聚焦真实场景的俄语口语对话,专门用于训练语音识别、自然语言处理类模型,适用于呼叫中心、多语言应用、AI 研究等多个领域。
其他
音频
数据集包含来自100个人的6000多张指纹图像,涵盖双手十指。这些图像通过ZKTeco ZK9500光学扫描仪采集,以PNG和BMP格式存储。数据集专为法医匹配、去噪和细节特征提取任务设计,提供了丰富的元数据标注,如性别、年龄、手指类型和手的方向等。该数据集适用于生物识别和安全研究领域,在消费设备安全认证、活体检测、政府与边境管控等多个场景中具有重要应用价值。
政务服务
图像
数据集包含 5000 个音频文件,涵盖真实人类录音与 AI 生成的语音样本,涉及 4 位说话者,支持 M4A、MP3 格式。主要用于深度伪造检测、生成语音分析、真假语音识别等任务,适用于网络安全、语音认证、媒体诚信等场景的模型开发与技术研究。
社会治理
音频
数据集包含超10000条MP4格式视频样本,涵盖“一”、“四”、“小”、“握拳“、“我”5种手部手势,由 UniData 团队通过众包服务采集,附带 ID、性别等元数据标注。该数据集专为手势识别类模型训练打造,适用于人机交互控制、医疗康复监测、AI 模型开发以及游戏娱乐交互等场景。
医疗
视频
数据集内含超30000条音频记录,覆盖狂喜、愉悦、悲伤、惊讶这四类常见情感。音频采用WAV、mpeg、amr格式,借助众包平台收集而来,并标注有文本内容、性别、年龄及国家等信息。该数据集专为训练情感与语音识别系统打造,适用于机器学习模型训练、人机交互优化、客户服务情感分析以及语音情感学术研究等场景。
教育
音频
数据集包含超 200 万份人类脑部 MRI 扫描图像及放射科医生报告,每次扫描约 30 个切片,层厚 1mm、层间距≤5mm 。覆盖 50 + 种病理,数据为 DiCOM 格式并搭配多维度标注。适用于脑部疾病诊断、医学研究及 AI 模型训练等场景。
医疗
文本
图像
数据集含 5000 + 高质量指纹图像,覆盖真实指纹及打印、重放等多种伪造攻击类型。专为指纹伪造与活体检测设计,提供不同设备、手指的标注数据,适用于训练评估生物识别安全及指纹识别系统,满足金融、移动设备等领域的反欺诈需求。
金融
图像
数据集包含 30000 张插画,分属 20 种艺术风格,如 3D、卡通等。以 PNG、JPG、JPEG 格式存储,分辨率至少 1024×1024 像素,均由专业插画师创作。数据集标注了风格、颜色等元数据,每组 10000 个文件。适用于图像分类、风格迁移等任务,为创意机器学习应用提供丰富训练数据。
其他
图像
数据集拥有超 5000 张带注释图像。图像涵盖不同年龄、场景个体的面部表情,标注 15 个地标点及 ID、性别元数据。以 jpg 格式存储图像,json 格式保存标注文件。适用于训练情感识别、表情分析和面部识别模型,为计算机视觉在面部分析领域的应用提供有力支持。
其他
图像
数据集是一款聚焦指纹生物识别安全的专业数据集,包含来自 100 名个体的 4000 余张指纹图像,通过 ZKTeco ZK9500 光学扫描仪采集,同时涵盖真实指纹与藻酸盐、橡皮泥、硅胶三类伪造材料制作的攻击样本。数据集附带性别、年龄、手指、手部、设备等元数据标注,适用于生物识别安全研究、伪造攻击检测、指纹识别模型训练等任务,为防范指纹伪造攻击的技术开发提供贴合实际场景的样本支持。
医疗
图像