本数据集收录了机器人在视觉导航过程中,与反光板进行精准对接的全流程数据,该数据集核心价值在于提供真实机器人运行场景下的完整对接数据,为训练和验证机器人对接控制深度学习或强化学习模型提供了高质量的数据样本。旨在直接解决移动机器人对接过程中的定位精度不足、对接成功率低及耗时过长等问题,典型应用于工业自动化装配、机器人协作作业、精密设备对接等场景,助力优化对接算法逻辑,提升机器人反光板对接的效率与精准度
制造
时序
印刷电路板(PCB)在制造过程中经常会出现多种表面缺陷,这些缺陷不仅影响外观,还可能对电路板的性能造成损害。因此检测 PCB 表面缺陷对于品质管控至关重要。传统的缺陷检测方式主要依赖人工视觉检查,存在主观性强、效率低下等问题。 该数据集包含9 种 PCB 表面缺陷类别,这些缺陷根据其成因、位置和形态进行分类,旨在推动基于深度学习的 PCB 表面缺陷检测研究。
制造
图像
约 519,000 条 (519k) 样本 每条样本为一个 “指令 (instruction) → 输出 (output)” 对,应对各类自然语言任务,例如翻译、文本生成、编辑、数学、逻辑判断、写作等。
其他
文本
车轮提供了一种通用的几何结构,能够进行精确且一致的标注,这可用于提高车辆姿态估计的准确性。然而,自动驾驶系统中的车轮检测研究关注度有限,且缺乏专门的数据集。 我们基于nuscenes构建了一个车轮数据集,该数据集提供了2D边界框、像素级分割掩码以及车轮-车辆的关联标签。
交通
图像
本数据集包含超过10万小时的大规模、多语言语音音频及其对应的高质量文本转录。数据集涵盖全球44种主要语言,全面覆盖了主流语种及重要区域语言,具备极强的语言多样性与代表性。
其他
文本
音频
全球运营商基信息数据的核心价值在于提供全球范围的蜂窝基站地理位置及相关参数,使系统在缺乏 GPS 信号或低功耗场景下,仍可基于基站信息进行位置推算。通过使用该数据,企业能够提升设备定位能力、验证位置真实性、分析网络覆盖状况,并支持 IoT 终端、移动应用、资产追踪等场景的地理位置识别需求。
其他
文本
HaGRID 手势识别数据集的核心价值在于提供了超过百万张 Full HD 图像、覆盖 33 类丰富且高质量的手势样本,并包含大规模真实场景下的光照、背景、距离与人群多样性。它解决了手势识别在真实应用中常见的泛化差、误识别及对动态手势支持不足等问题。借助该数据集,开发者可以构建更稳定、更准确的手势识别模型,广泛应用于视频会议手势控制、智能家居交互、车载手势操作、AR/VR 无接触交互以及各类人机交
教育
图像
本数据产品提供苏州轨道交通运营车站每日客流数据,包括线路、车站、日期、进站人数、出站人数等信息,帮助车站及附近的广告投放、商铺招商、客运接驳、文旅餐饮等相关企业在营销策略制定、品牌宣传、风险评估等方面提供数据支持。
交通
文本
表格
其他
本数据集涵盖:缅甸、越南、柬埔寨、马来西亚、印度尼西亚、泰国、老挝、新加坡、菲律宾、文莱等国家的通识类SFT。所有数据都基于本地人文、历史、通识类数据构成,不掺杂非本国内容的公共内容,每国SFT存储量超过15万条。
其他
文本
JailBench 是针对大型语言模型在中文语境下越狱攻击风险的综合性多领域安全评测数据集,面向《网络安全技术 生成式人工智能服务安全基本要求》 训练数据及生成内容的主要安全风险 标准分类设计,是目前公开发布题库规模最大,越狱攻击手段覆盖最为广泛的中文评测数据集。
社会治理
文本
表格
该数据集包含了从1971年至2024年期间发布的64,016款游戏的销售数据。数据涵盖了游戏在北美、日本、欧盟、非洲及世界其他地区的销量情况,并包含诸如评论家评分、游戏类型、游戏平台、发行商、开发商等详细信息。
消费
文本
高清AI图片真人写真集,古代生活坐卧行走,包含汉服各种设计元素和应用灵感,是丰富设计经验和汉服制作的生动样本。
其他
图像
专业准确的人物关系数据信息,所有信息均由本人校验,由此把各行业信任汇集在一个平台上,最终实现任何人都是“数字熟人”
其他
文本
这是一个专门为训练和评估能够进行多轮对话的AI聊天机器人而设计的高质量对话数据集。它包含了用户与AI之间模拟真实世界聊天模式的对话,覆盖了从问候、问答到情感交流、技术咨询等55种以上的对话意图。
其他
文本
表格
这是一个精心策划的高质量人脸图像数据集,专为现代人工智能应用设计。该数据集提供了多样化的人脸图像集合,涵盖不同年龄、性别、种族和表情特征,为计算机视觉和深度学习研究提供了优质的训练素材。
其他
图像
该数据集是一个综合性的合成数据集,旨在模拟2020年至2024年五年间,全球50个国家的每日气候条件与能源经济指标,为研究气候变化、能源消费和工业活动之间的复杂关系提供高质量的数据基础。
能源
文本
表格
本数据集收录多部经典与现代英文小说的TXT全文,经净化处理移除所有网址,提供高质量、可直接使用的纯文本资源。
其他
文本
本数据集是一个针对半导体行业前沿问题构建的高质量专业问答数据集。每个样本包含完整的专业技术问题、详细的参考答案、系统化的评分准则以及主流AI模型的真实回复与评估结果。数据集以"问题-答案-评估"三位一体的结构化形式呈现,深度聚焦半导体技术领域的核心难点与创新应用。
其他
文本
POS机、保险、抵押理财、股票、基金、理财、信贷、保险、贷款、基金金融理财、信用卡、3C数码、电商、共享单车、酒店预订、客服、大数据、购物等场景的对话中文语音数据
其他
音频
本数据集涵盖Cu-Ni-Co-Si、Cu-Fe-P、Cu-Cr-Zr等多个合金体系数据,按照成分配比、生产工艺、材料性能、微观结构的全链路关联主线,结构化收录了化学成分、工艺参数、显微组织特征及力学与物理性能等关键维度,有效解决了该领域实验数据分散、整合成本高的痛点,可为机器学习与材料计算提供高质量、即用型的数据集,直接支撑合金设计、性能预测与工艺优化等AI研发场景。
制造
文本
本数据集涵盖各类机械加工图纸,整合多难度QA问答、整图结构化解析、元素定位三类核心数据。有效解决了机械图纸数据稀缺、标注专业度高、整合成本高的行业痛点,通过LLM+人工双重校验保障数据精准规范,可适用于工业AI模型训练、机械图纸智能解读等场景,助力提升图纸解析效率与模型专业适配性。
制造
图像
我们将YouTube全站的数据整合为数据集,目前youtube视频每日新增 10PB+,覆盖字幕、音视频/图片等数据,该数据集可用于ai多模态数据训练,科研与教育数据支撑等;
其他
图像
音频
视频
我们可提供社交媒体数据集涵盖 Facebook、Instagram、X(Twitter)、Linkedln、YouTube、Tik Tok等平台对应账号的发布内容、点赞数、标签、转发、评论情感适用于舆情分析、多模态训练、内容审核模型训练。
其他
文本
图像
视频
我们可提供电商Amazon、Walmart 、Shopee等平台数据集用于电商市场调研。支持通过 SFTP 等接收CSV、JSON 格式数据。
其他
文本
图像
视频
本数据集收录了机器人在视觉导航过程中,与反光板进行精准对接的全流程数据,该数据集核心价值在于提供真实机器人运行场景下的完整对接数据,为训练和验证机器人对接控制深度学习或强化学习模型提供了高质量的数据样本。旨在直接解决移动机器人对接过程中的定位精度不足、对接成功率低及耗时过长等问题,典型应用于工业自动化装配、机器人协作作业、精密设备对接等场景,助力优化对接算法逻辑,提升机器人反光板对接的效率与精准度
制造
时序
印刷电路板(PCB)在制造过程中经常会出现多种表面缺陷,这些缺陷不仅影响外观,还可能对电路板的性能造成损害。因此检测 PCB 表面缺陷对于品质管控至关重要。传统的缺陷检测方式主要依赖人工视觉检查,存在主观性强、效率低下等问题。 该数据集包含9 种 PCB 表面缺陷类别,这些缺陷根据其成因、位置和形态进行分类,旨在推动基于深度学习的 PCB 表面缺陷检测研究。
制造
图像
约 519,000 条 (519k) 样本 每条样本为一个 “指令 (instruction) → 输出 (output)” 对,应对各类自然语言任务,例如翻译、文本生成、编辑、数学、逻辑判断、写作等。
其他
文本
车轮提供了一种通用的几何结构,能够进行精确且一致的标注,这可用于提高车辆姿态估计的准确性。然而,自动驾驶系统中的车轮检测研究关注度有限,且缺乏专门的数据集。 我们基于nuscenes构建了一个车轮数据集,该数据集提供了2D边界框、像素级分割掩码以及车轮-车辆的关联标签。
交通
图像
本数据集包含超过10万小时的大规模、多语言语音音频及其对应的高质量文本转录。数据集涵盖全球44种主要语言,全面覆盖了主流语种及重要区域语言,具备极强的语言多样性与代表性。
其他
文本
音频
全球运营商基信息数据的核心价值在于提供全球范围的蜂窝基站地理位置及相关参数,使系统在缺乏 GPS 信号或低功耗场景下,仍可基于基站信息进行位置推算。通过使用该数据,企业能够提升设备定位能力、验证位置真实性、分析网络覆盖状况,并支持 IoT 终端、移动应用、资产追踪等场景的地理位置识别需求。
其他
文本
HaGRID 手势识别数据集的核心价值在于提供了超过百万张 Full HD 图像、覆盖 33 类丰富且高质量的手势样本,并包含大规模真实场景下的光照、背景、距离与人群多样性。它解决了手势识别在真实应用中常见的泛化差、误识别及对动态手势支持不足等问题。借助该数据集,开发者可以构建更稳定、更准确的手势识别模型,广泛应用于视频会议手势控制、智能家居交互、车载手势操作、AR/VR 无接触交互以及各类人机交
教育
图像
本数据产品提供苏州轨道交通运营车站每日客流数据,包括线路、车站、日期、进站人数、出站人数等信息,帮助车站及附近的广告投放、商铺招商、客运接驳、文旅餐饮等相关企业在营销策略制定、品牌宣传、风险评估等方面提供数据支持。
交通
文本
表格
其他
本数据集涵盖:缅甸、越南、柬埔寨、马来西亚、印度尼西亚、泰国、老挝、新加坡、菲律宾、文莱等国家的通识类SFT。所有数据都基于本地人文、历史、通识类数据构成,不掺杂非本国内容的公共内容,每国SFT存储量超过15万条。
其他
文本
JailBench 是针对大型语言模型在中文语境下越狱攻击风险的综合性多领域安全评测数据集,面向《网络安全技术 生成式人工智能服务安全基本要求》 训练数据及生成内容的主要安全风险 标准分类设计,是目前公开发布题库规模最大,越狱攻击手段覆盖最为广泛的中文评测数据集。
社会治理
文本
表格
该数据集包含了从1971年至2024年期间发布的64,016款游戏的销售数据。数据涵盖了游戏在北美、日本、欧盟、非洲及世界其他地区的销量情况,并包含诸如评论家评分、游戏类型、游戏平台、发行商、开发商等详细信息。
消费
文本
高清AI图片真人写真集,古代生活坐卧行走,包含汉服各种设计元素和应用灵感,是丰富设计经验和汉服制作的生动样本。
其他
图像
专业准确的人物关系数据信息,所有信息均由本人校验,由此把各行业信任汇集在一个平台上,最终实现任何人都是“数字熟人”
其他
文本
这是一个专门为训练和评估能够进行多轮对话的AI聊天机器人而设计的高质量对话数据集。它包含了用户与AI之间模拟真实世界聊天模式的对话,覆盖了从问候、问答到情感交流、技术咨询等55种以上的对话意图。
其他
文本
表格
这是一个精心策划的高质量人脸图像数据集,专为现代人工智能应用设计。该数据集提供了多样化的人脸图像集合,涵盖不同年龄、性别、种族和表情特征,为计算机视觉和深度学习研究提供了优质的训练素材。
其他
图像
该数据集是一个综合性的合成数据集,旨在模拟2020年至2024年五年间,全球50个国家的每日气候条件与能源经济指标,为研究气候变化、能源消费和工业活动之间的复杂关系提供高质量的数据基础。
能源
文本
表格
本数据集收录多部经典与现代英文小说的TXT全文,经净化处理移除所有网址,提供高质量、可直接使用的纯文本资源。
其他
文本
本数据集是一个针对半导体行业前沿问题构建的高质量专业问答数据集。每个样本包含完整的专业技术问题、详细的参考答案、系统化的评分准则以及主流AI模型的真实回复与评估结果。数据集以"问题-答案-评估"三位一体的结构化形式呈现,深度聚焦半导体技术领域的核心难点与创新应用。
其他
文本
POS机、保险、抵押理财、股票、基金、理财、信贷、保险、贷款、基金金融理财、信用卡、3C数码、电商、共享单车、酒店预订、客服、大数据、购物等场景的对话中文语音数据
其他
音频
本数据集涵盖Cu-Ni-Co-Si、Cu-Fe-P、Cu-Cr-Zr等多个合金体系数据,按照成分配比、生产工艺、材料性能、微观结构的全链路关联主线,结构化收录了化学成分、工艺参数、显微组织特征及力学与物理性能等关键维度,有效解决了该领域实验数据分散、整合成本高的痛点,可为机器学习与材料计算提供高质量、即用型的数据集,直接支撑合金设计、性能预测与工艺优化等AI研发场景。
制造
文本
本数据集涵盖各类机械加工图纸,整合多难度QA问答、整图结构化解析、元素定位三类核心数据。有效解决了机械图纸数据稀缺、标注专业度高、整合成本高的行业痛点,通过LLM+人工双重校验保障数据精准规范,可适用于工业AI模型训练、机械图纸智能解读等场景,助力提升图纸解析效率与模型专业适配性。
制造
图像
我们将YouTube全站的数据整合为数据集,目前youtube视频每日新增 10PB+,覆盖字幕、音视频/图片等数据,该数据集可用于ai多模态数据训练,科研与教育数据支撑等;
其他
图像
音频
视频
我们可提供社交媒体数据集涵盖 Facebook、Instagram、X(Twitter)、Linkedln、YouTube、Tik Tok等平台对应账号的发布内容、点赞数、标签、转发、评论情感适用于舆情分析、多模态训练、内容审核模型训练。
其他
文本
图像
视频
我们可提供电商Amazon、Walmart 、Shopee等平台数据集用于电商市场调研。支持通过 SFTP 等接收CSV、JSON 格式数据。
其他
文本
图像
视频