本数据集收录了机器人在视觉导航过程中,与反光板进行精准对接的全流程数据,该数据集核心价值在于提供真实机器人运行场景下的完整对接数据,为训练和验证机器人对接控制深度学习或强化学习模型提供了高质量的数据样本。旨在直接解决移动机器人对接过程中的定位精度不足、对接成功率低及耗时过长等问题,典型应用于工业自动化装配、机器人协作作业、精密设备对接等场景,助力优化对接算法逻辑,提升机器人反光板对接的效率与精准度
制造
时序
印刷电路板(PCB)在制造过程中经常会出现多种表面缺陷,这些缺陷不仅影响外观,还可能对电路板的性能造成损害。因此检测 PCB 表面缺陷对于品质管控至关重要。传统的缺陷检测方式主要依赖人工视觉检查,存在主观性强、效率低下等问题。 该数据集包含9 种 PCB 表面缺陷类别,这些缺陷根据其成因、位置和形态进行分类,旨在推动基于深度学习的 PCB 表面缺陷检测研究。
制造
图像
数据分类和量级:包含医疗知识库(临床所见65万条;手术及操作10万条;检查检验6万条;药品药物30万条)、知识问答库75万条;图谱三元组145万条;医学文献45万本; 数据质量:总量376万条数据,知识库都经过清洗和学校专业老师矫正标注,数据都有合规凭证,正规知识产权授权,数据质量有保证。
医疗
文本
约 519,000 条 (519k) 样本 每条样本为一个 “指令 (instruction) → 输出 (output)” 对,应对各类自然语言任务,例如翻译、文本生成、编辑、数学、逻辑判断、写作等。
其他
文本
车轮提供了一种通用的几何结构,能够进行精确且一致的标注,这可用于提高车辆姿态估计的准确性。然而,自动驾驶系统中的车轮检测研究关注度有限,且缺乏专门的数据集。 我们基于nuscenes构建了一个车轮数据集,该数据集提供了2D边界框、像素级分割掩码以及车轮-车辆的关联标签。
交通
图像
该数据集统计了苏州轨道交通各站点间的出行OD(Origin-Destination)排名信息,包括进站、出站车站名称、客流量、排名及交易日期。核心价值在于揭示乘客出行规律与热点路径,可用于优化线路规划、调度资源配置、提升运营效率,适用于交通管理、商业选址分析等场景。
交通
文本
表格
其他
本数据集包含超过10万小时的大规模、多语言语音音频及其对应的高质量文本转录。数据集涵盖全球44种主要语言,全面覆盖了主流语种及重要区域语言,具备极强的语言多样性与代表性。
其他
文本
音频
全球运营商基信息数据的核心价值在于提供全球范围的蜂窝基站地理位置及相关参数,使系统在缺乏 GPS 信号或低功耗场景下,仍可基于基站信息进行位置推算。通过使用该数据,企业能够提升设备定位能力、验证位置真实性、分析网络覆盖状况,并支持 IoT 终端、移动应用、资产追踪等场景的地理位置识别需求。
其他
文本
HaGRID 手势识别数据集的核心价值在于提供了超过百万张 Full HD 图像、覆盖 33 类丰富且高质量的手势样本,并包含大规模真实场景下的光照、背景、距离与人群多样性。它解决了手势识别在真实应用中常见的泛化差、误识别及对动态手势支持不足等问题。借助该数据集,开发者可以构建更稳定、更准确的手势识别模型,广泛应用于视频会议手势控制、智能家居交互、车载手势操作、AR/VR 无接触交互以及各类人机交
教育
图像
本数据产品提供苏州轨道交通运营车站每日客流数据,包括线路、车站、日期、进站人数、出站人数等信息,帮助车站及附近的广告投放、商铺招商、客运接驳、文旅餐饮等相关企业在营销策略制定、品牌宣传、风险评估等方面提供数据支持。
交通
文本
表格
其他
本数据集涵盖:缅甸、越南、柬埔寨、马来西亚、印度尼西亚、泰国、老挝、新加坡、菲律宾、文莱等国家的通识类SFT。所有数据都基于本地人文、历史、通识类数据构成,不掺杂非本国内容的公共内容,每国SFT存储量超过15万条。
其他
文本
JailBench 是针对大型语言模型在中文语境下越狱攻击风险的综合性多领域安全评测数据集,面向《网络安全技术 生成式人工智能服务安全基本要求》 训练数据及生成内容的主要安全风险 标准分类设计,是目前公开发布题库规模最大,越狱攻击手段覆盖最为广泛的中文评测数据集。
社会治理
文本
表格
该数据集包含了从1971年至2024年期间发布的64,016款游戏的销售数据。数据涵盖了游戏在北美、日本、欧盟、非洲及世界其他地区的销量情况,并包含诸如评论家评分、游戏类型、游戏平台、发行商、开发商等详细信息。
消费
文本
维普拥有7800万高质量中文学术期刊数据,覆盖全科学领域,拥有合规版权,可用于各类基础大模型、垂类/细分行业模型训练。
其他
文本
表格
全网最全面的微积分习题详细解答。 八大主题: 极限与连续、一元函数微分学、一元函数微分学、多元函数微分学、多元函数积分学、无穷级数、微分方程、高阶数学内容。 本数据集适合用作: 大模型基准能力测试,难度适中,标准化极高。 知识库平台搭建:本数据构建的腾讯ima知识库:微积分每日一题,已被评选为精品数据集。 学术研究:为学生高频难题、网红题、答疑常见题,有助于发现试题难度与知识点之间的隐藏关系。
教育
文本
图像
本数据集涵盖各类机械加工图纸,整合多难度QA问答、整图结构化解析、元素定位三类核心数据。有效解决了机械图纸数据稀缺、标注专业度高、整合成本高的行业痛点,通过LLM+人工双重校验保障数据精准规范,可适用于工业AI模型训练、机械图纸智能解读等场景,助力提升图纸解析效率与模型专业适配性。
制造
图像
本数据集源于企业资产运作预警平台,通过整合企业的财务、资产负债、项目进展及资金使用等多维度运营数据,构建了一套完整的资产风险监控指标体系。平台基于44项预设预警规则,利用大数据分析技术实时识别“资产空置率过高”、“出租决策违规”等潜在风险点,并自动生成预警提示。该数据集旨在为企业实现资产管理的数字化转型、主动防范经营风险、保障资产安全与提升监管效率提供精准的数据驱动洞察
金融
图像
表格
数据集涵盖了胃癌/肠癌/肝癌常见病/罕见病和呼吸系统等医疗CT报告与EMR记录,共计11000+个记录,可用于相关深度学习模型训练,大模型诊断数据集等
医疗
文本
图像
上万套 K12 全学段优质课件资源,链接 C 端教师与 B 端教育企业。可解决教师常规课、公开课备课效率低的问题,助力教育机构快速搭建资源库,支撑教育平台资源集成,推动优质教学资源普惠,高效服务 K12 教育教学与数字化转型需求。
教育
其他
本数据集提供上海市各区域新能源汽车月度充电趋势数据,涵盖充电车辆数、充电次数及快慢充占比等关键指标,适用于新能源汽车产业分析、城市能源规划与充电基础设施布局等研究领域,为政策制定与市场预测提供量化依据。
交通
表格
本数据集收录了机器人在视觉导航过程中,与反光板进行精准对接的全流程数据,该数据集核心价值在于提供真实机器人运行场景下的完整对接数据,为训练和验证机器人对接控制深度学习或强化学习模型提供了高质量的数据样本。旨在直接解决移动机器人对接过程中的定位精度不足、对接成功率低及耗时过长等问题,典型应用于工业自动化装配、机器人协作作业、精密设备对接等场景,助力优化对接算法逻辑,提升机器人反光板对接的效率与精准度
制造
时序
印刷电路板(PCB)在制造过程中经常会出现多种表面缺陷,这些缺陷不仅影响外观,还可能对电路板的性能造成损害。因此检测 PCB 表面缺陷对于品质管控至关重要。传统的缺陷检测方式主要依赖人工视觉检查,存在主观性强、效率低下等问题。 该数据集包含9 种 PCB 表面缺陷类别,这些缺陷根据其成因、位置和形态进行分类,旨在推动基于深度学习的 PCB 表面缺陷检测研究。
制造
图像
数据分类和量级:包含医疗知识库(临床所见65万条;手术及操作10万条;检查检验6万条;药品药物30万条)、知识问答库75万条;图谱三元组145万条;医学文献45万本; 数据质量:总量376万条数据,知识库都经过清洗和学校专业老师矫正标注,数据都有合规凭证,正规知识产权授权,数据质量有保证。
医疗
文本
约 519,000 条 (519k) 样本 每条样本为一个 “指令 (instruction) → 输出 (output)” 对,应对各类自然语言任务,例如翻译、文本生成、编辑、数学、逻辑判断、写作等。
其他
文本
车轮提供了一种通用的几何结构,能够进行精确且一致的标注,这可用于提高车辆姿态估计的准确性。然而,自动驾驶系统中的车轮检测研究关注度有限,且缺乏专门的数据集。 我们基于nuscenes构建了一个车轮数据集,该数据集提供了2D边界框、像素级分割掩码以及车轮-车辆的关联标签。
交通
图像
该数据集统计了苏州轨道交通各站点间的出行OD(Origin-Destination)排名信息,包括进站、出站车站名称、客流量、排名及交易日期。核心价值在于揭示乘客出行规律与热点路径,可用于优化线路规划、调度资源配置、提升运营效率,适用于交通管理、商业选址分析等场景。
交通
文本
表格
其他
本数据集包含超过10万小时的大规模、多语言语音音频及其对应的高质量文本转录。数据集涵盖全球44种主要语言,全面覆盖了主流语种及重要区域语言,具备极强的语言多样性与代表性。
其他
文本
音频
全球运营商基信息数据的核心价值在于提供全球范围的蜂窝基站地理位置及相关参数,使系统在缺乏 GPS 信号或低功耗场景下,仍可基于基站信息进行位置推算。通过使用该数据,企业能够提升设备定位能力、验证位置真实性、分析网络覆盖状况,并支持 IoT 终端、移动应用、资产追踪等场景的地理位置识别需求。
其他
文本
HaGRID 手势识别数据集的核心价值在于提供了超过百万张 Full HD 图像、覆盖 33 类丰富且高质量的手势样本,并包含大规模真实场景下的光照、背景、距离与人群多样性。它解决了手势识别在真实应用中常见的泛化差、误识别及对动态手势支持不足等问题。借助该数据集,开发者可以构建更稳定、更准确的手势识别模型,广泛应用于视频会议手势控制、智能家居交互、车载手势操作、AR/VR 无接触交互以及各类人机交
教育
图像
本数据产品提供苏州轨道交通运营车站每日客流数据,包括线路、车站、日期、进站人数、出站人数等信息,帮助车站及附近的广告投放、商铺招商、客运接驳、文旅餐饮等相关企业在营销策略制定、品牌宣传、风险评估等方面提供数据支持。
交通
文本
表格
其他
本数据集涵盖:缅甸、越南、柬埔寨、马来西亚、印度尼西亚、泰国、老挝、新加坡、菲律宾、文莱等国家的通识类SFT。所有数据都基于本地人文、历史、通识类数据构成,不掺杂非本国内容的公共内容,每国SFT存储量超过15万条。
其他
文本
JailBench 是针对大型语言模型在中文语境下越狱攻击风险的综合性多领域安全评测数据集,面向《网络安全技术 生成式人工智能服务安全基本要求》 训练数据及生成内容的主要安全风险 标准分类设计,是目前公开发布题库规模最大,越狱攻击手段覆盖最为广泛的中文评测数据集。
社会治理
文本
表格
该数据集包含了从1971年至2024年期间发布的64,016款游戏的销售数据。数据涵盖了游戏在北美、日本、欧盟、非洲及世界其他地区的销量情况,并包含诸如评论家评分、游戏类型、游戏平台、发行商、开发商等详细信息。
消费
文本
维普拥有7800万高质量中文学术期刊数据,覆盖全科学领域,拥有合规版权,可用于各类基础大模型、垂类/细分行业模型训练。
其他
文本
表格
全网最全面的微积分习题详细解答。 八大主题: 极限与连续、一元函数微分学、一元函数微分学、多元函数微分学、多元函数积分学、无穷级数、微分方程、高阶数学内容。 本数据集适合用作: 大模型基准能力测试,难度适中,标准化极高。 知识库平台搭建:本数据构建的腾讯ima知识库:微积分每日一题,已被评选为精品数据集。 学术研究:为学生高频难题、网红题、答疑常见题,有助于发现试题难度与知识点之间的隐藏关系。
教育
文本
图像
本数据集涵盖各类机械加工图纸,整合多难度QA问答、整图结构化解析、元素定位三类核心数据。有效解决了机械图纸数据稀缺、标注专业度高、整合成本高的行业痛点,通过LLM+人工双重校验保障数据精准规范,可适用于工业AI模型训练、机械图纸智能解读等场景,助力提升图纸解析效率与模型专业适配性。
制造
图像
本数据集源于企业资产运作预警平台,通过整合企业的财务、资产负债、项目进展及资金使用等多维度运营数据,构建了一套完整的资产风险监控指标体系。平台基于44项预设预警规则,利用大数据分析技术实时识别“资产空置率过高”、“出租决策违规”等潜在风险点,并自动生成预警提示。该数据集旨在为企业实现资产管理的数字化转型、主动防范经营风险、保障资产安全与提升监管效率提供精准的数据驱动洞察
金融
图像
表格
数据集涵盖了胃癌/肠癌/肝癌常见病/罕见病和呼吸系统等医疗CT报告与EMR记录,共计11000+个记录,可用于相关深度学习模型训练,大模型诊断数据集等
医疗
文本
图像
上万套 K12 全学段优质课件资源,链接 C 端教师与 B 端教育企业。可解决教师常规课、公开课备课效率低的问题,助力教育机构快速搭建资源库,支撑教育平台资源集成,推动优质教学资源普惠,高效服务 K12 教育教学与数字化转型需求。
教育
其他
本数据集提供上海市各区域新能源汽车月度充电趋势数据,涵盖充电车辆数、充电次数及快慢充占比等关键指标,适用于新能源汽车产业分析、城市能源规划与充电基础设施布局等研究领域,为政策制定与市场预测提供量化依据。
交通
表格