由聚合数据举办的高质量 AI 数据集征集活动「数据启元计划」升级版本正在持续进行中。欢迎开发者们积极提供高质量数据集,诚邀大家加入这场从入驻到变现的双向奔赴之旅~
目前,通过我们的严格筛选及权威审核,保证数据集具备权威性、时效性与合规性。精选数据集正在聚合数据官网持续上架中,为开发者、科研机构及企业提供"即取即用"的数据集燃料。
接上期,我们继续挑选了五大高质量数据集,作为精选合集第四弹。它们覆盖金融财税、机械制造、轨道交通等多个行业领域,分别是:
机械图纸数据集
海外社媒平台数据集
K12 教学课件数据集
苏州轨道交通出行 OD 统计数据集
金融领域及非金融领域中文对话数据集
数据集概述
本数据集涵盖各类机械加工图纸,整合多难度 QA 问答、整图结构化解析、元素定位三类核心数据。有效解决了机械图纸数据稀缺、标注专业度高、整合成本高的行业痛点,通过 LLM+人工双重校验保障数据精准规范,可适用于工业 AI 模型训练、机械图纸智能解读等场景,助力提升图纸解析效率与模型专业适配性。
![]()
数据集特色
提供递进式数据标注:集合了问答、解析、定位三种不同类型的标注。
AI+人工校验机制:通过 LLM 预处理加专业人员审核的双重验证。
覆盖不同层次:多难度 QA 问答设计,从基础元件识别到复杂装配关系理解。
图纸全景式解析:注重元素间的关联关系,提供完整的机械系统理解框架。
应用场景
智能制造质检
通过图纸中的尺寸标注、公差要求等信息,实现产品质量自动化检测和控制。
智能设计辅助
基于对图纸的理解,AI 可以为工程师提供设计改进建议、材料优化方案。
数字化工厂建设
为工厂的设备管理、工艺规划、生产调度等提供图纸理解能力。
供应链协同
帮助供应链各环节快速准确理解技术图纸,减少因误读导致问题和沟通成本。
数据集概述
本数据集涵盖 Facebook、Instagram、X(Twitter)、Linkedln、YouTube、Tik Tok等平台对应账号的发布内容、点赞数、标签、转发、评论情感,适用于舆情分析、多模态训练、内容审核模型训练。
![]()
数据集特色
平台覆盖全面
Facebook、Instagram、X、LinkedIn、YouTube、TikTok 六大海外平台。
字段维度丰富
提供文本内容,还包含点赞、转发、评论等互动指标并附带情感倾向标签。
多模态支持
涵盖文本、图片、视频等多媒体内容,满足多模态 AI 训练需求。
实时更新机制
数据持续采集更新,确保舆情分析和模型训练都能用最新语料。
合规预处理
原始数据已做脱敏和清洗,可直接用于商业场景,降低客户合规风险。
应用场景
AI 模型基础训练
图片、文本、视频等多类型结构化数据加速 AI 数据准备。
舆情监控
实时获取社媒帖文、评论等内容,为品牌舆情管理、广告投放优化作数据支撑。
自然语言处理
丰富语言样本库,有效提升模型多语言适配性。
多模态模型的训练
优化图像生成与识别效果,完善音视频相关处理能力。
数据集概述
该数据集包含上万套 K12 全学段优质课件资源,链接 C 端教师与 B 端教育企业。可解决教师常规课、公开课备课效率低的问题,助力教育机构快速搭建资源库,支撑教育平台资源集成,推动优质教学资源普惠,高效服务 K12 教育教学与数字化转型需求。
![]()
数据集特色
规模覆盖:上万套课件无缝覆盖 K12 十二年级。
质量优势:所有资源均经一线名师打磨。
生态连接:C 端教师即时共享,B 端企业一键集成。
平台支撑:标准格式+元数据标签。
数据合规:脱敏处理+版权溯源,内容版权与数据安全双重合规。
应用场景
1.K12 常规课备课
为小学、初中、高中各学段教师提供对应学科常规课课件。
适配日常课堂教学节奏,帮助教师快速完成备课方案。
2.公开课 / 示范课准备
提供经过打磨的优质公开课课件。
涵盖重难点突破、互动设计、课件视觉呈现等优化内容。
助力教师提升公开课展示效果。
3.教育平台资源集成
互联网大厂教育资源库、教育 SaaS 企业通过 API 接口接入课件资源。
完善自身平台的备课资源生态,为平台用户提供一站式教学资源服务。
数据集概述
该数据集统计了苏州轨道交通各站点间的出行 OD(Origin-Destination)排名信息,包括进站、出站车站名称、客流量、排名及交易日期。核心价值在于揭示乘客出行规律与热点路径,可用于优化线路规划、调度资源配置、提升运营效率,适用于交通管理、商业选址分析等场景。
![]()
数据集特色
实时性统计:包含交易日期信息,反映不同时间段下的客流变化。
全网络覆盖:覆盖苏州轨道交通网络的全部运营站点,形成完整的 OD 矩阵。
排名结构化:不仅包含绝对客流量,还提供排名信息。
双向流动记录:完整的 OD 配对数据能够准确追踪乘客的完整出行链。
商业级精度:数据精度达到商业应用标准。
标准化格式:采用统一的数据格式和编码标准。
应用场景
运营调度与智能排班
通过实时的 OD 矩阵,运营方可以精准识别早晚高峰的“潮汐客流”方向。
城市规划与线网设计
通过分析长距离的 OD 对,规划师可以识别出主要的通勤走廊。
应急管理与安全保障
在节假日或恶劣天气期间,模型可以预测特定站点的客流聚集风险。
商业化服务与体验提升
基于对乘客历史出行模式的挖掘,APP 可以提供定制化的拥挤路线规避。
数据集概述
本数据集是一个大规模、多领域、高质量的中文商业对话语音数据集。核心内容为真实或高度仿真的业务场景下,领域专家(业务人员)与消费者(C端用户)之间的对话录音及其转写文本。
![]()
数据集特色
真实脱敏处理
在保留金融语义和业务特征的前提下,对敏感信息做脱敏。
多轮对话结构
语料中包含大量多轮场景、对话交互。
领域术语标准化
对“年化收益率”“T+0赎回”等术语归一化标注。
情感标签隐含
对话中自然携带抱怨、焦急、满意等情绪信号。
口语化书面语并存
既有电话客服的口语化表达,也有在线打字的书面短句。
时间跨度完整
横跨多个季度,包含营销活动、年末冲量、节假日等高峰与低谷。
应用场景
语音识别模型训练与优化
用于训练在高噪音、多口音等环境下仍保持高准确率的语音识别模型。
对话系统与智能客服
基于此数据训练模型,使其能够处理用户的业务咨询、办理业务、查询状态。
情感分析与语音情绪识别
通过分析对话中的文本和语音语调,训练模型识别用户的情绪状态。
语音合成
用于训练专业、亲切的客服语音合成模型。
「数据启元计划」正在努力打造开放、创新、安全的数据共享生态。我们期待更多合作伙伴参与进来,共同书写数据赋能产业的崭新篇章。如果对以上数据集感兴趣,欢迎访问聚合数据官网了解更多!大量精选数据集请持续关注本公众号内容~
提供多种拟人音色,支持多语言及方言,并可在同一音色下输出多语言内容。系统可自适应语气,流畅处理复杂文本。
Nano Banana(gemini-2.5-flash-image 和 gemini-3-pro-image-preview图像模型)是图像生成与编辑的最佳选择,可集成 Nano Banana API,实现高速预览。
支持通过自然语言文本智能生成高质量短视频。用户只需输入一段描述性文字,即可自动合成画面连贯、风格鲜明、配乐匹配的定制化视频内容。适用于短视频创作、广告预演、社交内容生成、游戏素材制作等场景,为开发者与创作者提供高效、灵活、富有想象力的视频生产新范式。
先进的图像理解和分析能力,它能够快速准确地解析和理解图像内容。无论是自然风景、城市建筑还是复杂的场景与活动,都能提供详细的描述和深入的分析。
根据文本提示(prompt)和图片公网访问链接,编辑原图按照特定风格、场景和氛围感的输出新的图像。广泛应用于电商营销、广告设计、创意灵感等领域,为用户带来高效且个性化的AI图像创作体验。