AI起源于20世纪50年代,最初专注于模拟人思维。随着深度学习及大数据的兴起,AI实现了在图像识别、语言处理等领域的重大进展。过程中,数据的作用至关重要,它不仅是训练AI模型的基础,还决定了AI系统的性能和应用的广泛性。
聚合AI涵盖广泛的基础数据、智能的AI服务接口及易用AI应用,旨在赋予开发者和企业强大的智能化工具,加速实现创新升级与效能提升。
基础数据
基础数据为AI模型提供训练样本,直接决定模型的学习能力、预测准确性和应用广泛性。
  • 全部
  • 语音处理
  • 自然语言处理
  • 计算机视觉
  • 零售电商
  • 商业金融
  • 医疗健康
  • 社交媒体
  • 地理交通
  • 公共数据
  • 教育数据
  • IP地址段数据-全球版
    IPv4归属地查询数据,总计约70万个IP段,支持国内外IP。
  • 手机号码归属地-基础版
    手机号码段(前7位),对应的省市及运营商信息。
  • 垃圾分类数据
    常用垃圾分类数据,总计约6900条数据记录
  • 图书信息数据
    图书基本出版信息,如标题、作者、出版社等;总计约280万条
  • 历史空气质量
    300+城市2014年至2019年11月历史空气质量数据;累计约73万条
  • 历史天气数据
    2000+城市地区2011年至2019年11月历史天气情况,总计约750万条记录
  • 省市区(镇/乡)数据
    全国省市区(镇/乡)数据,最大支持4级,可用于电商等收件地址选择等场景。数据来源网络收集整理,名称等可能有一定出入,仅供参考。
  • 查看更多
  • 语音数据集(Common Voice)汉语
    可公开使用的语音数据集,将可促进基于机器学习的语音技术的创新。数据来源:mozilla.org
  • 历史文本语音转录集
    语音识别数据集,一个公共领域的语音数据集,由13,100个简短的音频片段组成。
  • 通用语音识别集
    一个简单的音频/语音数据集,由 8kHz 文件中的语音数字记录组成。
  • Donald Trump(特朗普)声音数据集
    对 Donald Trump 近三年的演讲进行提取分离,选取了部分优质音频进行去噪。
  • 音乐理论特征集
    数据集包括和弦、旋律、音高、色谱质心、节拍等
  • 语音数据集(Common Voice)日语
    可公开使用的语音数据集,将可促进基于机器学习的语音技术的创新。数据来源:mozilla.org
  • 语音数据集(Common Voice)汉语(香港)
    可公开使用的语音数据集,将可促进基于机器学习的语音技术的创新。数据来源:mozilla.org
  • 查看更多
  • 谷歌BoolQ数据集
    BoolQ是一个包含15942个示例的是/否问题的问题回答数据集。
  • NBA球员信息数据
    NBA球员数据分析
  • 中-俄翻译数据集
    NLP机器翻译数据集,中文-->俄文
  • MINDlarge:微软新闻数据集
    MIcrosoft 新闻数据集(MIND)是用于新闻推荐研究的大规模数据集
  • 社会垃圾邮件(Social Spammers)
    这个匿名数据集是从 Tagged.com 社交网络网站收集。
  • DocRED文档级关系抽取数据集
    DocRED 是一个比较新的大规模的众包数据集。其原始语料主要基于维基百科,包含了 3053 份文章,其中大约存在 7% 的实体,**DocRED** 还提供了公开的 leaderboard,用户可将模型预测的结果上传,评估文档级关系抽取的各种性能。160MB 2019
  • 代码注释自动生成数据集
    该数据集是代码注释自动生成任务的相关数据集,含有448512条Java程序片段以及相应的注释。
  • 查看更多
  • 全景火灾与误报场景数据集
    数据集包括发生火灾的不同紧急情况,例如建筑物着火,工业火灾,车祸和骚乱(./dataset/img)。其余图像包括没有可见火势的紧急情况,以及具有类似火的区域(例如日落)和红色或黄色物体的图像
  • 全景火灾检测与分割数据集
    Fire-Segmentation数据集包括发生火灾的不同紧急情况,例如建筑物着火,工业火灾,车祸和骚乱(./JPEGImages/)。 数据集包括火焰区域的分割,着火区域标记为白色,而非着火区域标记为黑色(./Annotations)。可以用于火焰检测和分割任务。
  • DeepGlobe 道路提取数据集
    来自 DeepGlobe挑战赛的道路提取数据集
  • 宠物狗分类数据集
    包括生活中常见宠物狗11种,适合用来作图像分类
  • 野火烟雾检测数据集
    数据集由AI for Humany与HPWREN合作发布,用于探测到森林火灾中烟雾的最初迹象,并在火势加大前发现并扑灭。
  • 变压器设备漏油数据集
    油浸式变压器通常采用油浸自冷式、油浸风冷式和强迫油循环三种冷却方式。该数据集采集于油浸式变压器的设备漏油情况,一般用于变电站的无人巡检,代替传统的人工巡检,与绝缘子的破损检测来源于同一课题。
  • 一级保护动物图像分类数据集汇总
    包含八千余张各类国家一级保护动物的图像数据,标签提供了每张图像的所属类别和保护等级。
  • 查看更多
  • 菜谱大全
    菜谱大全数据,总计80452条
  • 全国电影票房
    2011年至2019年全国电影票房日榜单
  • 北美电影票房
    2011年至2019年北美票房日票房榜
  • Alexa网站排名
    中国网站,全球网站,德国网站,日本网站,法国网站,美国网站,英国网站,韩国网站,香港网站Alexa排名TOP500;更新:2019年8月
  • Instacart用户购物行为数据集
    Instacart Market Basket Analysis数据集是一组描述客户订单随时间变化的关系文件。可以用来预测用户下一次订购的产品。该数据集是匿名的,包含来自20多万Instacart用户的300多万份杂货订单样本。对于每个用户,提供了4到100个订单,以及每个订单中购买的产品序列。数据集还提供下订单的星期和时间,以及订单之间的相对时间度量。
  • 零售行业商品特征学习数据集
    开源的商品识别方向的数据集,358类数据集,训练集 :230,280张图片; 测试集:25,738张图片
  • 智能零售柜商品识别
    智能零售结算系统,其目的旨在于利用计算机视觉领域中国的图像识别及目标检测技术,精准地对顾客购买的商品进行智能化、自动化的价格结算。
  • 查看更多
  • 历史彩票开奖结果
    双色球、超级大乐透、七乐彩、福彩3D、七星彩、排列3、排列5 历史开奖结果;截止2019-11-31
  • 历史外汇日数据
    100外币兑人民币,支持新西兰元、新加坡元、欧元、澳大利亚元、港币、瑞士法郎、美元、加拿大元、英镑、日元;2012年2月-2019年9月,来源招商银行
  • 上市公司业绩报告
    上市公司业绩公告,2006年12月-2019年8月,总计约:73323条
  • 中证100
    2006年至2019年9月中证100指数日数据,总计3250条
  • 上证150
    2012年至2019年9月上证150指数日数据,总计1817条
  • 上证100
    2012年至2019年9月上证100指数日数据,总计1817条
  • 企债指数
    2003年至2019年9月企债指数日数据,总计3972条
  • 查看更多
  • PubMed数据集
    PubMed 是一个提供生物医学方面的论文搜寻以及摘要,并且免费搜寻的数据库。它的数据库来源为MEDLINE。其核心主题为医学,但亦包括其他与医学相关的领域,像是护理学或者其他健康学科。
  • 结核病图像数据集
    带有注释的结核病图像数据集。 它是从痰样本中提取的。它包含 928 个痰图像,边界框为 3734 个杆菌
  • 前列腺核磁影像分割数据集2012
    Prostate MR Image Segmentation 2012,这是一个公开的数据挑战数据集。主要是用于医学中图像分割
  • LiTS肝脏/肝肿瘤分割
    肝脏/肝肿瘤分割,包含131组训练数据和70组测试数据(无标签,在线测试)
  • 中药材识别数据集
    中药材识别数据集
  • 跌倒检测数据集Fall detection Dataset
    跌倒检测Fall detection Dataset
  • 世界范围内的自杀统计数据
    世界范围内的自杀统计数据,包括国家、性别、年龄段等字段
  • 查看更多
  • Email communication network数据集
    使用欧洲一家大型研究机构的电子邮件数据生成的。从 2003 年 10 月到 2005 年 5 月(18 个月)期间,对研究机构所有传入和传出电子邮件的信息进行了匿名处理
  • Unity Answers 论坛数据集
    来自“Unity Answers”论坛的与 Unity3D 相关的问题和答案,超过241k条数据
  • Inspired:电影推荐对话数据集
    一个包含 1,001 个用于电影推荐的人与人对话的新数据集,其中包含成功推荐的度量。
  • 对联数据集
    开源的对联数据集couplet-clean-dataset处理后的对联,去掉敏感词汇,并删掉14条中文编码错误的对联,共744915条对联。
  • 无限恐怖文本数据
    包含zhttty创作的无限恐怖文本,用于训练文本生成任务
  • AG的新闻文章语料库
    AG 是超过 100 万篇新闻文章的集合。在一年多的活动中,ComeToMyHead从2000 多个 新闻来源收集了新闻文章。ComeToMyHead 是一个学术新闻搜索引擎,自 2004 年 7 月开始运行。 数据集由学术界提供,用于数据挖掘(聚类、分类等)、信息检索(排名、搜索等)、xml、数据压缩、数据流和任何其他非商业活动。 鼓励您下载此语料库用于任何非商业用途。
  • 新闻分类数据集sample(thu)
    新闻分类数据集sample(thu)
  • 查看更多
  • IP地址段数据-全球版
    IPv4归属地查询数据,总计约70万个IP段,支持国内外IP。
  • 省市区(镇/乡)数据
    全国省市区(镇/乡)数据,最大支持4级,可用于电商等收件地址选择等场景。数据来源网络收集整理,名称等可能有一定出入,仅供参考。
  • 全国行政区划代码表
    全国行政区划代码表,区县级。 数据来源网络收集整理,名称等可能有一定出入,仅供参考。
  • 全国火车票代售点
    全国火车票代售点,包含省份、城市、区县、地址、联系电话、营业时间等字段
  • 车型大全数据
    车型品牌、系列、车型大全
  • 机场、城市三字码
    国内(含港澳台)、国际机场和城市三字码数据
  • 国内机场三字码表
    国内机场名称及对应三字码查询
  • 查看更多
  • 手机号码归属地-基础版
    手机号码段(前7位),对应的省市及运营商信息。
  • 垃圾分类数据
    常用垃圾分类数据,总计约6900条数据记录
  • 历史空气质量
    300+城市2014年至2019年11月历史空气质量数据;累计约73万条
  • 历史天气数据
    2000+城市地区2011年至2019年11月历史天气情况,总计约750万条记录
  • 全国邮编区号大全
    全国邮编区号大全,包含市、县、区名,区号,邮编
  • 全国各地车牌查询表
    全国各地车牌字母查询表 - 收录了全国各地的车牌字母信息,可以通过查询车牌字母找到是哪个市的车
  • 常用号码数据
    全国常用电话号码列表大全
  • 查看更多
  • 图书信息数据
    图书基本出版信息,如标题、作者、出版社等;总计约280万条
  • 汉字简体繁体参照表
    汉字简体繁体转换映射表
  • 现代奥运会历史数据集
    这是一个关于现代奥运会的历史数据集,包括从1896年雅典奥运会到2016年里约奥运会的所有比赛
  • 45K电影元数据
    这些文件包含完整MovieLens数据集中列出的所有45000部电影的元数据。
  • 万年历
    万年历数据
  • 老黄历
    黄历每日吉凶宜忌查询,2010年至2025年
  • 唐诗三百首
    唐诗三百首全集
  • 查看更多
AI服务接口
AI服务接口使开发者能够轻松访问和集成先进的AI能力,加速应用开发与技术创新。
  • 全部
  • 证件OCR识别
  • 票据OCR识别
  • 文字OCR识别
  • 智能服务
  • 人脸识别检测
  • 名片识别
    通过提交名片图片内容,快速识别姓名、职位、手机、邮箱等名片内容。识别精准,响应速度快,对反光、角度旋转、重影、曝光等有良好适应性。
  • 证件识别
    支持身份证、银行卡、驾驶证、营业执照等三十多种证件的OCR识别。
  • 身份证OCR识别
    支持对二代居民身份证正反面的关键字段识别,包括姓名、性别、民族、出生日期、住址、 身份证号、签发机关、有效期限。
  • 银行卡识别
    支持对主流银行卡的卡号、有效期、发卡行、3个关键字段进行结构化识别,识别准确率超过99%
  • 营业执照识别
    支持对营业执照关键字段的识别,包括单位名称、法人、地址、有效期、证件编号、社会信用代码等
  • 机动车登记证书识别
    本接口支持国内机动车登记证书主要字段的结构化识别,包括机动车所有人、身份证明名称、号码、车辆型号、车辆识别代号、发动机号、制造厂名称等。
  • 不动产登记证识别
    可识别不动产登记证明中的权利人、共有情况、用途、权利性质、使用期限等文字信息
  • 查看更多
  • 名片识别
    通过提交名片图片内容,快速识别姓名、职位、手机、邮箱等名片内容。识别精准,响应速度快,对反光、角度旋转、重影、曝光等有良好适应性。
  • 证件识别
    支持身份证、银行卡、驾驶证、营业执照等三十多种证件的OCR识别。
  • 身份证OCR识别
    支持对二代居民身份证正反面的关键字段识别,包括姓名、性别、民族、出生日期、住址、 身份证号、签发机关、有效期限。
  • 银行卡识别
    支持对主流银行卡的卡号、有效期、发卡行、3个关键字段进行结构化识别,识别准确率超过99%
  • 营业执照识别
    支持对营业执照关键字段的识别,包括单位名称、法人、地址、有效期、证件编号、社会信用代码等
  • 机动车登记证书识别
    本接口支持国内机动车登记证书主要字段的结构化识别,包括机动车所有人、身份证明名称、号码、车辆型号、车辆识别代号、发动机号、制造厂名称等。
  • 不动产登记证识别
    可识别不动产登记证明中的权利人、共有情况、用途、权利性质、使用期限等文字信息
  • 查看更多
  • 增值税发票识别
    支持对增值税普票或专票所有30个字段进行结构化识别,包括发票基本信息、销售方及购买方信息、商品信息、价税信息等
  • 火车票识别
    本接口支持火车票全字段的识别,包括编号、票价、姓名、座位号、出发时间、出发站、到达站、车次、席别等。
  • 运单识别
    本接口支持市面上主流版式电子运单的识别,包括收件人和寄件人的姓名、电话、地址以及运单号等字段。
  • 机票行程单识别
    本接口支持机票行程单关键字段的识别,包括姓名、身份证件号码、航班号、票价 、合计、电子客票号码、填开日期等。
  • 出租车发票识别
    本接口支持出租车发票关键字段的识别,包括发票号码、发票代码、金额、日期等字段。
  • 保险单据识别
    本接口支持病案首页、费用清单、结算单、医疗发票四种保险理赔单据的文本识别和结构化输出。
  • 定额发票识别
    本接口支持定额发票的发票号码、发票代码及金额等关键字段的识别。
  • 查看更多
  • 算式识别
    支持作业算式题目的自动识别,目前覆盖 K12 学力范围内的 14 种题型,包括加减乘除四则运算、分数四则运算、竖式四则运算、脱式计算等
  • 通用手写体识别
    本接口支持图片内手写体文字的检测和识别,针对手写字体无规则、字迹潦草、模糊等特点进行了识别能力的增强。
  • 数学试题识别
    本接口支持数学试题内容的识别和结构化输出,包括通用文本解析和小学/初中/高中数学公式解析能力(包括91种题型,180种符号)。
  • 验证码OCR识别
    识别图片验证码的信息
  • 文字识别
    基于业界领先的深度学习技术,提供多场景、多语种、高精度的整图文字检测和识别服务
  • 查看更多
  • 人脸实名认证
    校验姓名、身份证号、人脸图片信息是否一致,进行人脸实名认证。
  • 图片鉴黄
    人工智能鉴黄技术,智能识别图片中的色情和性感内容,让您的应用轻松过审,远离违规风险
  • 文本审核
    识别文本审核场景下小说、新闻、资讯是否含有色情和涉政违规内容,帮助业务方做基础判断,极大释放审核的人力,杜绝线上风险
  • 情感倾向分析
    凭借领先的人工智能与自然语言分析技术,自动对包含主观信息的文本进行情感倾向性判断,为口碑分析、话题监控、舆情分析等应用提供基础技术支持。
  • 文本纠错
    识别文本中有错误的片段,进行错误提示并给出正确的建议文本内容
  • 在线语音识别
    融合领先的自然语言处理技术,提供快速、精准的语音识别服务。
  • 地标识别
    支持识别约5万中外著名地标、景点,广泛应用于拍照识图、图片分类等场景
  • 查看更多
  • 人脸实名认证
    校验姓名、身份证号、人脸图片信息是否一致,进行人脸实名认证。
  • 人脸检测
    快速检测人脸并返回人脸框位置、定位五官与轮廓关键点,准确识别多种人脸属性
  • 在线图片活体检测
    人脸活体检测API主要用于针对用户上传图像,返回该图像中的人脸是否为真人;基于图片中人像的破绽(摩尔纹、成像畸形等),判断目标是否为活体,有效防止屏幕二次翻拍等作弊攻击
  • 人脸口罩识别
    基于业界领先的深度学习技术,利用人脸识别技术针对当下疫情防控,检测人群中是否有未戴口罩者,大大减少人工防疫成本,且准确度高于业界领先水平
  • 查看更多
AI智能应用
AI应用将技术与业务需求结合,为最终用户和行业提供定制化解决方案,展现AI的实际价值和潜力。
工作生活好帮手,即时回答,多元对话,探索AI的无限可能。🚀
智能AI机器人助手,集成讯飞星火、文心一言、通义千问、腾讯混元、ChatGLM等AI大模型。
立即体验
Juhe.Chat
行业应用
在当前的数据驱动时代,各行业通过数据赋能实现了显著的转型和升级。
客户案例
聚合提供的综合人工智能服务平台等多项核心AI技术,成为众多行业领先企业的首选合作伙伴。
0512-88869195