全语种自动语音识别语料库_数据下载_免费数据下载_聚合数据

首页

API市场

OPC社区

产品矩阵

数据服务
- API Market Place
- JUHE MCP & SKILL Hub
- Customized Data
- Data Block
数据产品
- APIMaster
- DataArts
- QuickBot
开发者服务
- Jenius
- 开发者社区
- BayArea
- AI创作

投资者关系

关于

关于聚合
聚合动态
合作伙伴
API百科

热门搜索

短信发送 5G基站身份证 AI新闻简报银行卡天气快递航班订票实名认证

全语种自动语音识别语料库

全语种自动语音识别（ASR）语料库是一套覆盖数百种低资源与长尾语言的大规模语音转录数据，旨在解决全球语音技术在“小语种缺乏训练数据”这一长期瓶颈。数据涵盖自然对话、真实发音特点及多语种标注，可用于训练通用语音识别模型、语种识别系统，以及研究跨语言迁移、低资源语音建模等问题。该语料库大幅降低多语言 ASR 开发门槛，为构建面向全球、多语种应用的语音系统提供了关键基础。

行业:

人工智能

国标分类:

行业通识数据集

759

442

2025-12-03

数据集介绍

数据属性

数据模态

文本音频

数据格式

Parquet

记录数/样本数

约 274,000 行

文件数量

N/A

总大小

983GB

时长

N/A

地理覆盖范围

不适用

时间覆盖范围

不适用

数据更新频率

静态（不再更新）

数据采集方式

公共数据集获取

预期用途

预训练

标注状态

完全标注

标注类型

语义分割掩码语音转写

数据字典下载数据样本下载

数据驱动未来

Data Drives The Future

立即注册

0512-88869195

微信扫码，咨询客服

数据驱动未来

Data Drives The Future

立即注册