全语种自动语音识别语料库

全语种自动语音识别(ASR)语料库是一套覆盖数百种低资源与长尾语言的大规模语音转录数据,旨在解决全球语音技术在“小语种缺乏训练数据”这一长期瓶颈。数据涵盖自然对话、真实发音特点及多语种标注,可用于训练通用语音识别模型、语种识别系统,以及研究跨语言迁移、低资源语音建模等问题。该语料库大幅降低多语言 ASR 开发门槛,为构建面向全球、多语种应用的语音系统提供了关键基础。

行业:
人工智能
国标分类:
行业通识数据集
24
24
2025-12-03

数据集介绍

数据属性

数据模态
文本 音频
数据格式
Parquet
记录数/样本数
约 274,000 行
文件数量
N/A
总大小
983GB
时长
N/A
地理覆盖范围
不适用
时间覆盖范围
不适用
数据更新频率
静态(不再更新)
数据采集方式
公共数据集获取
预期用途
预训练
标注状态
完全标注
标注类型
语义分割掩码 语音转写
数 据 驱 动 未 来
Data Drives The Future
0512-88869195
客服微信二维码

微信扫码,咨询客服

数 据 驱 动 未 来
Data Drives The Future