多语言ASR训练音频数据

本数据集包含超过10万小时的大规模、多语言语音音频及其对应的高质量文本转录。数据集涵盖全球44种主要语言,全面覆盖了主流语种及重要区域语言,具备极强的语言多样性与代表性。

行业:
人工智能
国标分类:
行业专识数据集
17
24
2025-12-15

数据集介绍

数据属性

数据模态
文本 音频
数据格式
WAV mp3
记录数/样本数
100000
文件数量
若干
总大小
若干
时长
100K小时
数据语言
多语言
地理覆盖范围
全球
时间覆盖范围
2025至今
数据更新频率
每月
数据采集方式
用户生成内容(UGC)
预期用途
预训练 微调 评估
标注状态
完全标注
标注类型
分类标签 语义分割掩码 语音转写
数 据 驱 动 未 来
Data Drives The Future
0512-88869195
客服微信二维码

微信扫码,咨询客服

数 据 驱 动 未 来
Data Drives The Future