藏语语音识别在藏语教育、新闻传播等领域具有重要的应用价值。拉萨方言在拉萨市及其周边地区广泛使用。然而,由于地理等限制,现有藏语语音数据资源仍然有限,高质量的注释数据尤为稀缺。基于此,本研究构建了一个专业设计且标准化的藏语拉萨方言语音识别数据集。数据集采用自研录音软件在真实环境中录制,采集了51名说话者的语音,总时长31.61小时,包含24,289个语音样本,平均每个样本时长4.68秒。数据内容主要选自新闻相关文本,以保证语言规范性和领域代表性。为保障数据质量,实施了严格的质量控制流程:首先对原始文本进行分句并人工核验;录音完成后,采用语音活动检测(VAD)技术过滤并重新获取高质量语音样本;此外,对文本中的非发音符号进行了规范化,提升语音识别的准确性。该数据集的建立为藏语语音识别提供了重要基础资源,预计将促进藏语语音识别技术的发展。
MA 等人(Sun,)研究了该问题。