WAXAL:面向非洲语言语音技术的大规模开放资源

🤖 AI总结

主题

Google发布WAXAL数据集,以解决非洲语言语音技术资源匮乏问题。

摘要

Google推出WAXAL开放语音数据集,覆盖27种非洲语言,通过与本地组织合作收集高质量数据,旨在弥合数字鸿沟并推动包容性语音技术发展。

关键信息

  • 1 WAXAL包含27种非洲语言的ASR和TTS数据。
  • 2 数据集采用开放许可,旨在赋能非洲AI生态。
  • 3 项目由Google与非洲本地学术及社区组织深度合作完成。

WAXAL:面向非洲语言语音技术的大规模开放资源

WAXAL为非洲语音技术提供了一个关键的开放访问基础。该资源包含27种本土语言的大规模ASR和TTS数据语料库,采用高度宽松的许可协议,旨在赋能非洲AI生态系统,构建能够更好反映该地区独特语言多样性的强大语音系统。

语音技术的现状与挑战

虚拟助手和自动转录等语音技术已经改变了我们与计算机交互的方式。然而,这些技术的优势主要集中在少数高资源语言上。这种数字鸿沟使得数亿人——特别是撒哈拉以南非洲地区的居民——无法使用母语访问基本技术服务。该地区拥有超过2000种不同的语言。几年前,Google Research团队开始着手解决这一问题。

为了应对这一关键需求,我们推出了WAXAL:一个大规模、开放访问的语音数据集,初期覆盖27种撒哈拉以南非洲语言,这些语言的使用者超过1亿人,分布在26个以上的国家。WAXAL项目始于2021年,是与非洲学术和社区组织多年合作的成果,提供了构建强大语音系统所需的高质量、宽松许可的数据。这次初始发布包含约1846小时的转录自然语音数据(用于自动语音识别ASR),以及超过565小时的高保真录音(用于文本转语音TTS)。我们在知识共享许可协议(CC-BY-4.0)下发布这些资源,以促进研究并实现针对非洲大陆独特语言特征的包容性语音技术。我们计划让WAXAL集合持续演进和扩展,纳入更多语言,作为我们弥合数字鸿沟持续努力的一部分。

数据集的构成与特点

通过解决超过1亿使用者的关键数据稀缺问题,WAXAL旨在赋能区域AI研究生态系统。为支持强大语音技术的开发,该语料库整合了两个专门设计的数据集,为语音识别和合成任务提供全面覆盖。

ASR数据集采用图像提示方法收集,参与者观看来自Google开放图像数据集的图片,用目标语言描述所见内容。这种方法能够引发自然、非脚本化的语音,捕捉真实世界的语言使用模式,包括自发表达、停顿和口语化特征。

TTS数据集则在专业录音环境中录制,使用高质量设备捕捉清晰、无噪音的语音。录音人员朗读精心策划的文本提示,确保音素覆盖平衡,为训练能够生成自然流畅语音的TTS模型提供必要的清晰度和一致性。

WAXAL语料库对非脚本化ASR数据和高保真TTS音频的双重关注,旨在实现全双工对话系统的开发。具体而言,ASR组件有助于对真实场景中典型的多样化、自发语音输入进行建模,而高质量TTS组件则提供生成清晰自然输出所需的干净参考数据。目前数据集包含的27种语言涵盖了东非、西非、中非和南部非洲的主要语言。

合作模式与生态系统建设

WAXAL项目的核心承诺是与非洲AI生态系统合作并直接为其做出贡献。数据收集工作完全由非洲学术和社区组织主导,在Google专家关于世界级数据收集实践的指导下进行。这种协作方式确保了语料库由其服务的社区构建并为其服务;通过共享方法论,每个合作伙伴专注于特定的语言子集。

我们的合作伙伴包括马凯雷雷大学,该校为九种不同语言收集了ASR和TTS数据;加纳大学专注于八种语言,使用上述基于图像提示的ASR数据收集方法。其他重要合作者包括Digital Umuganda与亚的斯亚贝巴大学合作,在多种区域语言的ASR收集中发挥了关键作用。对于高质量的录音棚录制语音,Media Trust、Loud n Clear和塞内加尔非洲数学科学研究所主导了各种区域语言的TTS录音。

这一框架从根本上植根于合作伙伴保留所收集数据所有权的原则,共同致力于让所有数据集向更广泛的社区开放访问。这种深度合作和开放访问理念已经促成了显著的衍生研究和出版物。

未来展望

WAXAL代表了弥合数字鸿沟的关键里程碑,为27种撒哈拉以南非洲语言提供了高质量、开放访问的语音资源。该项目通过与非洲学术和社区组织的深度合作开发,赋能非洲大陆的AI生态系统并保护语言多样性。我们希望WAXAL将继续作为非洲语言数字保护的重要资源和未来创新的基础。Google将继续致力于这一努力,计划持续扩展WAXAL数据集。

我们感谢马凯雷雷大学、加纳大学、Digital Umuganda、亚的斯亚贝巴大学、塞内加尔非洲数学科学研究所、Media Trust和Loud and Clear Communications Ltd等合作伙伴的重要贡献,他们在缩小语言差距、为非洲大陆数百万使用者构建更具包容性的数字未来方面发挥了关键作用。

Q&A

Q1:WAXAL数据集包含哪些语言和多少数据量?

A:WAXAL初始发布覆盖27种撒哈拉以南非洲语言,这些语言的使用者超过1亿人,分布在26个以上的国家。数据集包含约1846小时的转录自然语音数据用于自动语音识别,以及超过565小时的高保真录音用于文本转语音合成。所有资源采用CC-BY-4.0许可协议发布。

Q2:WAXAL如何收集ASR和TTS数据?

A:ASR数据采用图像提示方法,参与者观看图片并用目标语言描述所见内容,这能捕捉自然、非脚本化的语音和真实语言使用模式。TTS数据则在专业录音环境中录制,录音人员朗读精心策划的文本,确保音素覆盖平衡,为训练TTS模型提供清晰一致的语音。

Q3:WAXAL项目是如何与非洲本地组织合作的?

A:数据收集工作完全由非洲学术和社区组织主导,在Google专家指导下进行。合作伙伴包括马凯雷雷大学、加纳大学、Digital Umuganda、亚的斯亚贝巴大学等机构。合作伙伴保留数据所有权,同时承诺开放访问。这种模式确保语料库由其服务的社区构建并为其服务,已促成多项衍生研究成果。

© 版权声明

相关文章