Mozilla宣布Common Voice数据集已超2万小时 新增闽南语和粤语

栏目: IT资讯 · 发布时间: 3年前

内容简介:本周早些时候,Mozilla宣布CommonVoice数据集已经收集了超过2万个小时的内容,世界各地的任何人都可以使用这些内容来改进他们的语音识别软件,几乎是一年前的两倍。

本周早些时候,Mozilla 宣布 Common Voice 数据集已经收集了超过 2 万个小时的内容,世界各地的任何人都可以使用这些内容来改进他们的语音识别软件,几乎是一年前的两倍。

本次更新中,英语数据集的容量达到了 71GB,而且支持更多的语言,包括Tigre、闽南语、Meadow Mari、Bengali、Toki Pona和粤语。

Mozilla宣布Common Voice数据集已超2万小时 新增闽南语和粤语

Mozilla 表示, Common Voice 项目非常重要,因为它允许任何人向该项目贡献他们的声音,这应该允许虚拟助手理解更多口音。此外,它确保大科技公司不是唯一拥有大型数据集的公司--这让小的开发者和公司有机会建立竞争性产品和服务。

Mozilla 表示最新发布的数据集具备以下优势:

● 新增 6 种 语言

新版本还具有六种新的语言。Tigre, 闽南语, Meadow Mari, Bengali, Toki Pona 和粤语。

● 扩容

现在有27种语言拥有至少100小时的语音数据。它们包括孟加拉语、泰语、巴斯克语和弗里斯兰语。

9 种语言现在至少有500小时的语音数据。它们包括基尼亚卢旺达语(2383小时)、加泰罗尼亚语(2045小时)和斯瓦希里语(719小时)。

● 女性语音

九种语言现在都有至少45%的性别标签为女性。它们包括马拉地语、迪维希语和卢甘达语。

● 社区推动

加泰罗尼亚语社区推动了主要的增长。加泰罗尼亚语社区的AINA项目--巴塞罗那超级计算中心和加泰罗尼亚政府之间的合作--动员了加泰罗尼亚语使用者为"共同声音"做出贡献。

支持社区参与决策然而。共同语音语言代表队(Common Voice language Rep Cohort)已经贡献了关于最佳句子收集、语言变体的纳入等方面的反馈和学习成果。


以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

重来

重来

[美] 贾森·弗里德、[丹] 戴维·海涅迈尔·汉森 / 李瑜偲 / 中信出版社 / 2010-10 / 36.00元

大多数的企业管理的书籍都会告诉你:制定商业计划、分析竞争形势、寻找投资人等等。如果你要找的是那样的书,那么把这本书放回书架吧。 这本书呈现的是一种更好、更简单的经商成功之道。读完这本书,你就会明白为什么计划实际上百害而无一益,为什么你不需要外界投资人,为什么将竞争视而不见反倒会发展得更好。事实是你所需要的比你想象的少得多。你不必成为工作狂,你不必大量招兵买马,你不必把时间浪费在案头工作和会议......一起来看看 《重来》 这本书的介绍吧!

RGB转16进制工具
RGB转16进制工具

RGB HEX 互转工具

正则表达式在线测试
正则表达式在线测试

正则表达式在线测试

HSV CMYK 转换工具
HSV CMYK 转换工具

HSV CMYK互换工具