长推：解读Meta开源AI项目MMS创新点

区块链
23年5月23日
编辑

聪聪侠

注：原文来自@balconychy发布长推。Meta开源的Massively Multilingual Speech太厉害了。个人觉得最大的创新点是：大大减少语音标记数据时长要求。对比Whisper：FLEURS基准的54种语言上将Whisper的单词错误率减少了一半以上，这还是在在一小部分标记的数据上进行训练得前提下。标记数据:whisper(680K) VS MMS (3K 和 45K）。关键是：自监督预训练+微调。这种模式看来是遍地开花： -大语言：预训练（句子补全自监督训练）+微调（问题

注：原文来自@balconychy发布长推。

Meta开源的Massive Multilingual Speech太厉害了。个人觉得知名的创新点是：大大减少语音标记数据时长要求。对比Whisper：FLEURS基准的54种语言上将Whisper的单词错误率减少了一半以上，这还是在在一小部分标记的数据上进行训练得前提下。标记数据:whisper(680K) VS MMS (3K 和 45K）。

关键是：自监督预训练+微调。

这种模式看来是遍地开花：

-大语言：预训练（句子补全自监督训练）+微调（问题-答案样本监督学习）

-语音识别：预训练（无标记语音自监督训练）+微调（语音-文本样本监督学习）

直觉上看符合人类学习：大量的无意义语音输入，然后在来一些有限的教学，小孩就能掌握语言。

具体训练过程：

预训练

使用自监督学习wav2vec 2.0在未标记语音数据上训练。类似句子补全，将语音随机屏蔽一段，然后猜屏蔽的部分。在A100GPU上训练1百万个updates. MMS (0.3B) 48个GPU上按2.3小时每批次大小训练 MMS (1B）在64个GPU上按3.5小时每批次大小训练。

文本转语音子任务

对预训练的MMS（1B）模型进行微调来训练多语言语音识别模型。在模型上添加线性层，映射到输出词汇表。

模型已经开源可以下载，包含底座和具体识别任务模型。支持微调。 https://github.com/facebookresearch/fairseq/tree/main/examples/mms…

本站声明:网站内容来源于网络,如有侵权,请联系我们,我们将及时处理。

温馨提示：

文章标题：长推：解读Meta开源AI项目MMS创新点

文章链接：https://www.btchangqing.cn/536150.html

更新时间：2023年05月23日

本站大部分内容均收集于网络，若内容若侵犯到您的权益，请联系我们，我们将第一时间处理。

{{userData.name}}已认证

长推：解读Meta开源AI项目MMS创新点

梳理Token空投史：项目需求、女巫攻击、投资心理

方舟南方巨兽龙怎么驯服（方舟南方巨兽龙怎么驯服吃什么饲料）

2025年4月21：比特币价格会再次暴跌吗？

Bitget故障引发127亿美元交易狂潮，VOXEL币暴涨200%

比特币行情短期目标价位9万美元

比特币自2024年减半以来上涨33%，因机构扰乱周期

ADA币行情横盘整理，趋势疲软，但出现看涨迹象

FAST币

ABR币

比特币/BTC/Bitcoin

泰达币/USDT

瑞波币/XRP