当前位置:首页区块链长推:解读Meta开源AI项目MMS创新点

长推:解读Meta开源AI项目MMS创新点

注:原文来自@balconychy发布长推。Meta开源的Massively Multilingual Speech太厉害了。 个人觉得最大的创新点是:大大减少语音标记数据时长要求。 对比Whisper:FLEURS基准的54种语言上将Whisper的单词错误率减少了一半以上,这还是在 在一小部分标记的数据上进行训练得前提下。 标记数据:whisper(680K) VS MMS (3K 和 45K)。关键是:自监督预训练+微调。 这种模式看来是遍地开花: -大语言:预训练(句子补全自监督训练)+微调(问题

注:原文来自@balconychy发布长推。

Meta开源的Massive Multilingual Speech太厉害了。 个人觉得**的创新点是:大大减少语音标记数据时长要求。 对比Whisper:FLEURS基准的54种语言上将Whisper的单词错误率减少了一半以上,这还是在 在一小部分标记的数据上进行训练得前提下。 标记数据:whisper(680K) VS MMS (3K 和 45K)。

关键是:自监督预训练+微调。

这种模式看来是遍地开花:

-大语言:预训练(句子补全自监督训练)+微调(问题-答案样本监督学习)

-语音识别:预训练(无标记语音自监督训练)+微调(语音-文本样本监督学习)

直觉上看符合人类学习: 大量的无意义语音输入,然后在来一些有限的教学,小孩就能掌握语言。

具体训练过程:

预训练

使用自监督学习wav2vec 2.0在未标记语音数据上训练。类似句子补全,将语音随机屏蔽一段,然后猜屏蔽的部分。 在A100GPU上训练1百万个updates. MMS (0.3B) 48个GPU上按2.3小时每批次大小训练 MMS (1B)在64个GPU上按3.5小时每批次大小训练。

文本转语音子任务

对预训练的MMS(1B)模型进行微调来训练多语言语音识别模型。 在模型上添加线性层,映射到输出词汇表。

模型已经开源可以下载,包含底座和具体识别任务模型。支持微调。 https://github.com/facebookresearch/fairseq/tree/main/examples/mms…

本站声明:网站内容来源于网络,如有侵权,请联系我们,我们将及时处理。

温馨提示:

文章标题:长推:解读Meta开源AI项目MMS创新点

文章链接:https://www.btchangqing.cn/536150.html

更新时间:2023年05月23日

本站大部分内容均收集于网络,若内容若侵犯到您的权益,请联系我们,我们将第一时间处理。

区块链

梳理Token空投史:项目需求、女巫攻击、投资心理

2023-5-23 15:42:30

区块链

方舟南方巨兽龙怎么驯服(方舟南方巨兽龙怎么驯服吃什么饲料)

2023-5-23 15:43:06

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索