原文来源:少数派
那是前几天一个普通的上午。我正在日常搬砖,突然各路信息席卷而来:「赶紧的,GPT-4 模型构架泄露啦,国产大模型要再次超越啦!」
打开社媒一看,好么,都不用会英语,国内的人翻机翻都已经上线了,这速度,我是真的服气。但是,等我去追根溯源,看看信息到底有几分靠谱的时候,我突然就有把科技圈逛出了娱乐圈的感觉。
鉴于目前「Fake News」满天飞的互联网现状,我看到这个消息后,干的第一件事就是追本溯源。
▍来龙去脉
我信息挖掘的起点是 Hacker News 上分享的、通过 Thread Reader 提取的推文串(存档于 7 月 11 日)。点开一看,上来就是两句:
GPT-4’s details are leaked.
It is over.
这标题党水平完全不逊色于国内。
众所周知,OpenAI 在发布 GPT-4 的同时打破了自己对 open 的承诺,没有透露任何权重或技术细节,被业界广泛批评。这大概就是博主为什么要用 It is over 这个梗来渲染「情节反转」的戏剧效果。
再看内容,正是 OpenAI 守口如瓶的 GPT-4 训练细节。这些信息前面有过很多猜测,但是官方一直都没有披露,提到的时候都说的很模糊(原文比较晦涩,用了很多缩写和行话,一些会在后文解释):
- 模型参数量:1.8 万亿,比 GPT-3.5(1750 亿)大 10 倍左右。
- 模型层深:120 层。
- 模型构架:混合专家模型(MoE,解释见后文),一共 16 个「专家」,每个专家 1110 亿参数量。每次向前传递推理(生成一个 token 的输出)选择两个专家。
- 训练数据:共 13T(13 万亿个)token 的数据。文本数据被重复训练了 2 次,代码数据被重复训练了 4 次。这个数据其实挺重要的,后续具体分析。
- 并行策略:8 路张量并行 + 16 路管道并行。有多个位于不同数据中心的多个 GPU 集群同时训练,每个集群有 128 个 GPU。
- 预训练上下文:8K。32K 版本是在 8K 基础上微调的。
- 训练成本:在约 25000 张 A100 上,以大约 2.15e25 flops 的速率,持续训练 90 至 100 天。按照每张 A100 小时 1 美元,大约需要 6300 万美元。(如今可在约 55 天内使用约 8192 张 H100 完成,费用估算为 2150 万美元。)
问题是,这些信息是怎么弄来的,是否靠谱呢?
顺藤摸「瓜」,我又找到了这串推文的发布者——Yam Peleg。
这老哥的账号虽然我没关注,但还真看过他以前的文章。他是以色列一个「创业公司」的 CEO(但成立有 15 年,可能再叫创业公司不太合适了);本人工程经历丰富,很懂大语言模型,曾经尝试反向破解过 GPT-4 和 ChaPT 代码解释器。今年六月,OpenAI 成员访问以色列的时候,Peleg 还去参加座谈沟通了,并且还和 CEO Sam Altman 合影。
读这老哥的文章,我就禁不住想起来在以色列时候见过的一位学生联络员 Tom,随便说点啥都能给你搞得热血沸腾的。
左起:Sam Altman、Yam Peleg(来源:@Yampeleg)
考虑到这老哥一直在研究 OpenAI,也认识 OpenAI 内部很多人,所以他如果得到了点啥内部消息,我觉得可信度其实还挺高的。
但等我晚上准备去仔细研读下他发的东西的时候,突然发现他把前面发的都删了。本来我以为是被 OpenAI 捂嘴了,还庆幸自己留了档。后面仔细一看,发现不是因为 OpenAI 要求删除,而是因为他也是从一个付费专栏转述的,被人投诉侵犯了版权。
这篇原始来源是一个叫做 Semi*ysis 的 Substack 专栏,他们稍早之前发了一篇题为 GPT-4 Architecture, Infrastructure, Training Dataset, Costs, Vision, MoE 的文章,放在付费墙后。
查了一下得知:
Semi*ysis 是一个精品半导体研究和咨询公司,专注于从化学原料到晶圆厂到设计 IP 和战略的半导体供应链。该公司由 Dylan Patel 创办,一位有着多年半导体行业经验的分析师和工程师。Patel 曾在英特尔、AMD、高通等公司担任过从设计工程师到市场营销经理等的角色。
Semi*ysis 的团队还包括多位专业的半导体分析师和咨询顾问。他们各自有着不同的专长领域,如 AI、云计算、网络、存储、电动汽车、射频、物联网等。他们为客户提供了从化学原料到晶圆厂到设计 IP 和战略的全方位的半导体供应链分析和咨询服务。
早些时候,Semi*ysis 还发过一篇文章披露谷歌工程师在内部通信中说「我们没有护城河,但 OpenAI 也没有」(We Have No Moat, And Neither Does OpenAI),引起不小议论。这篇文章后面被证实为真。
这样看来,Dylan Patel 老哥可能确实有些内线,他们给出的信息可信度应该还是可以的。
至于他们为啥这么急着让 Yam 老哥删推——因为这些「内部信息」确实价值不菲,订阅 Semi*ysis 的付费文章,一年要 500 美元。Yam 老哥订阅的精英版更是要 1000 美元。
▍梳理分析
根据这个来龙去脉,我的看法是,这个传闻还是有一定的可信度的。以下则是我基于这些信息的一些分析,提出来供大家讨论。
私有模型的竞争将集中在并行能力上
根据此次传闻,目前如果要训练一个 GPT-4 竞品,按照使用约 8,192 个 H100 芯片来估算,以每小时 2 美元的价格,在约 55 天内可以完成预训练,成本约为 2150 万美元(1.5 亿人民币)。
这个成本对于目前波涛汹涌的 LLM 市场来说,真的不算大。国内目前的主要玩家都可以比较轻松地承担数次训练。所以,这次说真的,再过半年模型能力(起码参数规模)对标 GPT-4 可能真的不是吹牛。
如果训练成本不是问题,那么训练数据会不会成为问题呢?我认为也不会。传闻称,GPT-4 的训练数据共 13T(13 万亿个)token。作为对比,CommonCrawl 和 RefinedWeb 两个公开数据集都是 5T 个 token,传闻称,余下部分来源 Twitter、Reddit 和 **;一些诉讼还主张 OpenAI 使用了来自 LibGen、SciHub 等「影子图书馆」的盗版数据。
因此,我认为这个数据规模并不是不可企及,再加上国内本身也积累了很多中文资源,所以训练数据也应该问题不大。
其他的类似预训练、微调以及中文编解码等问题,其实也不存在太多的技术秘密,方法还是 比较公开的。给足够的资源,半年时间应该都可以解决。
所以,**剩下的门槛就是并行能力了。其实这次传闻里面用了极大的篇幅去介绍相关的内容,专业程度还是比较高的,这里我只能做些粗浅解释。
粗略地说,所谓并行问题,就是你有了大模型,如何以**的成本让最多的人同时使用。这里面涉及到很多专业的设计问题,在运算资源固定的情况下,应该如何分配不同环节的运算资源?如何处理并发?如何管理内存?
并行处理的能力直接决定了用户体验。目前基于 GPT-3.5 的 ChaPT 和 API 都比较流畅了,这是非常厉害的。这里大家可能会说,我体验的其他国产 LLM 或者 Claude 都比 GPT-3.5 还快啊。但是,大家没有考虑使用的量级问题,GPT-3.5 在这么高的并发下有这样的性能,其他的厂商如果匹配不了 OpenAI 的这个能力,也就没能力来抢 OpenAI 的市场。
所以,并行能力可能会成为各路 OpenAI 竞争对手的角逐重点之一。
GPT-5 的重点在于多模态
前面提到,传闻称 GPT-4 是由 16 个专家模型组成的「专家混合」(mixture of experts, MoE)模型。这里简单解释一下什么是「专家混合」,这是指将用户的「问题」划分成若干子问题,每个子问题交给一个较小的模型(也就是一个「专家」)去解决,然后通过一个「路由模型」进行选择和组合,再输出给用户。
传闻进一步称,GPT-4 的每个「专家」有 1110 亿参数量——相当于 GPT-3(这个和 Sam Altman 前期说的 GPT-4 参数甚至小于 GPT-3.5 相符),其中有 550 亿个参数是共享的。每次向前传递推理(生成一个 token 的输出)使用两个「专家」,事实上耗费的参数量约为 2800 亿。这个数字显著小于不用 MoE 所需的数量,也和前期很多学者预测的类似。
值得注意的是,传闻指出 GPT-4 训练所用的文本和代码数据都是被重复使用过的。再结合使用 MoE 构架的选择,我个人猜测:要么目前可以比较方便获取的高质量文本数据已经接近枯竭,要么无限制增大数据量对 LLM 性能的提升已经非常有限了。
但是,无论是哪一种情况,GPT-5 想要有大的性能突破,就必须能够充分利用现存的大量视频、图片以及音频数据,换言之是一个「多模态」的模型。
问题在于,根据这次的传闻,OpenAI 目前的视觉多模态并没有太多的过人之处。它是一个独立的视觉编码器,使用文本做输入进行预训练,然后使用约 2 万亿个 Token 进行微调。这种训练方式,明显无法充分利用已有的视频、图片以及音频数据。
所以,OpenAI 一直强调还没有训练 GPT-5,大概率是真话。在训练 GPT-5 之前,他们还得找到一个更好的多模态模型构架,让模型可以充分利用音视频数据。而只有能够利用这些优质的训练数据,GPT-5 才有可能获得足够的能力提升。(同时,如果 GPT-5 真的能够充分利用这些音视频数据的话,那不管是 AGI 还是 OpenAI 最近提出的「超智体」,似乎确实也没那么遥远了。)
OpenAI 可能是有意放出的本次传闻
这个推论就完全是个人的瞎猜了。事实根据不足,大家看看就好。
我的理解是,OpenAI 很清楚 GPT-4 的护城河并不深;在如今这种热潮中,竞争对手迎头赶上也并不困难。并且如上分析,他们现在的多模态大模型构架应该还没有搞定,这个时候如果有新的玩家上来就从多模态开始突破,OpenAI 被弯道超车的概率也是很大的。
所以,这也许是 OpenAI 的缓兵之计——我就给你们透露一些 GPT-4 的信息,让头部的玩家都先去做 GPT-4 的复刻工作,把 OpenAI 已经走过的路也再走一遍。
如果在这个过程中,OpenAI 给 GPT-5 的训练打好了基础,完成了多模态大模型的前期攻关,即使 GPT-4 已经被其他的大语言模型超越,OpenAI 也不慌了。个人认为,多模态很可能就是人卷人的**一代了,再未来的模型开发和演进说不定就以 AGI 为主力了。也就是说,这次赢了,可能就赢到**了。
本站声明:网站内容来源于网络,如有侵权,请联系我们,我们将及时处理。
文章标题:OpenAI「打死都不说」的 GPT-4 训练细节被传出,这是我的解读
文章链接:https://www.btchangqing.cn/576943.html
更新时间:2023年07月17日
本站大部分内容均收集于网络,若内容若侵犯到您的权益,请联系我们,我们将第一时间处理。