OpenAI「打死都不说」的 GPT-4 训练细节被传出，这是我的解读

原文来源：少数派

那是前几天一个普通的上午。我正在日常搬砖，突然各路信息席卷而来：「赶紧的，GPT-4 模型构架泄露啦，国产大模型要再次超越啦！」

打开社媒一看，好么，都不用会英语，国内的人翻机翻都已经上线了，这速度，我是真的服气。但是，等我去追根溯源，看看信息到底有几分靠谱的时候，我突然就有把科技圈逛出了娱乐圈的感觉。

鉴于目前「Fake News」满天飞的互联网现状，我看到这个消息后，干的第一件事就是追本溯源。

▍来龙去脉

我信息挖掘的起点是 Hacker News 上分享的、通过 Thread Reader 提取的推文串（存档于 7 月 11 日）。点开一看，上来就是两句：

GPT-4’s details are leaked.

It is over.

这标题党水平完全不逊色于国内。

众所周知，OpenAI 在发布 GPT-4 的同时打破了自己对 open 的承诺，没有透露任何权重或技术细节，被业界广泛批评。这大概就是博主为什么要用 It is over 这个梗来渲染「情节反转」的戏剧效果。

再看内容，正是 OpenAI 守口如瓶的 GPT-4 训练细节。这些信息前面有过很多猜测，但是官方一直都没有披露，提到的时候都说的很模糊（原文比较晦涩，用了很多缩写和行话，一些会在后文解释）：

模型参数量：1.8 万亿，比 GPT-3.5（1750 亿）大 10 倍左右。
模型层深：120 层。
模型构架：混合专家模型（MoE，解释见后文），一共 16 个「专家」，每个专家 1110 亿参数量。每次向前传递推理（生成一个 token 的输出）选择两个专家。
训练数据：共 13T（13 万亿个）token 的数据。文本数据被重复训练了 2 次，代码数据被重复训练了 4 次。这个数据其实挺重要的，后续具体分析。
并行策略：8 路张量并行 + 16 路管道并行。有多个位于不同数据中心的多个 GPU 集群同时训练，每个集群有 128 个 GPU。
预训练上下文：8K。32K 版本是在 8K 基础上微调的。
训练成本：在约 25000 张 A100 上，以大约 2.15e25 flops 的速率，持续训练 90 至 100 天。按照每张 A100 小时 1 美元，大约需要 6300 万美元。（如今可在约 55 天内使用约 8192 张 H100 完成，费用估算为 2150 万美元。）

问题是，这些信息是怎么弄来的，是否靠谱呢？

顺藤摸「瓜」，我又找到了这串推文的发布者——Yam Peleg。

这老哥的账号虽然我没关注，但还真看过他以前的文章。他是以色列一个「创业公司」的 CEO（但成立有 15 年，可能再叫创业公司不太合适了）；本人工程经历丰富，很懂大语言模型，曾经尝试反向破解过 GPT-4 和 ChaPT 代码解释器。今年六月，OpenAI 成员访问以色列的时候，Peleg 还去参加座谈沟通了，并且还和 CEO Sam Altman 合影。

读这老哥的文章，我就禁不住想起来在以色列时候见过的一位学生联络员 Tom，随便说点啥都能给你搞得热血沸腾的。

左起：Sam Altman、Yam Peleg（来源：@Yampeleg）

考虑到这老哥一直在研究 OpenAI，也认识 OpenAI 内部很多人，所以他如果得到了点啥内部消息，我觉得可信度其实还挺高的。

但等我晚上准备去仔细研读下他发的东西的时候，突然发现他把前面发的都删了。本来我以为是被 OpenAI 捂嘴了，还庆幸自己留了档。后面仔细一看，发现不是因为 OpenAI 要求删除，而是因为他也是从一个付费专栏转述的，被人投诉侵犯了版权。

这篇原始来源是一个叫做 Semi*ysis 的 Substack 专栏，他们稍早之前发了一篇题为 GPT-4 Architecture, Infrastructure, Training Dataset, Costs, Vision, MoE 的文章，放在付费墙后。

查了一下得知：

Semi*ysis 是一个精品半导体研究和咨询公司，专注于从化学原料到晶圆厂到设计 IP 和战略的半导体供应链。该公司由 Dylan Patel 创办，一位有着多年半导体行业经验的分析师和工程师。Patel 曾在英特尔、AMD、高通等公司担任过从设计工程师到市场营销经理等的角色。

Semi*ysis 的团队还包括多位专业的半导体分析师和咨询顾问。他们各自有着不同的专长领域，如 AI、云计算、网络、存储、电动汽车、射频、物联网等。他们为客户提供了从化学原料到晶圆厂到设计 IP 和战略的全方位的半导体供应链分析和咨询服务。

早些时候，Semi*ysis 还发过一篇文章披露谷歌工程师在内部通信中说「我们没有护城河，但 OpenAI 也没有」（We Have No Moat, And Neither Does OpenAI），引起不小议论。这篇文章后面被证实为真。

这样看来，Dylan Patel 老哥可能确实有些内线，他们给出的信息可信度应该还是可以的。

至于他们为啥这么急着让 Yam 老哥删推——因为这些「内部信息」确实价值不菲，订阅 Semi*ysis 的付费文章，一年要 500 美元。Yam 老哥订阅的精英版更是要 1000 美元。

▍梳理分析

根据这个来龙去脉，我的看法是，这个传闻还是有一定的可信度的。以下则是我基于这些信息的一些分析，提出来供大家讨论。

私有模型的竞争将集中在并行能力上

根据此次传闻，目前如果要训练一个 GPT-4 竞品，按照使用约 8,192 个 H100 芯片来估算，以每小时 2 美元的价格，在约 55 天内可以完成预训练，成本约为 2150 万美元（1.5 亿人民币）。

这个成本对于目前波涛汹涌的 LLM 市场来说，真的不算大。国内目前的主要玩家都可以比较轻松地承担数次训练。所以，这次说真的，再过半年模型能力（起码参数规模）对标 GPT-4 可能真的不是吹牛。

如果训练成本不是问题，那么训练数据会不会成为问题呢？我认为也不会。传闻称，GPT-4 的训练数据共 13T（13 万亿个）token。作为对比，CommonCrawl 和 RefinedWeb 两个公开数据集都是 5T 个 token，传闻称，余下部分来源 Twitter、Reddit 和 **；一些诉讼还主张 OpenAI 使用了来自 LibGen、SciHub 等「影子图书馆」的盗版数据。

因此，我认为这个数据规模并不是不可企及，再加上国内本身也积累了很多中文资源，所以训练数据也应该问题不大。

其他的类似预训练、微调以及中文编解码等问题，其实也不存在太多的技术秘密，方法还是比较公开的。给足够的资源，半年时间应该都可以解决。

所以，**剩下的门槛就是并行能力了。其实这次传闻里面用了极大的篇幅去介绍相关的内容，专业程度还是比较高的，这里我只能做些粗浅解释。

粗略地说，所谓并行问题，就是你有了大模型，如何以**的成本让最多的人同时使用。这里面涉及到很多专业的设计问题，在运算资源固定的情况下，应该如何分配不同环节的运算资源？如何处理并发？如何管理内存？

并行处理的能力直接决定了用户体验。目前基于 GPT-3.5 的 ChaPT 和 API 都比较流畅了，这是非常厉害的。这里大家可能会说，我体验的其他国产 LLM 或者 Claude 都比 GPT-3.5 还快啊。但是，大家没有考虑使用的量级问题，GPT-3.5 在这么高的并发下有这样的性能，其他的厂商如果匹配不了 OpenAI 的这个能力，也就没能力来抢 OpenAI 的市场。

所以，并行能力可能会成为各路 OpenAI 竞争对手的角逐重点之一。

GPT-5 的重点在于多模态

前面提到，传闻称 GPT-4 是由 16 个专家模型组成的「专家混合」（mixture of experts, MoE）模型。这里简单解释一下什么是「专家混合」，这是指将用户的「问题」划分成若干子问题，每个子问题交给一个较小的模型（也就是一个「专家」）去解决，然后通过一个「路由模型」进行选择和组合，再输出给用户。

传闻进一步称，GPT-4 的每个「专家」有 1110 亿参数量——相当于 GPT-3（这个和 Sam Altman 前期说的 GPT-4 参数甚至小于 GPT-3.5 相符），其中有 550 亿个参数是共享的。每次向前传递推理（生成一个 token 的输出）使用两个「专家」，事实上耗费的参数量约为 2800 亿。这个数字显著小于不用 MoE 所需的数量，也和前期很多学者预测的类似。

值得注意的是，传闻指出 GPT-4 训练所用的文本和代码数据都是被重复使用过的。再结合使用 MoE 构架的选择，我个人猜测：要么目前可以比较方便获取的高质量文本数据已经接近枯竭，要么无限制增大数据量对 LLM 性能的提升已经非常有限了。

但是，无论是哪一种情况，GPT-5 想要有大的性能突破，就必须能够充分利用现存的大量视频、图片以及音频数据，换言之是一个「多模态」的模型。

问题在于，根据这次的传闻，OpenAI 目前的视觉多模态并没有太多的过人之处。它是一个独立的视觉编码器，使用文本做输入进行预训练，然后使用约 2 万亿个 Token 进行微调。这种训练方式，明显无法充分利用已有的视频、图片以及音频数据。

所以，OpenAI 一直强调还没有训练 GPT-5，大概率是真话。在训练 GPT-5 之前，他们还得找到一个更好的多模态模型构架，让模型可以充分利用音视频数据。而只有能够利用这些优质的训练数据，GPT-5 才有可能获得足够的能力提升。（同时，如果 GPT-5 真的能够充分利用这些音视频数据的话，那不管是 AGI 还是 OpenAI 最近提出的「超智体」，似乎确实也没那么遥远了。）

OpenAI 可能是有意放出的本次传闻

这个推论就完全是个人的瞎猜了。事实根据不足，大家看看就好。

我的理解是，OpenAI 很清楚 GPT-4 的护城河并不深；在如今这种热潮中，竞争对手迎头赶上也并不困难。并且如上分析，他们现在的多模态大模型构架应该还没有搞定，这个时候如果有新的玩家上来就从多模态开始突破，OpenAI 被弯道超车的概率也是很大的。

所以，这也许是 OpenAI 的缓兵之计——我就给你们透露一些 GPT-4 的信息，让头部的玩家都先去做 GPT-4 的复刻工作，把 OpenAI 已经走过的路也再走一遍。

如果在这个过程中，OpenAI 给 GPT-5 的训练打好了基础，完成了多模态大模型的前期攻关，即使 GPT-4 已经被其他的大语言模型超越，OpenAI 也不慌了。个人认为，多模态很可能就是人卷人的**一代了，再未来的模型开发和演进说不定就以 AGI 为主力了。也就是说，这次赢了，可能就赢到**了。

本站声明:网站内容来源于网络,如有侵权,请联系我们,我们将及时处理。

温馨提示：

文章标题：OpenAI「打死都不说」的 GPT-4 训练细节被传出，这是我的解读

文章链接：https://www.btchangqing.cn/576943.html

更新时间：2023年07月17日

本站大部分内容均收集于网络，若内容若侵犯到您的权益，请联系我们，我们将第一时间处理。

{{userData.name}}已认证

OpenAI「打死都不说」的 GPT-4 训练细节被传出，这是我的解读

▍来龙去脉

▍梳理分析

私有模型的竞争将集中在并行能力上

GPT-5 的重点在于多模态

OpenAI 可能是有意放出的本次传闻

深度思考：Web3可以为品牌带来哪些增量价值？

英伟达5000万美元入局，被嫌弃的AI制药为何风再起？

欧易OKX：加密货币初创公司不能仅仅依靠雄厚的技术来赢得风险投资

Bybit首席执行官表示已完全弥补了ETH缺口

2月最后一周值得关注的3个数字货币解锁

随着策略发出比特币行情买入信号，比特币隐含波动率接近历史低点

Strategy将在一周的休息后购买新的比特币

FAST币

ABR币

比特币/BTC/Bitcoin

泰达币/USDT

瑞波币/XRP