BTC/HKD+0.42%
HK$ 811090
$ 104106

ETH/HKD+1.93%
HK$ 20373
$ 2615

LTC/HKD+1.2%
HK$ 797.18
$ 102.32

DOT/HKD+0.59%
HK$ 39.53
$ 5.074

ADA/HKD+2.19%
HK$ 6.42
$ 0.824

SOL/HKD+2.52%
HK$ 1406
$ 180.464

XRP/HKD+2.28%
HK$ 20.27
$ 2.602

DOGE/US+1.62%
HK$ 1.85
$ 0.237

比特幣交易所最好的比特幣交易所

幣安

世界排名第一的比特幣交易所

URL：https://www.binance.com

火幣

成立於2013年的比特幣交易所

URL：https://www.huobi.com

歐易OKX

成立於2014年的比特幣交易所

URL：https://www.okx.com

GPT:巨瓜來臨！GPT-4模型構架等信息疑似泄露，給大家講講來龍去脈！_AGI

Author：

Time：1900/1/1 0:00:00

引子

今天上午正在日常搬磚，突然各路信息席卷而來：“趕緊的，GPT-4模型構架泄露啦，國產大模型要再次超越啦！”。打開社媒一看，好么，都不用會英語，國內的人翻機翻都已經上線了，這速度，我是真的服氣。但是，等我去追根溯源，看看信息道理有幾分靠譜的時候，我突然就有把科技圈逛出了娛樂圈的感覺。我覺得這事兒最有意思的可能還不是爆的料，反而是爆料的這不到24小時發生的這些事。如果再結合前面OpenAI搞得幾個大新聞，還確實有點意思。

鑒于目前“FakeNews”滿天飛的互聯網現狀，我看到這個消息后，干的第一件事就是追本溯源。爆料誰都可以，前面打車的時候司機師傅還給我爆料ChatGPT是外星科技了，我就一點都沒信。現在所謂的“外媒”一爆料我就直接信了，那未免還是對司機師傅有點不尊重了。

來龍去脈

我信息挖掘的起點是HackerNews上發表的這篇文章《GPT-4'sdetailsareleaked.Itisover.》。我點進去發現并非原文，而是一個ThreadReader。所以我就又順藤摸瓜，找到了這些Twitter的發布人—YamPeleg。

其實我Twitter上知道的人并不多，但是這老哥我還真看過他以前的文章。他是以色列一個創業公司的CEO，本人工程經歷豐富，很懂LLM。曾經嘗試反向破解過GPT-4和ChatGPT代碼解釋器。六月OpenAI訪問以色列的時候，他還去參加座談溝通了，并且還和SamAltman合影了。讀這老哥的文章，我就禁不住想起來當面在以色列時候的當地的學生聯絡員Tom，隨便說點啥都能給你搞得熱血沸騰的。這老哥一直在研究OpenAI，也認識OpenAI內部很多人，所以他如果得到了點啥內部消息，我覺得可信度其實還挺高的。

Tether歐元（EUR?）將上線土耳其加密貨幣交易平臺ICRYPEX:金色財經報道，Tether宣布，Tether歐元（EUR?）將上線土耳其加密貨幣交易平臺ICRYPEX。[2023/8/18 18:09:12]

但是！等我晚上準備去仔細研讀下他發的東西的時候，突然發現，他把前面發的都刪了。說是因為版權問題，本來我以為是被OpenAI捂嘴了，還慶幸自己留了檔。后面仔細一看，發現不是因為OpenAI的版權，而是因為另外一個付費專欄的版權。

原來Yam老哥并不是原創，而是看了SemiAnalysis的付費專欄文章《GPT-4Architecture,Infrastructure,TrainingDataset,Costs,Vision,MoE》，然后把里面的一些核心信息加上自己的理解共享出來了。所以其實真正的信息源是SemiAnalysis。所以我又收集了下SemiAnalysis的信息。

SemiAnalysis是一個精品半導體研究和咨詢公司，專注于從化學原料到晶圓廠到設計IP和戰略的半導體供應鏈。它由DylanPatel創辦，他是一位有著多年半導體行業經驗的分析師和工程師。他曾在英特爾、AMD、高通等公司擔任過不同的角色，從設計工程師到市場營銷經理。SemiAnalysis的團隊還包括GeorgeCozma，GeraldWong，MyronXie，AfzalAhmad，AleksandarKostovic，SophiaWisdom等多位專業的半導體分析師和咨詢顧問。他們各自有著不同的專長領域，如AI、云計算、網絡、存儲、電動汽車、射頻、物聯網等。他們為客戶提供了從化學原料到晶圓廠到設計IP和戰略的全方位的半導體供應鏈分析和咨詢服務。

CZ：當前的比特幣和加密貨幣價格寒冬可能會持續至少18個月:金色財經報道，CZ在本周的Twitter Spaces中表示，比特幣減半后的一年通常是牛市年，并預測當前的比特幣和加密貨幣價格寒冬可能會持續至少18個月。上個月，摩根大通分析師表示，他們預計比特幣2024年減半將使新比特幣的生產成本翻倍，可能會設定新的比特幣價格下限。

雖然CZ表示無法準確預測未來，并警告說試圖預測比特幣價格的危險性，但他指出比特幣以前的繁榮和蕭條周期是他2025年牛市運行價格預測的一個原因，這可能會看到比特幣價格超過其最后的峰值，即每枚比特幣近7萬美元。[2023/7/9 22:26:40]

前面那篇著名的谷歌內部泄密文章《Google"WeHaveNoMoat,AndNeitherDoesOpenAI"》就是他們爆出來的，這篇文章后面被證實為真。這樣看來，DylanPatel老哥可能確實有些內線，他們給出的信息可信度應該還是可以的。當然，我也發現了他們為啥這么急著讓Yam老哥刪推，因為這些“內部信息”確實價值不菲，訂閱SemiAnalysis的付費文章，一年要500美刀。Yam老哥訂閱的精英版更是要1000美刀。

爆料分析

講清楚了來龍去脈，我們可以得到一個基礎結論，就是這個爆料還是有一定的可信性的。然后，我又根據爆料的內容以及前面獲得的其他爆料信息，綜合分析了下。這里還是先給大家說結論：

美國6月非農就業人數增加20.9萬人預估為增加23萬人:金色財經報道，美國6月非農就業人數增加20.9萬人，預估為增加23萬人，前值為增加33.9萬人。[2023/7/7 22:24:04]

爆料可信度較高。本次爆料的來源有一定可信度，爆料的內容和前期已經披露的內容也基本都能吻合。所以我傾向于爆料的大部分內容都是來自OpenAI的泄漏，有真實的事實基礎，但是給出的數據未必一定準確。畢竟，也不是所有人都能夠獲得詳細準確的內部數據，但是應該不會偏差太多。爆料對于私有模型有一定意義，對于開源模型意義有限。這次爆料的主要亮點對開源社區的影響可能并不會太大。影響最大的MoE其實已經被爆料過了，目前應該已經有相關的開源模型在路上。除此之外其他的爆料亮點都主要是利好其他私有模型競爭對手，例如比較準確的模型大小、并行策略、模型構架以及多模態構架等。具體我們后面具體分析。個人的奇怪推論。說實話，這個時間點的爆料不得不讓我覺得有點奇怪，感覺DylanPatel老哥有一種在幫openAI官方爆料的感覺。結合我這篇文章更是覺得事有蹊蹺。要知道，如果這篇爆料文章早一個禮拜發，大家甚至是可以通過ChatGPT的搜索模式直接白嫖文章內容的。咋給我一種，為了讓他們能夠安心的爆料自己，OpenAI特意把ChatGPT的搜索模式都關閉了的感覺。當然，我這個猜測是毫無根據的，這樣做確實也對OpenAI沒有任何好處。所以，獲取是我多想了，就是趕巧了而已。對于爆料原文感興趣的可以看我最前面貼的HackerNews的文章，少了些邏輯和修辭，和付費的原文的核心內容是一樣的。沒耐心一點點鉆原文的，我這邊直接給大家總結幾條要點。

NFT市場Super Rare將接管紐約的0x.17畫廊并舉辦NFT展覽:5月22日消息，NFT市場Super Rare將接管紐約的0x.17畫廊并舉辦為期兩個月的NFT展覽，將展出來自20多位SuperRare藝術家的精選作品。（CoinDesk）[2023/5/22 15:19:11]

爆料參數整理

這次爆料的一個亮點就是給出了GPT-4的部分明確參數，這些參數前面有過很多猜測，但是官方一直都沒有披露，提到的時候都說的很模糊。這些參數包括：

模型參數量：1.8兆，比GPT-3.5大10倍左右。模型層深：120層。模型構架：混合專家模型，一共16個專家，每個專家1110億參數量。每次向前傳遞選擇兩個專家。訓練數據：共13兆數據。文本數據被重復訓練了2次，代碼數據被重復訓練了4次。這個數據其實挺重要的，后續具體分析。并行策略：8路張量并行+15路管道并行。預訓練上下文：8K。32K版本是在8K基礎上微調的。我的推論1：GPT-5會是一個全新構架的多模態LLM

GPT-4是一個由16個專家模型組成的MoE。每個專家1110億參數量。每次向前傳遞選兩個專家。然后注意力機制共享550億參數。所以，每次推理的時候，事實上耗費的參數量約為2800億。這個數字也和前期很多學者預測的類似。

訓練數據上面寫了，我就不復述了。這里強調下，文本和代碼數據都是被重復訓練了的。再結合MoE構架，我個人猜測：要么目前可以比較方便獲取的高質量文本數據已經接近枯竭要么無限制得增大數據量對LLM性能得提升已經非常有限了。但是，無論是哪一種，我們都可以推斷，下一步的GPT-5一定會是基于多模態數據的。GPT-5想要有大的性能突破，就必須能夠充分利用現存的大量視頻、圖片以及音頻數據。

馬斯克成立人工智能公司X.AI:金色財經報道，根據美國內達華州的備案文件，馬斯克在該州新成立了一家名為X.AI的人工智能公司。近期，馬斯克創建了一家叫做“X”的空殼公司，將自己擁有的推特、SpaceX、特斯拉、Neuralink等所有公司打包加入其中。如今，“X”公司再添新丁X.AI，并且要與OpenAI展開競爭。[2023/4/15 14:05:04]

但是，根據這次的爆料，OpenAI目前的視覺多模態并沒有太多的過人之處。它是一個獨立的視覺編碼器，與文本編碼器分開，但存在交叉注意力。它就是在文本預訓練后，進行了約2萬億個Token的微調。這種模式明顯無法充分利用已有的視頻、圖片以及音頻數據。

所以，前面OpenAI一直強調的沒有在訓練GPT-5大概率是真話。因為他們在訓練GPT-5之前找到一個更好的多模態模型構架，讓模型可以充分的利用音視頻數據。只有能夠利用這些優質的訓練數據，GPT-5才有可能獲得足夠的能力提升。同時，如果GPT-5真的能夠充分利用這些音視頻數據的話，那不管是AGI還是OpenAI最近提出的超智體，似乎確實也沒那么遙遠了。

我的推論2：私有模型的競爭將集中在并行能力上

根據此次爆料，目前如果要訓練一個GPT-4競品，按照使用約8,192個H100芯片來估算，以每小時2美元的價格，在約55天內可以完成預訓練，成本約為2150萬美元。這個成本對于目前波濤洶涌的LLM市場來說，真的不算大。國內目前的主要玩家都可以比較輕松的承擔數次訓練。所以，這次說真的，再過半年模型能力對標GPT-4可能真的不是吹牛逼。

如果訓練成本不是問題，那么訓練數據會不會成為問題呢？目前看來也不會。GPT-4的訓練數據共13兆。這個規模并不是特別夸張，且它的很多數據來源國內也可以獲取，再加上國內本身也積累了很多中文資源，所以訓練數據也應該問題不大。

其他的類似預訓練、微調以及中文編解碼等問題，其實也不存在太多的技術秘密，方法還是比較公開的。給足夠的資源，半年時間應該都可以解決。

所以，最后剩下的就是并行能力了。其實這次爆料里面用了極大的篇幅去介紹相關的內容，專業程度還是比較高的。這里我就不具體展開說了，總體來說，就是你有了大模型，如何以最低的成本讓最多的人同時使用。這里面涉及到很多專業的設計問題，在運算資源固定的情況下，應該如何分配不同環節的運算資源？如何處理并發？如何管理內存？

當大家的模型能力都大差不差的時候，那個模型好用，不就取決于用戶體驗了么！并行處理的能力，就直接決定了用戶體驗。目前GPT3.5已經做到了無論是ChatGPT還是API都非常絲滑了，這是非常厲害的。這里大家可能會說，我體驗的其他國產LLM或者Claude都比GPT3.5還快啊。但是，大家沒有考慮使用的量級問題，GPT3.5在這么高的并發下有這樣的性能，其他的廠商如果匹配不了OpenAI的這個能力，也就沒能力來搶OpenAI的市場。

所以，并行能力可能會成為各路OpenAI競爭對手的角逐重點之一。

我的推論3：OpenAI可能是有意放出的本次爆料

這個推論就完全是個人的瞎猜了。事實根據不足，大家看看就好。

OpenAI很清楚GPT-4的護城河并不高，即使現在OpenAI已經不open了，但是在這種熱潮中，競爭對手迎頭趕上也并不困難。并且，他們現在的多模態大模型構架應該還沒有搞定，這個時候如果有新的玩家上來就從多模態開始搞，OpenAI被彎道超車的概率也是很大的。所以這可能是OpenAI的緩兵之計，我就給你們透露一些GPT-4的信息，讓頭部的玩家都先去做GPT-4的復刻工作，把OpenAI已經走過的路也再走一遍。

如果在這個過程中，OpenAI給GPT-5的訓練打好了基礎，完成了多模態大模型的前期攻關，即使GPT-4已經被其他的大語言模型超越，OpenAI也有恃無恐了。個人認為，多模態很可能就是人卷人的最后一代了。后面的模型開發和演進說不定就以AGI為主力了，也就是說，這次贏了，可能就贏到最后了。

結語

本次的爆料絕對是GPT-4發布以來最大的瓜。但是，我并不是很推薦大家去研究這次的爆料內容，大家看看別人的總結就好了。爆料的很多內容看起來還是比較費勁的，并且費半天勁看懂了也沒用，懂了你也沒法實踐，白懂。

不知不覺又碼了這么多字，能看到這里的都是真愛，看完留個記號再走吧，您的支持就是對我最大的鼓勵~

博覽AI的奧秘，博學AI的知識，博交AI的朋友，我是博而不士，歡迎加入我的AI探索之旅。關注我，一起玩轉AI。

推薦閱讀：

Claude：無需魔法、完全免費、GPT3.5的最佳國內替代「一文說清」

Tags：GPT AGI CEOGPT價格 GPT幣AGI價格 AGI幣CEO幣 CEO價格