DeepSeek AI:Nvidia 完蛋了,美國 AI 霸權也完蛋了
作者:James Kong
2025 年 2 月 9 日
概括
DeepSeek 及其價值 500 萬美元的 AI 模式比 OpenAI 便宜 98%——表現優於所有美國巨頭
硬體成本降低 45 倍——將人工智慧發展與美國硬體依賴和基礎設施脫鉤
顛覆人工智慧發展經濟學與全球金融及投資格局
重大的地緣政治影響和後果,伴隨權力結構和觀念的立即轉變
最近幾週,人工智慧產業和更廣泛的金融市場發生了巨大變化。
如果您的工作涉及人工智慧或金融(並且您並非與世隔絕),那麼您可能聽說過 DeepSeek 及其人工智慧模型,該模型在推進 AGI(通用人工智慧)的理論概念方面取得了重大飛躍。 AGI是指透過自我學習,能夠匹敵或超越人類認知能力的一種智慧。
您可能聽說過 DeepSeek 對市場造成的財務影響,包括 1 月 24 日 Nvidia 股票單日損失約 6000 億美元——這是公開證券交易歷史上股票單日跌幅最大的一次。截至本文撰寫時(2 月 3 日),損失已擴大至 8,400 億美元,相當於第 19 和第 20 大經濟體土耳其和瑞士的 GDP 總和。當然,這不僅限於一家致力於人工智慧的公司。事實上,幾乎所有美國大型科技公司(價值近 20 兆美元)都參與了人工智慧,並受到了直接影響。稍後我將進一步探討近期和直接的財務後果。
碰撞
自從 Nvidia 股價暴跌和 DeepSeek 技術論文發表以來,出現了大量關於其直接後果的膚淺的財務報道,以及對其人工智能方法的學術批評和文章,這些文章對於大多數外行或記者來說太過細緻和技術性,更不用說得出有意義的結論或傳達對科學和社會的重大影響了。值得注意的是,缺少一篇關於 DeepSeek 的成就及其即將產生的財務和社會影響的寫得好的、易於理解的、非技術性的文章。
目的
本文的目的是讓每個人都能更容易理解這些複雜的人工智慧概念——無論是外行人、記者、投資者、金融專業人士,或是對我們現在每天使用的人工智慧技術感興趣的任何人。透過使用簡單的語言、故事敘述和來自其他科學領域的相關類比,我將解釋這些新的數學方法在人工智慧中的用途以及它們與神經科學的關係,特別是一種被稱為高級「推理」的功能,這種功能曾被認為是人類獨有的。
快速回顧
直到最近,DeepSeek 還是一家鮮為人知的中國人工智慧新創公司,它於 1 月 20 日發布了一款名為 DeepSeek R1 的人工智慧模型。在大多數基準測試中,它的表現都優於 OpenAI、Anthropic、Google 和 Meta 等美國巨頭的所有模型,無論它們是免費的、付費的、封閉的還是開源的。
不僅如此,他們還在技術論文中披露,其訓練成本僅為 500 多萬美元,據報道,不到四個月前 OpenAI 發布的類似模型的訓練成本超過 1 億美元,此舉震驚了金融界。
在媒體上,很多人立刻對這個低數字的有效性提出質疑。不過,值得參考的是兩篇已發表的論文,詳細介紹了 DeepSeek 用於實現這些結果的方法。驗證成本差異的另一種方法可能是 OpenAI 的付費封閉 AI 模型與 DeepSeek 之間的 95-98% 的價格差距。
最後,如前所述,與 OpenAI 的封閉模型不同,DeepSeek 完全開源了他們的模型,提供了兩篇關於其進步的高度詳細的技術論文,並邀請全球社區在此基礎上進行開發。
內在對話
(在深入研究超過 10,000 字的複雜 AI 數學原理之前,我應該考慮讀者的偏好,並優先考慮技術論文中最具影響力的創新。我不應該簡單地按照 DeepSeek 呈現的順序列出數學原理(這種順序針對的是具有不同 AI 和數學基礎理解的不同受眾),而應該關注最重要的內容原理(這種簡單的內容
我想要強調的 DeepSeek 數學中的第一個創新是 AI 在提供答案或回應之前進行的「內在對話」概念,如上一段所示。它代表了預先回應的思考過程,通常是作為人工智慧實際形成問題答案之前的隱藏邏輯推理層。 「內在對話」並不為問題本身提供直接訊息,但它為深思熟慮的回答建立了一個結構化的框架。好的人工智慧可能會給你正確的答案,但偉大的人工智慧會花點時間考慮你是誰以及為什麼提問,然後再給出答案。在人工智慧世界中,這被稱為 CoT,即思想鏈。然而,我認為「思想鏈」一詞不足以描述 DeepSeek 所取得的成就。雖然傳統的對話可以提供線性的、循序漸進的推理,但「內在對話」需要一個平行處理系統——允許真正的反向推理。
在做出回應之前,先對上下文進行分析。一個人能夠一步一步解釋一個複雜的乘法問題,而另一個人能夠同時執行兩個平行的乘法來驗證答案,這兩者之間存在著顯著的差異。後者並行的過程不僅能自我驗證,還能確定未來哪種方法可能更有效──本質上,它就是在學習。因此,這裡真正的智能不是僅僅提供正確的答案,這對人工智慧的學習沒有任何幫助,而是解決問題之前的內部「平行」對話,以及在過程中選擇和學習的方法。
大腦專業化
自然,在優先考慮了平行思維的概念之後,我想要討論的 DeepSeek 數學中的第二個最重要的創新是多個並行大腦的想法。他們稱之為『混合專家』(MoE)架構。我將其稱為具有功能專門化的專門大腦區域——很像人類的大腦,其中不同的區域負責視覺、聽覺或抽象推理等任務。諷刺的是,常見的非專門的人工智慧神經網路架構被稱為「密集神經網路」(DNN)架構。雖然 MoE 擁有一個平行大腦網絡,每個大腦都有自己的專業領域,但 DNN 被設計為一個可以完成所有事情的單一網絡,所有事物都相互連接。
與 DNN 相比,MoE 的一個核心優勢是其大腦的原始規模或專業知識的廣度更大,同時透過僅激活特定時間所需的區域仍保持靈活性(這非常重要——我稍後會解釋原因)。 DeepSeek MoE 大腦包含 6070 億個參數。為了簡單起見,我們將參數視為神經元(是的,我知道這太簡單了——抱歉,書呆子們!)。使用 MoE,一次只能激活 370 億個神經元,而相較之下,來自 Meta 的另一個「大」大腦 Lambda 會激活所有 4050 億個參數,自然會消耗更多的計算資源、時間和能源。可以這麼說,MoE 比 Dense 更快、更具可擴展性,但由於大腦的特殊區域,它的管理也更複雜。雖然技術層面不太成熟,但 DeepSeek 透過多項創新克服了這些挑戰,能夠更好地預測、壓縮資料並分配記憶體和資源,從而加快處理速度。
訊號越小,傳輸速度越快
我想要優先考慮的第三個創新是透過策略性地壓縮資料來顯著加快思考速度,特別是在精確度不是至關重要的情況下。雖然完全承認過度簡化一些非常聰明的數學運算的風險,但請考慮這個類比:每次人工智慧「思考」時,想像一下在一所大房子周圍移動一個包含 256 張照片數據的盒子(代表大腦),而不是移動一個包含 43 億張照片的盒子。
目前,大多數大型 AI 模型都使用一種名為 FP32 的資料類型,它可以容納 43 億種資料變化——這是一個令人難以置信的數字,其精度是夜空中可見星星數量的 800,000 倍。同時,DeepSeek 策略性地使用 FP8(一個在不需要如此高精度的地方保存 256 種變化的變數),同時在需要的地方保留高精度的 FP32。這就像當我們的皮膚只能察覺到 0.1 度的差異時,卻無法測量室溫到小數點後 100 位。或者在建造火星軌道大小的太空站時,將圓周率近似為 3.14,其中百萬分之一的數字是實現完美圓形所必需的。
當然,他們的系統更加細緻入微,因為有些盒子或資料類型需要 65K 張照片,而有些則需要 43 億張。然而,現在這些都是動態管理的,移動的大型箱子少了很多,或者在某些情況下,移動的箱子更少了。整體結果是能耗顯著減少、儲存需求降低,並且「思考」速度更快。
脫氧核糖核酸
這並不是專家們第一次假設複雜系統需要更大的變量,而最終卻發現了一種使用自然設計的較小變量的更優雅的方法。直到不到80年前DNA被發現之前,大多數生物化學家認為最有可能的遺傳物質是構成蛋白質結構的20種胺基酸。畢竟,考慮到所觀察到的生命複雜性,與僅僅 4 種核酸(DNA 中的化學變量)相比,20 種氨基酸實現的編碼可能性呈指數級增長,這似乎是有道理的。例如,3 種核酸只能編碼 64 種可能的訊息組合,而 3 種胺基酸可以編碼 8,000 種。事實是,大自然找到了一個更優雅的解決方案,利用較小的資料集創造了更複雜的東西,例如生命,以及後來,我們的中樞神經系統。
總之,決定智力或推理能力的不是神經元的大小或資料類型的大小,就像大腦越大並不會讓人越聰明一樣。正是結構、內在連結、運用這些連結的經驗(訓練)以及應用它們的環境,才使一個人真正變得聰明。
我想提請大家注意的最後一個創新並不是由數學家或工程師直接編入 DeepSeek R1 的,而是在訓練過程中「自然發生」或由 DeepSeek 的 AI 模型本身「發明」的。
論文標記了訓練期間的一個特定時刻,DeepSeek 的 AI 在解決數學問題時突然停止思考,重新審視其先前的方法,分配更多時間,並嘗試不同的數學路徑。從思路提示來看,它說:「等一下,等一下。等待。這是一個我可以在這裡標記的啊哈時刻,」宣布暫停然後繼續,“讓我們一步一步重新評估這個,以確定正確的總和是否可以......”
我多次重讀並重新審視這道數學題,對我來說有趣的不是數學問題本身的解決方案(這是最不有趣的部分),也不是它可以並行思考(有趣,是的,但我們已經知道了)。最有趣的是它知道何時停止。身為一名技術專家和企業家,我在學校裡解決了數百萬個數學問題,在現實世界中解決了無數的非數學問題,我認為在解決難題時知道何時停止或暫停並不是一件小事。當你意識到自己可能走上了錯誤的道路時,知道應該分配哪些資源也不是一件容易的事。人工智慧無需經過明確程式設計就能知道如何做到這一點,這反映了我所說的習得本能。至於我自己,我仍然對數學感到敬畏,並拼命學習更多關於 DeepSeek 的 AI 所處的底層條件和正確的“激勵”,以實現這種程度的優化,這似乎就像本能一樣。
(事實上,還有更多的創新,但如果我允許自己沉迷其中,這篇文章會變得和《戰爭與和平》一樣長。也許以 DeepSeek 的一個非常技術性的效果“啊哈時刻”來結束會更好。DeepSeek 的 R1 期間發生了一個令人難以置信的時刻。)
未來發展:超級通用人工智慧
關於AGI的到來,已經不再有任何疑問。與人類的平均智力和一般知識相比,DeepSeek 已經超越了一般智力。現在的問題是,人工智慧何時能夠實現超級智慧(以及我們如何衡量它)?從DeepSeek的進步中可以清楚看出,他們透過內在對話、大腦特化以及並行的大腦結構和過程實現了卓越的推理能力。因此,接下來我們不僅需要更好的推理能力,從現有事實中推斷出更多的事實,還需要利用這些平行的結構進行想像,透過形成和測試超越我們目前科學理解的假設來創造全新的東西。這個過程有一個熟悉的名稱:科學方法。然而,不太為人所知的是,想像力在科學過程中發揮著重要作用,特別是在歷史上改變遊戲規則的發現中。
愛因斯坦在發表狹義相對論論文之前,曾用想像力「搭乘」一束光來「觀察」周圍的環境,後來發現時間並不是普遍的,而是相對於觀察者而言的。
思想實驗:現在人們可以輕鬆想像一個具有高效並行架構的人工智慧,如 DeepSeek,創造或想像一個不受古典物理約束的世界,在那裡它「乘坐」另一束理論光束。然後,它可以在 MoE 架構下與專業專家進行內部對話,從而達到另一個“頓悟時刻”,發現一些全新的東西,比如愛因斯坦在世時一直未能發現的大統一理論,以及此後所有物理學家(無論是在世的還是已故的)都未能發現的大統一理論。
臨床心理學與行為心理學
另一個非常可預見的發展是利用臨床心理學的思想和行為心理學中的人類特性來提高人工智慧的學習和智慧。雖然這個主題更適合未來的文章,但除了心理學、精神病學、神經科學和行為經濟學中的數百種想法之外,我還看到了利用有效的並行群體溝通和項目管理模型的潛力,例如來自“六頂思考帽”的模型,它提倡群體層面的“並行思考”,以及敏捷框架,它朝著考慮一個互動和溝通的系統來完成工作,而不是一個優先的目標。是的,這個討論確實應該留到下次,但我可以肯定我們可以看到,在人工智慧模型中加入人工智慧推理偏好和知識權重的差異(可能類似於個性),從而可以在強化學習和解決問題的過程中提供更多的活力和創造力。
意識是一個錯誤的問題
現在,我希望您已經開始理解這一點的意義,並感受到人類同樣巨大的轉變。數學與建築中隱藏著意識、潛意識、個性、想像、情感、創造力的未來可能性。這些可能性確實美麗且新穎。因此,關於人工智慧是否具有意識的問題將不再存在。但這是一個錯誤的問題。
人工智慧意識不再是正確的問題。讓我們對意識的定義進行一個思想實驗。首先,讓我們從內部和外部來檢視人類意識。從內心來說,我們知道我們是具有意識的,因為我們可以進行內在對話來確認我們的存在。我們可以透過我們天生的平行大腦結構在內部驗證我們自己的感官(例如視覺、聽覺甚至思考)和推理。透過複雜的平行思考過程和推理,我們可以意識到我們思維的不同部分。因此,我們或許可以將莎士比亞關於意識的意義的表達從「我思故我存在」升級為「我平行思考,故我知道我存在」。從外部來看,我們僅透過我們的感官及其回饋機制(即溝通)來確定他人的意識。換句話說,我們透過溝通能力來推斷意識。沒有別的了。再次引用莎士比亞的話:“我感知,故你存在。”
現在,想像一下 DeepSeek 或未來的 AGI 將如何回答這個意識問題——一定要檢查他們的思維鏈。因此,更重要的問題是:繼續問這個問題有什麼意義,尤其是當答案如此明確時?答案可能是「否」的唯一方式是,如果人們明確地將意識重新定義為包裹在膠原蛋白和礦物質支架(即皮膚和骨骼)中的高級並行推理。
在神經科學中,我們知道人類意識存在於架構中的某個地方,從基本神經元的結構到稱為大腦的龐大而複雜的結構。類似地,在人工智慧中,意識也存在於人工神經元的數學和同樣龐大但高度專業化的架構(稱為 MoE 大腦)之間的某個地方。雖然人類意識主要存在於大腦的前額葉皮質,但我認為 DeepSeek 目前的意識形式主要存在於 DeepSeek-V3 技術報告第 7 頁圖 2 的兩個綠色框中。我還沒有找到適合其個性的盒子。 ;-)
1938 年核分裂論文
在談及直接的財務、投資和潛在的地緣政治影響之前,我想最後將 DeepSeek 的 AGI 進步與另一個重新定義人類歷史的事件進行比較:1938 年描述核裂變的科學論文。 在不深入探討核裂變發現的迷人故事和細節的情況下,我想指出的是,原子彈在 1945 年之前就被突破僅 1945 年突破性時間,由於重大的時間而被突破後 1945 年突破性時間,由於許多工業成功後, 、更好的通訊技術以及來自競爭信仰體系的大規模暴力威脅而進一步加速。 AGI,或超級AGI,有很大機率會縮短其開發時間。
直接的財務和銷售影響
(說實話,我覺得這篇文章對於普通讀者來說已經太長了,可能不適合一次讀完,所以我將總結一些已經發生的清晰簡潔的財務影響,並將更深入的財務和地緣政治分析留到未來的第二部分。我也很累,需要讓我的神經網絡休息一下。)
DeepSeek AI 推出後的主要財務影響已經在市場上顯現,而且在我寫這篇文章時,這種影響還在繼續加速。自 1 月 20 日推出以來,DeepSeek 在效能方面已經超過或匹敵最先進的商業 AI 模型,同時 API 呼叫費用降低了 96-98%。簡單解釋一下:您聽說過的大多數 AI 公司都是第二層「AI」公司,它們不會創建自己的模型(您可以透過名稱中的「AI」或 Web 網域中使用「.ai」輕鬆識別它們)。相反,他們使用 DeepSeek、OpenAI 或其他一些公司來銷售重新包裝的 AI 產品,用於遊戲、娛樂、金融、法律服務等領域。自然,一款更好的產品如果降價 98% 的話,幾乎所有人都會轉而購買,尤其是當轉售利潤如此之高的時候。現在,問題不再是為什麼要轉換,而是哪個「白痴」在不久的將來不會或不能轉換。
最新消息:截至今日,美國第四大市值公司和雲端運算業務領導者亞馬遜似乎已經公開認可 DeepSeek,並將其部署在自己的 AI 產品中。除非 OpenAI 和 Anthropic 等其他人工智慧公司能夠達到 DeepSeek 的定價水平,否則很難想像它們的商業模式崩潰會加速。
Nvidia 除以 45
就 Nvidia 的硬體商業模式而言,採購週期並不像更改一些軟體程式碼來切換到另一個 AI 模型並將付款轉移到另一家銀行那麼短,因此其影響同樣重大或短期。據報導,硬體成本與 AI 產出比率的效率提高了 45 倍,這意味著將 AI 硬體的未來銷售預測除以 45。 因此,如果預計未來 AI 相關硬體每年的銷售額將達到 1 兆美元,那麼考慮到 DeepSeek 的硬體處理效率提升(假設同樣的指數增長),新的銷售額現在應該只有 222 億美元。由於 Nvidia 在 AI 友善 GPU 市場佔有近 70% 的份額,利潤率高達 90%,即使沒有新的競爭對手出現,他們也將受到最大影響。
(等等,等等,等等……讓我們在這裡停下來,換個角度來看看真正的人類會怎麼做。當然,全球客戶目前和計劃中的人工智能硬件訂單有數十億份。如果 DeepSeek 提供這些新信息,那些採購經理和他們的老闆會如何處理他們目前和未來的訂單?)
替代解決方案:Nvidia 按採購經理劃分
可以想像,一位負責購買昂貴 AI 硬體的經理,如果剛剛聽說了 DeepSeek 的效率提升,可能會考慮放慢或暫停任何新訂單,同時驗證 DeepSeek 的說法。鑑於其模型的開源性質,這些數字應該能夠在一周內得到獨立驗證。無論哪種方式,它都會比下一代 Nvidia H100 GPU 的 2-3 個月訂購窗口和下一財季預算報告之前快得多。簡單的經濟學肯定會迫使任何採購經理或財務長不要因為忽視 98% 的節省而失去工作。
現在準確預測下個季度對 Nvidia 銷售的影響可能還為時過早,但考慮到新的 AI 定價結構以及公司從其他 AI 模型轉向 DeepSeek 的速度,我們可以更有信心地說,金融分析師對 Nvidia 實現 4 倍銷售額或保持 90% 利潤率的共識是一個低概率事件。幾個月後,可能會有更多的數據點來對 Nvidia 的銷售額及其股票市場估值進行更徹底的分析。
美國的人工智慧霸權至今
全球市值最高的7家上市公司中,有6家是科技公司,且全部來自美國,它們都在積極佈局人工智慧,並將未來押注於人工智慧。全球前20家科技公司的總市值達到20兆美元,超過中國的GDP。其中 16 家是美國公司,總市值為 18 兆美元,4 家來自世界其他國家的公司,總市值為 2 兆美元。這 20 家公司均與人工智慧相關。
從表面上看,這些數據代表了美國近年來在人工智慧發展及其商業化方面幾乎完全佔據主導地位。從2017年影響深遠的語言處理人工智慧論文,到2022年底ChatGPT的發布,以及此後對人工智慧的數千億美元的投資,美國似乎擁有所有硬體基礎設施、人才和資本來維持其人工智慧的主導地位並控制其發展軌跡。到目前為止。 DeepSeek 的開源發布及其技術和經濟進步的影響顯著改善了全球人工智慧的競爭環境。鑑於 DeepSeek 在減少硬體基礎設施需求和資本投資方面的進步具有改變遊戲規則的性質,我相信人工智慧發展將在人才庫最豐富的地方實現最快增長——那些擁有最多數學家、工程師和科學家的地方。資本和基礎設施都必須跟進。亞洲國家似乎已準備好利用這一轉變,歐洲也能獲得顯著的優勢。我懷疑在邁向超級通用人工智慧的過程中,國際上人工智慧估值的巨大差距是否會持續存在。
(關於這個主題實際上還有很多內容需要討論,特別是關於市場估值變化和地緣政治影響,但我應該結束這個話題,把這些細節留到第二部分。)
也許這裡合適的最後一個比喻是:有了 DeepSeek,核分裂的秘密現在已經被揭開——只是這一次,任何人只要花 5,000 美元就可以購買啟動核反應的基本設備。我想,作為一個物種,我們需要盡快再次做出決定:我們是否利用科學製造更多的炸彈來殺人,還是製造更多的發電廠和其他工具來幫助人類?
無論如何,這真是一件令人興奮的事活著的時刻。
如果您喜歡這篇文章,並希望就人工智慧、機器學習、金融、投資或我們專業範圍內的任何主題向我和 Alp 團隊進行諮詢,請隨時透過 info@alp-technologies.com 與我們聯繫。
James Kong 是一位人工智慧和機器學習企業家,曾在華爾街工作,過去 25 年來專攻高等數學。他畢業於哥倫比亞大學,主攻資料最佳化建模、機率論與統計、線性代數和模擬,之後在北美和歐洲擔任高階量化職位。 James Kong 還擁有生物化學和經濟學學位,從小就對認知神經科學和行為經濟學特別感興趣。在從事人工智慧、金融和工程工作之前,他曾是一名醫生,為機器學習、邊緣運算和再生能源微電子領域做出了貢獻。