2025 年 1 月DeepSeek R1 的公開發布大大改變了人工智慧格局。但是,今天,我要談談 DeepSeek 發展的下一步,也許是我們所知的 AI 技術的下一個重大飛躍: DeepSeek R2 。
DeepSeek的最新進展

這肯定已經有點不為人知了,但 DeepSeek 的研究團隊最近舉辦了一場名為「開源週」的活動。在那次活動期間, DeepSeek團隊發布了五個開源 repo,以展示他們最近的進展和人工智慧進步。
其中最值得注意的是三個工具:
- FlashMLA :這是適用於 Hopper GPU 的高效 MLA 解碼核心。
- DeepEP :第一個用於 MoE 模型訓練和推理的通訊庫。
- DeepGEMM :一個可與密集和 MoE GEMM 一起使用的 FP8 GEMM 函式庫。

那麼,這一切究竟意味著什麼呢?
嗯,所有這些工具都是為了使開發和簡化未來的人工智慧模型和產品變得更容易、更有效率。這讓我順利地進入了討論的主題: DeepSeek R2。
DeepSeek R2:人工智慧的下一代演化

DeepSeek 的開源週活動及其展示的產品都與該公司即將發布的備受矚目的 Reasoning 2 或 R2 模型緊密相關,該模型將是對先前的DeepSeek R1 模型的重大升級。
對於那些還沒有關注DeepSeek相關新聞和發布的人,我將分解一下基本內容:
DeepSeek R1 由中國開發,於 2025 年初推出。這是人工智慧領域的一件大事,並部分導致全球股票市場拋售超過 1 兆美元。為什麼?因為 R1 是一款非常先進、具有革命性的模型,完全有能力與西方大品牌的最佳 AI 模型相媲美。

測試表明,它在許多方面相當於或優於以下產品:
- Claude
- GPT-4o
- OpenAI-o1-mini
- 以及其他許多人
它在開源和免費訪問的同時成功地做到了這一切。這在當時是開創性的,我是全球眾多被這個故事震撼的人工智慧愛好者之一:一家中國小型新創公司成功地達到了與OpenAI等價值數十億美元的大型品牌相同的技術水平。
但 R1 發布後不久,我和許多其他人就開始懷疑:“下一步是什麼?”

根據路透社最近報道,DeepSeek 的開發團隊正急於在 5 月推出 R2 型號。所以我們可能很快就會得到它,我可以肯定地告訴你:這個新模型將比 R1 更大程度地改變人工智慧格局。
R2的影響
以下是我對 R2 的期望:
- 它會非常便宜,就像 R1 一樣
- 它將匹敵甚至超越 OpenAI 的 o3-full 或 o3-high 等領先模型
- 它將超越市場上幾乎所有其他型號
如果最新報道可信的話,它很快就會到來。位於杭州的DeepSeek研發團隊似乎非常渴望發布這款產品,我個人預測,我們可能會在中國清明節假期(即 5 月 6 日)之後看到它發布,所以請留意您的日曆。
據稱, DeepSeek團隊還致力於編寫比以前更優質的程式碼,並在多種語言中提供更好的效能,而不僅僅是英語和中文,而英語和中文是 R1 的主要重點和預設選項。這是有道理的,因為DeepSeek R1 在世界各地都很受歡迎,人們希望用西班牙語、法語、俄語等語言與 R2 互動。
我們只要回顧 R1 的影響,就能預測 R2 如何影響全球市場。 R1 的發布導致股市大幅下跌,NVIDIA 股票、加密貨幣和全球股票等在其發布後的幾天內均出現下跌。當時這讓我很驚訝,因為我們以前幾乎從未見過這樣的事。

那為什麼會發生這樣的事呢?嗯,部分原因是 R1 使用的是功能較弱、較舊的 NVIDIA 晶片,而不是最新的晶片,所以從這個角度來看,它使 NVIDIA 的最新技術的價值和令人印象深刻程度降低。這也為西方主要人工智慧科技巨頭帶來了巨大的競爭,導致它們及其產品的估值降低。
R2 的推出可能會產生類似的影響。它可能會打破OpenAI和Google等大型人工智慧公司的主導地位,再次撼動整個人工智慧格局,並證明你不一定需要使用絕對尖端、最新、最好的晶片和其他硬體來製作令人難以置信的人工智慧模型。

DeepSeek 的成功秘訣
至此,您可能會想「DeepSeek 令人難以置信的成功故事背後的秘密是什麼?」嗯,我想我已經找到答案了。 DeepSeek 成功的關鍵在於他們如何在人工智慧開發中快速創新,敢於跳脫固有思維模式,並採取與大型成熟公司不同的做法。
技術創新
其中很大一部分是對計算的大量投資。 DeepSeek 的母公司投入了大量資金購買計算硬件,例如最先進的超級計算集群,例如 Firefly,它使用了數千個 NVIDIA 800 晶片,成本遠低於最新晶片,使DeepSeek能夠以相對較小的預算構建出驚人的人工智能。
事實上,這背後有一個非常有趣的故事。 DeepSeek背後的公司在 2020 年和 2021 年斥資約 12 億元人民幣購買了兩個超級運算 AI 集群。這些集群由大約 10,000 塊 NVIDIA 800 晶片組成,這些採購引起了中國一些大型監管機構的關注。

這些人質問DeepSeek為什麼要買這麼多晶片,團隊不得不解釋他們正在做什麼。最終,他們獲得了監管機構的“批准”,並得以繼續推進。與此同時,西方人工智慧公司正在使用更多(多達 50,000 塊)高階 NVIDIA 晶片,而這些晶片實際上已被禁止出口到中國。
因此, DeepSeek必須應對品質較差的晶片,但仍要使其發揮作用,專注於效率而不是峰值性能,並從可用組件中提取盡可能多的價值。這也意味著更低的計算成本和開銷,這些成本和開銷將轉嫁給最終用戶——像我和你這樣的人。
制定標準
一旦DeepSeek建立了初始基礎設施,他們就能夠推動創新,擴大工作規模,並以經濟高效的方式開發不同的 AI 模型和系統。他們甚至達到了這樣的程度:他們的模型在基準測試中距離世界最佳僅差 4.5 分。

這讓我大吃一驚,也讓我對 R2 更加興奮。因為如果 R1 已經接近成為業內最佳,那麼 R2 幾乎肯定會更上一層樓,取得更大的成就。當 R2 發佈時,看看它有多令人印象深刻,它與其他模型相比表現如何,以及其他公司將如何追趕DeepSeek,這將非常令人興奮。
公平定價
還有定價因素。與市場上任何其他主流 AI 模型相比, DeepSeek 的價格便宜得多。我比較了 R1 發佈時的價格表,差異令人震驚。當人們發現 DeepSeek 如此優質且價格便宜時,許多人很快就放棄了OpenAI訂閱,轉而使用DeepSeek 。
我們甚至看到OpenAI不得不迅速降低其定價計劃,因為DeepSeek比OpenAI當時的收費便宜 40 倍,現在回想起來,這仍然讓我感到震驚。

當然,我們目前還不太了解 R2 的定價,但我預計DeepSeek不會在新機型上改變太多策略。它仍然應該是一個負擔得起的選擇,讓盡可能多的人能夠使用高端人工智慧技術,而無需強迫他們每月花費巨額費用。
此外,隨著DeepSeek在其開源活動上發布這些新工具,人工智慧開發的門檻變得更低、更實惠。因此,R2 可能比原始 R1 型號更便宜,這將真正在整個 AI 世界甚至更廣闊的範圍內引起震動。
為DeepSeek R2版本做好準備
總的來說,我對DeepSeek即將發布的 R2 版本感到非常興奮。所有跡像都是正面的,表明這個新的開源模型不僅會比 R1 更好,而且會比我們迄今為止見過的任何其他 AI 模型更好。它將在各方面變得更快、更聰明、更卓越,而且我們甚至可能以更優惠的價格買到它。請繼續關注進一步的更新。