近日,國內一間名為 DeepSeek 的小型公司推出了一款強大的 AI 模型,它在當前的人工智慧軍備競賽中引發了廣泛關注。美國的科技巨頭們在深度學習模型的開發上投入了數以億計的資本,以建造龐大的數據中心。然而,隨著 DeepSeek 的新 AI 模型 DeepSeek-V3 的發布,顯示出其能力可以媲美 OpenAI 和 Google 等公司的尖端聊天機器人,可以說這個突破是一個重要的里程碑。

DeepSeek-V3 擁有高達 6710 億個參數,並採用了 Mixture-of-Experts(MoE)架構,在多項基準測試中表現優異,甚至超越了 Llama 和 Qwen 等先進模型。根據匿名職場爆料網站 Blind 的消息,一位自稱來自 Meta 生成式 AI 部門的工程師表示,DeepSeek V3 的出現使得 Llama 4 在各項評比中黯然失色,甚至被形容為「被中國一家預算僅 550 萬美元的公司狠狠打臉」。

毫無疑問,Meta 的工程師們肯定正全力以赴地研究 DeepSeek 模型,試圖「抄襲任何可借鑒的技術」。面對這一局勢,Meta 的高層應感到不安,擔心生成式 AI 部門的龐大開支難以向管理層交代。畢竟,該部門每位「領導」的年薪已超過訓練 DeepSeek V3 的總成本,而這樣的管理層人數不在少數。此外,其他 AI 巨頭們同樣震驚,因為他們在資金投放上遠超過 DeepSeek 十倍以上,卻被這家小型公司所超越,這讓他們不得不深刻反思自身的技術競爭力。

其實,開源的本意就是集結全球的電腦高手不斷改良模型,並非某一國家獨占優勢。我可以這樣說,從 0 到 1 是外國領先,但從 1 到 100 未必會持續由外國主導。此外,內地所使用的硬體資源和技術水平相對於國外仍然較低,但卻能實現相同甚至更優的效果,這實屬不易。猜測外國將會急起直追,深入研究 DeepSeek 的源代碼並加以改良,未來勢必會掀起另一波新的 AI 熱潮。

DeepSeek 官方網頁

DeepSeek-V3 Open Source,有興趣下載回來研究一下:



發佈留言

Learning is the enterprise of a lifetime......

 
Top