DeepSeek v3

近日，國內一間名為 DeepSeek 的小型公司推出了一款強大的 AI 模型，它在當前的人工智慧軍備競賽中引發了廣泛關注。美國的科技巨頭們在深度學習模型的開發上投入了數以億計的資本，以建造龐大的數據中心。然而，隨著 DeepSeek 的新 AI 模型 DeepSeek-V3 的發布，顯示出其能力可以媲美 OpenAI 和 Google 等公司的尖端聊天機器人，可以說這個突破是一個重要的里程碑。

DeepSeek-V3 擁有高達 6710 億個參數，並採用了 Mixture-of-Experts（MoE）架構，在多項基準測試中表現優異，甚至超越了 Llama 和 Qwen 等先進模型。根據匿名職場爆料網站 Blind 的消息，一位自稱來自 Meta 生成式 AI 部門的工程師表示，DeepSeek V3 的出現使得 Llama 4 在各項評比中黯然失色，甚至被形容為「被中國一家預算僅 550 萬美元的公司狠狠打臉」。

毫無疑問，Meta 的工程師們肯定正全力以赴地研究 DeepSeek 模型，試圖「抄襲任何可借鑒的技術」。面對這一局勢，Meta 的高層應感到不安，擔心生成式 AI 部門的龐大開支難以向管理層交代。畢竟，該部門每位「領導」的年薪已超過訓練 DeepSeek V3 的總成本，而這樣的管理層人數不在少數。此外，其他 AI 巨頭們同樣震驚，因為他們在資金投放上遠超過 DeepSeek 十倍以上，卻被這家小型公司所超越，這讓他們不得不深刻反思自身的技術競爭力。

其實，開源的本意就是集結全球的電腦高手不斷改良模型，並非某一國家獨占優勢。我可以這樣說，從 0 到 1 是外國領先，但從 1 到 100 未必會持續由外國主導。此外，內地所使用的硬體資源和技術水平相對於國外仍然較低，但卻能實現相同甚至更優的效果，這實屬不易。猜測外國將會急起直追，深入研究 DeepSeek 的源代碼並加以改良，未來勢必會掀起另一波新的 AI 熱潮。

DeepSeek 官方網頁

https://www.deepseek.com

DeepSeek-V3 Open Source，有興趣下載回來研究一下：

https://github.com/deepseek-ai/DeepSeek-V3

Payme QR Code		Alipay QR Code
	或
或轉數快 ID: 169288891 CHAN N* H*

DeepSeek v3

發佈留言

網誌所有文章

電郵給我

搜尋網誌

DeepSeek v3

Share to:

Next

較新的文章

Previous

較舊的文章

發佈留言