盡管具體的相關話題不斷變化,但對Deepseek的討論至今熱度不減,不知道你家樓下小飯館的老板,是不是也在考慮用DeepSeek來換新自家二十年沒有變過的菜單?
當然,話題變遷的路徑依舊清晰可見,從人工智能業內開始、從專業人士開始、從對“低成本”的驚嘆開始。
丁科技網注意到,一個有意思的現象是,DeepSeek的出現雖然演繹了低成本神話,看起來是對規模定律的打破,站在AI創新背后、提供基礎設施的云廠商們也都在積極擁抱他,但于此同時,全球頭部云廠,對算力的投入看起來非但沒有減少,反而還要繼續增加。
(截圖自DeepSeek | 深度求索)
從公開信息來看,特別是作為全球“一哥”和中國“一哥”的兩家:
亞馬遜計劃在2025年投入1000億美元,主要用于云業務,作為主要載體的應當依舊是從2024年以來明顯加碼AI領域的亞馬遜云科技;阿里巴巴計劃在未來三年投入535億美元,用于云和AI硬件基礎設施,這據說超過過去十年的總和。
另外,從公開信息看,微軟、谷歌也計劃增資。比如,微軟提到的AI算力產能有限,因此在加大投資力度;谷歌也提到增加AI產品產能。
就丁科技網的理解,這背后可能有如下幾點原因:
先就DeepSeek角度來看,“低成本”可能不是事實的全部。
通常被關注的信息是,DeepSeek-V3以不到OpenAIGPT-4o模型的訓練成本的十分之一(大約是558萬美元),實現了接近的性能。不過,同時需要注意的是,DeepSeek在V3模型技術報告中指出了一個事實,就是“558萬美元不包括與架構、算法或數據相關的前期研究和消融實驗的成本”。也就是說,約558萬美元的金額,屬于凈算力成本。
如果從更長的時間線來看,DeepSeek母公司幻方量化在2019年的深度學習訓練平臺“螢火二號”搭載約1萬張英偉達A100顯卡,這在當時已經算“先進”了。
所以,一些可見的專業解讀認為,DeepSeek給到行業最大的意義是算法創新提高了資源的利用率,而不是顛覆掉通過增加算力提升模型性能的現有規律,另外就是開源實現的友好性。
再從全球頭部云廠角度來看,應該有三點訴求。
其一是推出更多可能更好的模型。不難發現,在DeepSeek看起來橫空出世之后,同樣作為模型大廠的全球頭部云大廠基本都在對標,大有加快創新節奏的感覺,DeepSeek很像是在帶來“鯰魚效應”。全球頭部云廠在嘗試推出更多可能更好的模型,來應對之后的風險,為可能的競爭持續加碼。
在丁科技網看來,這里還有三個細節原因,一是,DeepSeek模型并不算是全面領先;二是,全球頭部云大廠大概率也有規模定律未失效的判斷;三是,多模型應用才是客戶在現實中解決問題時的常態,這代表依然有很多未被看到的機會。
DeepSeek用相對少的資源、更創新的算法以及開源的態度贏得了關注,那么如果是創新算法、開源再加上更為豐富的算力和訓練參數呢?在丁科技網看來,云大廠們沒理由不這么想。
其二是應對對后續AI應用可能更大爆發的支持。去年以來有算力成本下降的趨勢,以阿里云為代表,在持續推動云服務降價、大模型降價,受益于此,一方面是AI應用更多出現,另一方面是AI應用的能力持續增強,隨之而來的是AI應用用戶增加,那么,對算力的消耗其實應該是會明顯增加的。
其三是對相關服務使用的支持。從趨勢來看,更多企業會將模型從應用實踐推向真實生產,這就不僅涉及模型本身,還會涉及大量云服務的相關算力支持。(丁科技網原創,轉載務必注明“來源:丁科技網”)
- QQ:61149512