一、用戶量:海外加速(su)出(chu)圈,迅速(su)登頂全(quan)球(qiu)下(xia)載榜單(dan)
1、網頁(ye)端:重度用(yong)戶為主,DeepSeek 在 24 年 12 月(yue)(yue) 26 日(ri)推出(chu)V3(對(dui)標 GPT4o),因其顯著的性(xing)能,用(yong)戶迅速開始增長,同(tong)時(shi)在 1月(yue)(yue) 20 日(ri)發布 R1(對(dui)標 GPT-o1)后(hou),進一步出(chu)圈。
2、APP 端:大眾用戶為主,R1 推出后,追平 GPT-o1,迅(xun)速出圈海外(wai)。根據點點數據,從 DeepSeek 在(zai)美國下載(zai)排名(ming)(ming)從 1 月 22 日的 201名(ming)(ming),迅(xun)速在(zai) 1 月 27 日登頂第(di)一名(ming)(ming);根據七麥數據,截止 1 月 30 日,DeepSeek 在(zai) 168 個國家位居下載(zai)榜第(di)一名(ming)(ming)。
二、DeepSeek 偏好激進性創新:架構(gou)(MOE+MLA)+精度(FP8)
1、MOE 架構創新:相比過(guo)去主流模型(xing)的 MOE 專家模型(xing)停留在8~16 個(ge)(ge),而 DeepSeek 每個(ge)(ge) MoE 層(ceng)包(bao)含 1 個(ge)(ge)共享專家和(he) 256 個(ge)(ge)路(lu)由專家,有(you)助于降低模型(xing)推理(li)時激(ji)活的參數(shu)量。
2、MLA 架(jia)構(gou)創新:MLA 通過聯合(he)壓縮(suo)鍵(jian)值矩陣為低秩向(xiang)量,將多個頭的鍵(jian)值信息融合(he),使(shi)推理時僅(jin)需緩存(cun)少量低秩向(xiang)量,大幅降低 KV 緩存(cun)需求(qiu),減少內存(cun)占用。
3、訓練(lian)特色:突破(po)大模型訓練(lian)固(gu)定思維(一般模型權重(zhong)和梯度(du)(du)使(shi)用(yong) FP16,優化(hua)器參數使(shi)用(yong) FP32),敢于(yu)嘗試在(zai)低精度(du)(du) FP8 的模式下訓練(lian)大模型,并且(qie)該嘗試同(tong)樣出現了較好的效果。
三、DeepSeek 開源對 AI 應(ying)用和 AI 終端的影(ying)響(xiang):產品力競爭時代
DeepSeek 從 V3 到(dao) R1,將進(jin)一步(bu)推動全行(xing)業大模型的提升,更快(kuai)的追趕 GPT4o 和(he) GPT-o1;同(tong)時成本(ben)的下(xia)降,有助(zhu)于 AI 應用和(he) AI 終(zhong)端的普及。未來行(xing)業競爭將進(jin)入“產品能力競爭”,巨頭的流量(liang)優勢將進(jin)一步(bu)凸(tu)顯(xian)。
四、DeepSeek 對推(tui)理成本的(de)影響:用戶規模和使用頻次(ci)
未來推動推理(li)成(cheng)本增(zeng)加(jia)的核(he)心因(yin)素(su):用戶規模和用戶使用頻次的增(zeng)加(jia)。根據 Grok 創始人,過去 60 年(nian),每10年(nian)計算(suan)成(cheng)本降低(di)約(yue)1000倍(bei),但(dan)人們的購買量增(zeng)加(jia)了 10 萬倍(bei),總支出反而增(zeng)長了 100 倍(bei)。
![]() |
智能服務機器人 |