巨額算力投入成為技術和效益優化的瓶頸,技術路徑破局迫在眉 睫。從效益端看,基於 Transformer 架構的模型在訓練計算量(training FLOPs)達到一定量級時,模型性能才出現向上的“拐點”,因此在 大模型訓練任務中,算力成為必須的基礎性資源。但隨著模型越來 越大,算力成本越來越高,成本飆升源於模型複雜度和數據量攀升 對計算資源的需求。Anthropic 首席執行官表示,三年內 AI 模型的 訓練成本將上升到 100 億美元甚至 1000 億美元。巨額的大模型訓 練投入一定程度減緩了技術進步和效益提升,因此技術路徑破局尤 為關鍵。當前 MoE 以及 OpenAI o1 的“思維鏈”是重要探索實踐。
MoE 框架是對 Transformer 架構的優化,關鍵在於路由策略及微 調。其能在不給訓練和推理階段引入過大計算需求的前提下大幅提 升模型能力。在基於 Transformer 的大型語言模型(LLM)中,每個 混合專家(MoE)層的組成形式通常是個“專家網絡”搭配一個“門 控網絡”G。門控函數(也被稱路由函數)是所有 MoE 架構的基礎 組件,作用是協調使用專家計算以及組合各專家的輸出。根據對每 個輸入的處理方法,該門控可分為三種類型:稀疏式、密集式和 soft 式。其中稀疏式門控機製是激活部分專家,而密集式是激活所有專 家,soft 式則包括完全可微方法,包括輸入 token 融合和專家融合。
MoE 在 NLP、CV、語音識別以及機器人等領域表現出色,且在更 高性能的大模型推理芯片 LPU 加持下,MoE模型提升效果顯著。
OpenAI o1 基於“思維鏈”的創新推理模式,學會人類“慢思考”, 專業領域的效果突出。OpenAI o1 相比之前的 AI 大模型最跨越性的 一步在於擁有人類“慢思考”的特質:係統性、邏輯性、批判性、 意識性。在響應用戶提出的難題之前,OpenAI o1 會產生一個縝密 的內部思維鏈,進行長時間的思考,完善思考過程、意識邏輯錯誤、 優化使用策略、推理正確答案。這種深度思考能力在處理數學、編 程、代碼、優化等高難度問題時發揮重要作用,能夠進行博士級別 的科學問答,成為真正的通用推理。推理側的應用模式創新有望在 更為專業的領域創造價值應用,從通用的偏娛樂領域逐步過渡到偏 嚴肅的專業領域場景,AI 大模型的真正實踐價值有望進一步釋放, 因此 o1 模型提供的新應用範式和能力維度在大模型技術路線演繹 中,具有裏程碑意義。
![]() |
機器人底盤Disinfection Robot消毒機器人講解機器人迎賓機器人移動機器人底盤商用機器人智能垃圾站智能服務機器人大屏機器人霧化消毒機器人紫外線消毒機器人消毒機器人價格展廳機器人服務機器人底盤核酸采樣機器人智能配送機器人導覽機器人 |