當前位置：首頁> 新聞資訊> ai智能> MoE與思維鏈助力大模型技術路線破局：MoE模型提升效果顯著，擁有人類“慢思考”的特質

MoE與思維鏈助力大模型技術路線破局：MoE模型提升效果顯著，擁有人類“慢思考”的特質

來源：國泰君安證券編輯：創澤時間：2024/11/6 主題：其他[ 加盟]

巨額算力投入成為技術和效益優化的瓶頸，技術路徑破局迫在眉睫。從效益端看，基於 Transformer 架構的模型在訓練計算量（training FLOPs）達到一定量級時，模型性能才出現向上的“拐點”，因此在大模型訓練任務中，算力成為必須的基礎性資源。但隨著模型越來越大，算力成本越來越高，成本飆升源於模型複雜度和數據量攀升對計算資源的需求。Anthropic 首席執行官表示，三年內 AI 模型的訓練成本將上升到 100 億美元甚至 1000 億美元。巨額的大模型訓練投入一定程度減緩了技術進步和效益提升，因此技術路徑破局尤為關鍵。當前 MoE 以及 OpenAI o1 的“思維鏈”是重要探索實踐。

MoE 框架是對 Transformer 架構的優化，關鍵在於路由策略及微調。其能在不給訓練和推理階段引入過大計算需求的前提下大幅提升模型能力。在基於 Transformer 的大型語言模型（LLM）中，每個混合專家（MoE）層的組成形式通常是個“專家網絡”搭配一個“門控網絡”G。門控函數（也被稱路由函數）是所有 MoE 架構的基礎組件，作用是協調使用專家計算以及組合各專家的輸出。根據對每個輸入的處理方法，該門控可分為三種類型：稀疏式、密集式和 soft 式。其中稀疏式門控機製是激活部分專家，而密集式是激活所有專家，soft 式則包括完全可微方法，包括輸入 token 融合和專家融合。

MoE 在 NLP、CV、語音識別以及機器人等領域表現出色，且在更高性能的大模型推理芯片 LPU 加持下，MoE模型提升效果顯著。

OpenAI o1 基於“思維鏈”的創新推理模式，學會人類“慢思考”，專業領域的效果突出。OpenAI o1 相比之前的 AI 大模型最跨越性的一步在於擁有人類“慢思考”的特質：係統性、邏輯性、批判性、意識性。在響應用戶提出的難題之前，OpenAI o1 會產生一個縝密的內部思維鏈，進行長時間的思考，完善思考過程、意識邏輯錯誤、優化使用策略、推理正確答案。這種深度思考能力在處理數學、編程、代碼、優化等高難度問題時發揮重要作用，能夠進行博士級別的科學問答，成為真正的通用推理。推理側的應用模式創新有望在更為專業的領域創造價值應用，從通用的偏娛樂領域逐步過渡到偏嚴肅的專業領域場景，AI 大模型的真正實踐價值有望進一步釋放，因此 o1 模型提供的新應用範式和能力維度在大模型技術路線演繹中，具有裏程碑意義。

附件：MoE與思維鏈助力大模型技術路線破局：MoE模型提升效果顯著，擁有人類“慢思考”的特質