首頁
產品係列
行業應用
渠道合作
新聞中心
研究院
投資者關係
技術支持
必威體育主頁
| En
 
  當前位置:首頁 > 新聞資訊 > 機器人開發 > 如何搭建一個GPU加速的分布式機器學習係統,遇到的問題和解決方法  
 

如何搭建一個GPU加速的分布式機器學習係統,遇到的問題和解決方法

來源:阿裏機器智能      編輯:創澤      時間:2020/6/18      主題:其他   [加盟]

小嘰導讀:在解決實際問題的時候,很多人認為隻要有機器學習算法就可以了,實際上要把一個算法落地還需要解決很多工程上的難題。本文將和大家分享如何從零開始搭建一個GPU加速的分布式機器學習係統,介紹在搭建過程中遇到的問題和解決方法。

一  背景

在雲計算環境下,虛擬機的負載均衡、自動伸縮、綠色節能以及宿主機升J等需求使得我們需要利用虛擬機(VM)遷移技術,尤其是虛擬機熱遷移技術,對於down time(停機時間)要求比較G,停機時間越短,客戶業務中斷時間就越短,影響就越小。如果能夠根據VM的曆史工作負載預測其未來的工作負載趨勢,就能夠尋找到合適的時間窗口完成虛擬機熱遷移的操作。

於是我們開始探索如何用機器學習算法預測ECS虛擬機的負載以及熱遷移的停機時間,但是機器學習算法要在生產環境發揮作用,還需要很多配套係統去支持。為了能快速將現有算法在實際生產環境落地,並能利用GPU加速實現大規模計算,我們自己搭建了一個GPU加速的大規模分布式機器學習係統,取名小諸葛,作為ECS數據中台的異構機器學習算法加速引擎。搭載以上算法的小諸葛已經在生產環境上線,支撐阿裏雲全網規模的虛擬機的大規模熱遷移預測。

二  方案

那麼一套完整大規模分布式係統機器學習係統需要哪些組成部分呢?

1  總體架構

阿裏雲全網如此大規模的虛擬機數量,要實現24小時之內完成預測,需要在端到端整個流程的每一個環節做優化。所以這必然是一個複雜的工程實現,為了G效的搭建這個平台,大量使用了現有阿裏雲上的產品服務來搭建。

整個平台包含:Web服務、MQ消息隊列、Redis數據庫、SLS/MaxComputer/HybridDB數據獲取、OSS模型倉庫的上傳下載、GPU雲服務器、DASK分布式框架、RAPIDS加速庫。

1)架構

下圖是小諸葛的總體架構圖。






拯救渣畫質,馬賽克圖秒變高清,杜克大學提出AI新算法

杜克大學的一種 AI 算法PULSE可以將模糊、無法識別的人臉圖像轉換成計算機生成的圖像,其細節比之前任何時候都更加精細、逼真

餓了麼推薦算法的演進及在線學習實踐

餓了麼算法專家劉金介紹推薦業務背景,包括推薦產品形態及算法優化目標;然後是算法的演進路線;最後重點介紹在線學習是如何在餓了麼推薦領域實踐的

百變應用場景下,優酷基於圖執行引擎的算法服務框架築造之路

優酷推薦業務,算法應用場景眾多,需求靈活多變,需要一套通用業務框架,支持運行時的算法流程的裝配,提升算法服務場景搭建的效率

內容流量管理的關鍵技術:多任務保量優化算法實踐

通過分析其中的關鍵問題,建立了新熱內容曝光敏感模型,並最終給出一種曝光資源約束下的多目標優化保量框架與算法

CVPOS自助收銀的挑戰以及商品識別算法工程落地方法和經驗

針對結算收銀場景中商品識別的難點,從商品識別落地中的模型選擇、數據挑選與標注、前端和雲端部署、模型改進等方麵,進行了深入講解

麵向動態記憶和學習功能的神經電晶體可塑性研究

神經形態結構融合學習和記憶功能領域的研究主要集中在人工突觸的可塑性方麵,同時神經元膜的固有可塑性在神經形態信息處理的實現中也很重要

人工智能和機器學習之間的差異及其重要性

機器學習就是通過經驗來尋找它學習的模式,而人工智能是利用經驗來獲取知識和技能,並將這些知識應用於新的環境

滴滴機器學習平台調度係統的演進與K8s二次開發

滴滴機器學習場景下的 k8s 落地實踐與二次開發的技術實踐與經驗,包括平台穩定性、易用性、利用率、平台 k8s 版本升級與二次開發等內容

如何更高效地壓縮時序數據?基於深度強化學習的探索

大型商用時序數據壓縮的特性,提出了一種新的算法,分享用深度強化學習進行數據壓縮的研究探索

基於深度學習目標檢測模型優缺點對比

深度學習模型:OverFeat、R-CNN、SPP-Net、Fast、R-CNN、Faster、R-CNN、R-FCN、Mask、R-CNN、YOLO、SSD、YOLOv2、416、DSOD300、R-SSD

傳統目標檢測算法對比

SIFT、PCA-SIFT、SURF 、ORB、 VJ 等目標檢測算法優缺點對比及使用場合比較

基於深度學習和傳統算法的人體姿態估計,技術細節都講清楚了

人體姿態估計便是計算機視覺領域現有的熱點問題,其主要任務是讓機器自動地檢測場景中的人“在哪裏”和理解人在“幹什麼”
 
資料獲取
新聞資訊
== 資訊 ==
» 機器人應用的趨勢:垂直化、工藝化、多樣化
» 協作機器人的中國市場格局:初具雛形,未完
» 中國協作機器人市場前景:高速穩步增長,未
» 協作機器人市場的發展曆程:起步期、調整期
» 機器人的安全解決方案:力感知方案,輕量化
» 機器人的視覺解決方案:2D視覺和 3D
» 協作機器人與人形機器人的發展關係:應用領
» 2025年中國協作機器人產業發展藍皮書,
» 機器人工作站的安全規範及標準:安全防護空
» 機器人工作站的功能要求和環境條件:機器人
» 智能服務機器人的導引方式:固定路徑導引方
» 自動導引機器人係統的組成:驅動係統 導航
» 智能機器人是多傳感器信息融合係統,使用位
» 機器人的視覺傳感技術,從二維圖像中理解和
» 機器人的工件識別傳感器:接觸識別、采樣式
 
== 機器人推薦 ==
 
迎賓講解服務機器人

服務機器人(迎賓、講解、導診...)

智能消毒機器人

智能消毒機器人

機器人底盤

機器人底盤

 

商用機器人  Disinfection Robot   展廳機器人  智能垃圾站  輪式機器人底盤  迎賓機器人  移動機器人底盤  講解機器人  紫外線消毒機器人  大屏機器人  霧化消毒機器人  服務機器人底盤  智能送餐機器人  霧化消毒機  機器人OEM代工廠  消毒機器人排名  智能配送機器人  圖書館機器人  導引機器人  移動消毒機器人  導診機器人  迎賓接待機器人  前台機器人  導覽機器人  酒店送物機器人  雲跡科技潤機器人  雲跡酒店機器人  智能導診機器人 
版權所有 © 必威主頁     中國運營中心:北京·清華科技園九號樓5層     中國生產中心:山東日照太原路71號
銷售1:4006-935-088    銷售2:4006-937-088   客服電話: 4008-128-728

Baidu
map