天天色成人-天天色成人网-天天色色色-天天色色网-久久99欧美-久久99青青久久99久久

【KDD2024】大數據基礎工程技術集群異常檢測論文入選

   2024-08-26 5452
核心提示:近日,由阿里云計算平臺大數據基礎工程技術團隊主導,與浙江大學合作的論文《Cluster-Wide Task Slowdown Detection in Cloud System》被數據挖掘領域頂會ACM SIGKDD2024接收,該論文從集群整體作業執行情況分布入手,旨在解決集群整體作業運行變慢的異常檢測問題。
 近日,由阿里云計算平臺大數據基礎工程技術團隊主導,與浙江大學合作的論文《Cluster-Wide Task Slowdown Detection in Cloud System》被數據挖掘領域頂會ACM SIGKDD2024接收,該論文從集群整體作業執行情況分布入手,旨在解決集群整體作業運行變慢的異常檢測問題。論文創造性地提出了撇脂注意力機制和picky loss function解決集群整體作業分布復合周期性及訓練集污染的問題,并使用基于神經網絡最優運輸模塊,實現精準定向檢測集群整體作業運行時間分布變慢的異常。論文從新的視角分析云計算平臺集群健康狀態,實現了基于神經網絡的集群作業整體變慢異常定向檢測,與SOTA異常檢測算法相比平均提升F1 score 5.3%。

ACM SIGKDD(國際數據挖掘與知識發現大會,KDD) 會議始于 1989 年,是數據挖掘領域歷史最悠久、規模最大的國際頂級學術會議,被CCF(中國計算機學會)列為A類會議,KDD也是首個引入大數據、數據科學、預測分析、眾包等概念的會議。KDD2024將于8.25-8.29, 在西班牙巴塞羅那舉行。此次入選意味著阿里云提出的集群級別作業變慢異常檢測框架獲得了國際學者的認可,也是一次產學研結合的成功實踐。

針對大規模云計算平臺集群作業運行變慢的異常檢測問題,存在以下挑戰:

(1)從個體作業入手監測集群是否存在顯著變慢問題,會受到虛擬環境不確定性對個體執行速度的干擾,對個體進行檢測、形成定性結論再集合到整體的方式無法準確反映整體作業執行狀況。

(2)對每個作業進行監測,與對整體分布進行監測相比,需要花費更多計算存儲資源。

(3)訓練數據中并不能總是保證所有數據都是正常的,往往也會夾雜無標簽的異常數據,這與無監督異常檢測的假設相悖。

論文首次從集群整體作業執行情況分布入手,檢測集群整體作業分布變慢的問題。創造性地提出了撇脂注意力機制和picky loss function解決集群整體作業分布復合周期性及訓練集污染的問題。并使用基于神經網絡最優運輸模塊,定向檢測集群整體作業分布變慢的問題。論文從新的視角分析集群健康狀態,實現了基于神經網絡的集群作業整體變慢異常定向檢測,與SOTA異常檢測算法相比平均提升F1 score 5.3%。

目前對應算法已經在阿里云云原生大數據計算服務MaxCompute集群異常監控場景中進行灰度。可以有效地幫助運維人員對集群運行健康狀況進行評估,提前發現可能的風險隱患。

論文信息

● 論文名字:Cluster-Wide Task Slowdown Detection in Cloud System

● 論文作者:Feiyi Chen, Yingying Zhang, Lunting Fan, Yuxuan Liang, Guansong Pang, Qingsong Wen, Shuiguang Deng

● 論文pdf鏈接:https://arxiv.org/abs/2408.04236

● 部分參考文獻:

【1】Su Y, Zhao Y, Niu C, et al. Robust anomaly detection for multivariate time series through stochastic recurrent neural network[C]//Proceedings of the 25th ACM SIGKDD international conference on knowledge discovery & data mining. 2019: 2828-2837.

【2】Zhang C, Song D, Chen Y, et al. A deep neural network for unsupervised anomaly detection and diagnosis in multivariate time series data[C]//Proceedings of the AAAI conference on artificial intelligence. 2019, 33(01): 1409-1416.

【3】Xu J, Wu H, Wang J, et al. Anomaly transformer: Time series anomaly detection with association discrepancy[J]. arXiv preprint arXiv:2110.02642, 2021.

【4】Yang Y, Zhang C, Zhou T, et al. Dcdetector: Dual attention contrastive representation learning for time series anomaly detection[C]//Proceedings of the 29th ACM SIGKDD Conference on Knowledge Discovery and Data Mining. 2023: 3033-3045.

【5】Tuli S, Casale G, Jennings N R. Tranad: Deep transformer networks for anomaly detection in multivariate time series data[J]. arXiv preprint arXiv:2201.07284, 2022.

 
分享到: 0
收藏 0
 
更多>同類資訊
免責申明
推薦資訊
點擊排行
最新資訊更多>
最新供應更多>
網站首頁  |  聯系方式  |  關于我們  |  問題解析  |  版權隱私  |  使用協議  |  網站地圖  |  排名推廣  |  廣告服務  |  積分換禮  |  網站留言  |  RSS訂閱  |  違規舉報  |  粵ICP備1207862號

中國智能化網(zgznh®)--引領工業智能化產業發展 共享智能化+優質平臺

版權所有:深圳市智控網絡有限公司 學術指導:深圳市智能化學會

粵ICP備12078626號

深公網安備案證字第 4403101901094 號 | 粵公網安備 44030702001206號