【KDD2024】大數(shù)據(jù)基礎(chǔ)工程技術(shù)集群異常檢測論文入選

2024-08-26 5453

核心提示：近日，由阿里云計(jì)算平臺(tái)大數(shù)據(jù)基礎(chǔ)工程技術(shù)團(tuán)隊(duì)主導(dǎo)，與浙江大學(xué)合作的論文《Cluster-Wide Task Slowdown Detection in Cloud System》被數(shù)據(jù)挖掘領(lǐng)域頂會(huì)ACM SIGKDD2024接收，該論文從集群整體作業(yè)執(zhí)行情況分布入手，旨在解決集群整體作業(yè)運(yùn)行變慢的異常檢測問題。

近日，由阿里云計(jì)算平臺(tái)大數(shù)據(jù)基礎(chǔ)工程技術(shù)團(tuán)隊(duì)主導(dǎo)，與浙江大學(xué)合作的論文《Cluster-Wide Task Slowdown Detection in Cloud System》被數(shù)據(jù)挖掘領(lǐng)域頂會(huì)ACM SIGKDD2024接收，該論文從集群整體作業(yè)執(zhí)行情況分布入手，旨在解決集群整體作業(yè)運(yùn)行變慢的異常檢測問題。論文創(chuàng)造性地提出了撇脂注意力機(jī)制和picky loss function解決集群整體作業(yè)分布復(fù)合周期性及訓(xùn)練集污染的問題，并使用基于神經(jīng)網(wǎng)絡(luò)最優(yōu)運(yùn)輸模塊，實(shí)現(xiàn)精準(zhǔn)定向檢測集群整體作業(yè)運(yùn)行時(shí)間分布變慢的異常。論文從新的視角分析云計(jì)算平臺(tái)集群健康狀態(tài)，實(shí)現(xiàn)了基于神經(jīng)網(wǎng)絡(luò)的集群作業(yè)整體變慢異常定向檢測，與SOTA異常檢測算法相比平均提升F1 score 5.3%。

ACM SIGKDD（國際數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)大會(huì)，KDD）會(huì)議始于 1989 年，是數(shù)據(jù)挖掘領(lǐng)域歷史最悠久、規(guī)模最大的國際頂級學(xué)術(shù)會(huì)議，被CCF（中國計(jì)算機(jī)學(xué)會(huì)）列為A類會(huì)議，KDD也是首個(gè)引入大數(shù)據(jù)、數(shù)據(jù)科學(xué)、預(yù)測分析、眾包等概念的會(huì)議。KDD2024將于8.25-8.29, 在西班牙巴塞羅那舉行。此次入選意味著阿里云提出的集群級別作業(yè)變慢異常檢測框架獲得了國際學(xué)者的認(rèn)可，也是一次產(chǎn)學(xué)研結(jié)合的成功實(shí)踐。

針對大規(guī)模云計(jì)算平臺(tái)集群作業(yè)運(yùn)行變慢的異常檢測問題，存在以下挑戰(zhàn)：

（1）從個(gè)體作業(yè)入手監(jiān)測集群是否存在顯著變慢問題，會(huì)受到虛擬環(huán)境不確定性對個(gè)體執(zhí)行速度的干擾，對個(gè)體進(jìn)行檢測、形成定性結(jié)論再集合到整體的方式無法準(zhǔn)確反映整體作業(yè)執(zhí)行狀況。

（2）對每個(gè)作業(yè)進(jìn)行監(jiān)測，與對整體分布進(jìn)行監(jiān)測相比，需要花費(fèi)更多計(jì)算存儲(chǔ)資源。

（3）訓(xùn)練數(shù)據(jù)中并不能總是保證所有數(shù)據(jù)都是正常的，往往也會(huì)夾雜無標(biāo)簽的異常數(shù)據(jù)，這與無監(jiān)督異常檢測的假設(shè)相悖。

論文首次從集群整體作業(yè)執(zhí)行情況分布入手，檢測集群整體作業(yè)分布變慢的問題。創(chuàng)造性地提出了撇脂注意力機(jī)制和picky loss function解決集群整體作業(yè)分布復(fù)合周期性及訓(xùn)練集污染的問題。并使用基于神經(jīng)網(wǎng)絡(luò)最優(yōu)運(yùn)輸模塊，定向檢測集群整體作業(yè)分布變慢的問題。論文從新的視角分析集群健康狀態(tài)，實(shí)現(xiàn)了基于神經(jīng)網(wǎng)絡(luò)的集群作業(yè)整體變慢異常定向檢測，與SOTA異常檢測算法相比平均提升F1 score 5.3%。

目前對應(yīng)算法已經(jīng)在阿里云云原生大數(shù)據(jù)計(jì)算服務(wù)MaxCompute集群異常監(jiān)控場景中進(jìn)行灰度。可以有效地幫助運(yùn)維人員對集群運(yùn)行健康狀況進(jìn)行評估，提前發(fā)現(xiàn)可能的風(fēng)險(xiǎn)隱患。

論文信息

● 論文名字：Cluster-Wide Task Slowdown Detection in Cloud System

● 論文作者：Feiyi Chen, Yingying Zhang, Lunting Fan, Yuxuan Liang, Guansong Pang, Qingsong Wen, Shuiguang Deng

● 論文pdf鏈接：https://arxiv.org/abs/2408.04236

● 部分參考文獻(xiàn)：

【1】Su Y, Zhao Y, Niu C, et al. Robust anomaly detection for multivariate time series through stochastic recurrent neural network[C]//Proceedings of the 25th ACM SIGKDD international conference on knowledge discovery & data mining. 2019: 2828-2837.

【2】Zhang C, Song D, Chen Y, et al. A deep neural network for unsupervised anomaly detection and diagnosis in multivariate time series data[C]//Proceedings of the AAAI conference on artificial intelligence. 2019, 33(01): 1409-1416.

【3】Xu J, Wu H, Wang J, et al. Anomaly transformer: Time series anomaly detection with association discrepancy[J]. arXiv preprint arXiv:2110.02642, 2021.

【4】Yang Y, Zhang C, Zhou T, et al. Dcdetector: Dual attention contrastive representation learning for time series anomaly detection[C]//Proceedings of the 29th ACM SIGKDD Conference on Knowledge Discovery and Data Mining. 2023: 3033-3045.

【5】Tuli S, Casale G, Jennings N R. Tranad: Deep transformer networks for anomaly detection in multivariate time series data[J]. arXiv preprint arXiv:2201.07284, 2022.

分享到:

收藏 0

更多>同類資訊

免責(zé)申明

推薦資訊

點(diǎn)擊排行

最新資訊更多>

中國智能化網(wǎng)（zgznh^®）--引領(lǐng)工業(yè)智能化產(chǎn)業(yè)發(fā)展共享智能化+優(yōu)質(zhì)平臺(tái)

版權(quán)所有：深圳市智控網(wǎng)絡(luò)有限公司 學(xué)術(shù)指導(dǎo)：深圳市智能化學(xué)會(huì)

粵ICP備12078626號(hào)

深公網(wǎng)安備案證字第 4403101901094 號(hào) | 粵公網(wǎng)安備 44030702001206號(hào)

• 2025數(shù)字中國創(chuàng)新大賽·智能科技賽道正式啟動(dòng)	• 優(yōu)刻得安全屋+DeepSeek：解鎖數(shù)據(jù)安全流通與AI
• 借力AI逆襲登頂行業(yè)新龍頭：豐e足食CEO深度分享	• 智控網(wǎng)絡(luò)攜智造之眼和編碼器專用電池亮相SPS廣
• 2025 漢諾威金屬加工世界（EMO Hannover）——	• 毆姆泰酷集團(tuán) 匠郢精密陶瓷(蘇州)有限公司CEO李
• AI時(shí)代，手機(jī)訂“智”——聯(lián)通云手機(jī)創(chuàng)新產(chǎn)品發(fā)	• 【代辦入臺(tái)證】誠邀赴臺(tái)參觀「2025 年臺(tái)北國際
• DeepSeek爆火引發(fā)"算力焦慮"！優(yōu)刻得專有云助您	• 亞冬冰雪狂歡：AI加持聯(lián)通看家，守護(hù)生活每一刻

天天色成人-天天色成人网-天天色色色-天天色色网-久久99欧美-久久99青青久久99久久

【KDD2024】大數(shù)據(jù)基礎(chǔ)工程技術(shù)集群異常檢測論文入選