赛道 | 深兰参赛团队闪耀KDD2021国际赛事,荣膺专项竞赛冠军
2021-08-14ACM SIGKDD(国际数据挖掘与知识发现大会,简称KDD)是数据挖掘领域的顶级国际学术会议,由美国计算机学会(ACM)数据挖掘及知识发现专委会(SIGKDD)主办,被中国计算机学会(CCF)推荐为A类国际学术会议。自1995年以来,KDD已连续成功举办了26届,应运而生的KDD Cup更是数据挖掘领域最有影响力的赛事。
8月14日-18日,KDD 2021盛会于新加坡拉开帷幕。深兰科技DeepBlueAI(DBAI)团队积极参与今年赛事,并成为赛事焦点,成绩表现出色,在Multi-dataset Time Series Anomaly Detection竞赛中获得冠军。值得一提的是,前7名还包括华为诺亚方舟实验室、阿里达摩院、海康威视、日立、三菱电机、日本产业技术综合研究所和柏林洪堡大学等知名公司和高校的队伍。比赛竞争非常激烈,吸引了超过500支队伍积极参与,并接收了将近2000次有效结果提交。
赛事介绍
Multi-dataset Time Series Anomaly Detection
Multi-dataset Time Series Anomaly Detection竞赛提供了250条时间序列,并且每条时间序列都包括一个异常点。主办方希望选手们利用无监督或自监督的方法找到这些异常点的位置。
时序异常检测旨在检测数据中的意外或罕见事件项。它常用于许多工业应用,如运维、行业监控、产品价格在线监控等。
团队成绩
深兰团队名列首位
数据分析
这些时间序列中异常点的种类繁多,可能是点异常,也可能是群体异常,如下图。单一方法很难找到所有文件的异常点,因此需要一个适用的框架或者好的集成方法。
图表 1不同异常类型
竞赛方案
针对这一竞赛,DeepBlueAI团队自主开发了一套高泛化性和灵活性的异常检测框架TsaDetect。具体来说,每个时序会经过周期分析,多模型预测,评估和集成三个模块。
图表 2 TsaDetect 时序异常检测框架
首先,分析输入时间序列以提取基本信息和周期,这对于需要窗口大小的算法很重要。然后,时间序列信号通过不同的模型进行处理。所有模型都会生成时间序列残差,这些残差被传递到评估和集成模块中。这些残差被标准化为可比较并加权求和以产生最终的残差。这一步中的权重由置信度决定,它表示模型在检测该信号中的异常时的置信度。最后,异常位置由这个最终的残差决定。
在检测模型的选择和开发上,主要专注于快速和稳定。我们最终采用了基于傅里叶变换的方法,matrix profile方法,以及改进的基于回归的方法。每种方法都有自己的适用的异常类型,通过上述的框架整合起来,就得到了一个鲁棒性,泛化性更强的检测器。
总 结
2019年,深兰团队就在KDD Cup 2019 AutoML Track 挑战赛中取得第一名的佳绩,此次深兰的再次夺冠证明深兰秉承“技术先行,深耕基础研究”的理念,在数据挖掘领域占据领先地位。而其自主研发的时序异常检测框架,也为AI运维,AI时序监控等领域的实践和落地开阔了思路。