如下图所示,笔者想在众多的时间序列中找到与众不同的时间序列:
有如下几种方式:
1. 孤立森林:
孤立森林的原理是随机抽样特征,样本和阈值,训练多棵树,基于异常样本总是容易被最先孤立的假设,找到孤立点。孤立森林(Isolation Forest)从原理到实践。
但是孤立森林算法没有考虑到时序图的前后关系属性,故pass.
2. local outlier factor:
lof原理是基于密度的异常检测,比如近邻空间内,找到某个与附近都不一样的点。异常检测算法之局部异常因子算法-Local Outlier Factor(LOF)。
该算法没有考虑到时序图的前后关系属性,故pass.
3. pca降维可视化:
pca降维的原理是找到一个子空间进行高维空间线性投影,让信息损失最小。Microstrong:主成分分析(PCA)原理详解
该算法没有考虑到时序图的前后关系属性,故pass.
4. tsne降维可视化:
tsne降维的原理是进行高纬空间的非线形投影:t-SNE原理与推导_scott198510的博客-CSDN博客_sne。
相比较pca而言效果更好,但是性能极差,而且同样没有考虑到时序图的前后关系,故也pass。
5. dbscan+l1距离聚类:
将不同的时间序列图形按照l1距离度量进行聚类,解决了高纬诅咒的问题,而且红圈所示肯定是-1的标签, 故可行。
6. 图像异常检测:
将时间序列转换成图像的方式处理,可行,后续研究。