0
点赞
收藏
分享

微信扫一扫

Multigranulation Relative Entropy-Based Mixed Attribute Outlier Detection in Neighborhood Systems论文精

Multigranulation Relative Entropy-Based Mixed Attribute Outlier Detection in Neighborhood Systems

邻域系统中基于多粒度相对熵的混合属性离群点检测


Abstract

离群点检测广泛应用于入侵检测、信用卡欺诈检测、医疗诊断等领域等等。现有的离群点检测算法大多是为处理数字或分类属性而设计的。然而,在实际应用中,数据通常以混合属性的形式存在。
本文提出了一种基于多粒度相对熵的邻域粗糙集混合属性离群点检测方法
首先,通过优化混合距离度量和统计值的半径来构造邻域系统
其次,引入邻域熵作为数据的不确定性度量
此外,通过三种属性序列定义了三种基于多粒化相对熵的矩阵,并将基于多粒化相对熵的离群因子集成起来,以表示每个对象的离群程度。基于提出的离群点检测模型,设计了相应的算法。
最后,通过对公共数据的实验,将该算法与其他九种算法进行了比较。实验结果表明,该方法具有自适应性和有效性

索引词——多重粒化,邻域粗糙集理论,离群点检测,相对熵。

I. INTRODUCTION

相关研究

外部检测是数据挖掘中最重要的研究方向之一,其目的是找出数据中行为与其他对象非常不同的对象[1]。在一些研究中,异常值作为异常被消除[2]。然而,有许多异常值检测应用程序,如入侵检测、信用卡欺诈、感兴趣的传感器事件、医疗诊断、执法、地球科学等[3]–[5]。

近几十年来,离群点检测受到了研究人员的广泛关注,提出了许多离群点检测方法。现有的离群点检测方法主要包括概率和统计模型[6]、基于邻近性的模型[7]–[9]和高维离群点检测[10]。

其中,基于邻近度的模型的思想是将偏离基于距离度量的其余数据的对象视为异常值。 主要包括三种方法:
1) 基于聚类的方法[7];
2) 基于距离的方法[8];
3) 基于密度的方法[9]。

对于基于聚类的方法,第一步是应用一种计算数据密集区域的聚类算法。然后通过测量对不同聚类的适应性来计算数据对象的离群因子。与基于距离的方法相比,它的一个重要优点是速度相对较快。这种方法的主要缺点是,它们可能并不总是在较小的数据集中提供所需的详细信息。基于聚类的方法的另一个问题是,在不同的随机执行或参数选择之间,异常值因子是高度可变的

基于距离的方法是各种数据领域中广泛使用的离群点检测算法,它基于最近邻距离定义离群点因子。与基于聚类的方法相比,它具有许多优点,因为分析的粒度更细。例如,它比聚类更好地基于算法的噪声和异常识别。此外,它还可以发现孤立的异常值,如基于聚类的方法。然而,大多数基于距离的算法都是采用欧几里德度量设计的。在实际应用中,欧几里德距离可能不是检测分类(标称)或混合(混合或异构)属性数据的异常值的最佳方法。

基于密度的方法应用空间特定区域中对象的数量来定义异常值。根据局部邻域密度,构造每个数据对象的局部离群因子(LOF)。然后,将LOF值高的数据对象识别为异常值。缺点是它对参数选择非常敏感,并且也使用欧几里德度量构造。

粗糙集理论(RST) 为不充分和不完整的基于数据的分类学习提供了数学工具。特别是,它为分类提供了一个正式的框架:属性约简、特征选择、分类学习、信息融合、入侵检测等,[11]-[18]。如上所述,大多数基于距离和基于密度的方法都使用欧几里德度量来计算数据对象之间的距离。
分类属性值之间没有固有的距离度量,因此无法有效地处理包含分类属性的数据。此外,在分析之后,我们发现大多数离群点检测方法基本上使用确定性的方法来表示和处理数据,并且不考虑数据集的不确定性和不完整性。然而,现实生活中收集的数据集存在着大量的不确定性和不完整性。由于这些原因,也提出了许多使用RST的检测方法[19]–[27]。
例如,Chen等人[19]提出了一种基于粒度计算(GrC)的检测方法。Jiang等人[20]利用RST扩展了两种检测方法,包括基于序列和基于距离的检测方法。Jiang等人[21]再次利用粗糙集中的信息熵扩展了一种新的检测方法。Albanese等人[23]利用一种新的RS方法,提出了一种时空数据离群点检测方法。在[24]中,介绍了一种基于粗糙集的计算高效算法,用于检测大量信息中的异常值。文献[25]从GrC和RST的角度介绍了一种新的检测方法。最近,Jiang等人[26]在粗糙集框架下提出了一种基于近似精度熵的离群点检测算法。Singh和Pamula[27]提出了一种基于粗糙集的大规模数据流离群点检测方法。

上述方法证明了基于粗糙集的离群点检测的有效性。**然而,这些方法基于等价关系建立数学模型,仅适用于类别属性,而不适用于数值(数值)属性数据。在这些检测模型中,处理数值属性数据时需要离散化,这增加了时间消耗和显著的信息损失。**为了处理混合数据类型,RST中考虑了邻域关系。林[28]将邻域和邻域关系引入RST。Yao[29]研究了邻域逼近空间的性质。Hu等人[30]–[32]提出了一种邻域粗糙集模型,并给出了一些特征选择算法。邻域粗糙集是用于数值或混合属性特征选择、分类、不确定性推理等的强大数据挖掘工具,[32],[33]。然而,近年来,在邻域粗糙集模型中,混合属性离群点检测很少有报道[34]–[37]。例如,Chen等人[34]引入了邻域模型作为构建邻域离群点检测的统一框架。
然而,该检测方法涉及邻域半径的多个参数,需要人为设置,因此具有很强的主观性和随机性。最近,基于邻域熵,Yuan等人[35]提出了一种混合数据驱动的离群点检测方法。然而,在该模型中,信息融合主要采用单一属性的融合技术,这可能在某些数据集上表现不佳。Wang和Li[36]提出了一种基于混合值加权网络模型的离群点检测方法,采用邻域粗糙集中的数据集。文献[37]中使用了基于邻域粗糙集的方法来检测原型异常值。

GrC是一种通用计算理论,用于使用颗粒为复杂应用建立高效的计算模型。作为一种新的信息处理概念和计算范式,GrC是研究数据挖掘和模式识别中许多问题的概念框架[38]–[41]。在此,钱等人[39]利用宇宙上的多重等价关系,将Pawlak的粗糙集模型扩展为多重粒化粗糙集模型。此外,Shannon[42]提出的信息熵是测量不确定度的竞争机制。为了度量粗糙集的不确定性,许多研究人员将信息熵应用于粗糙集,并提出了许多不同的信息熵模型[43]–[46]。然而,这些信息熵主要是基于经典粗糙集的。因此,胡和余[47]提出了邻域熵。

本文方法、主要贡献、本文结构

在本文中,我们构造了一种新的基于多粒度相对熵的离群点检测(MREOD)方法。
首先,该方法优化了异构邻域距离度量和统计值的邻域半径,构建了一个新的邻域信息系统(NIS)。
然后,利用[47]中提出的邻域熵来描述数据对象的不确定信息,定义了相对熵。
其次,根据序列和多重粒化的思想定义属性序列[20],[39]。随后,为了形成多邻域关系,基于属性序列定义了两种属性子集序列(正向序列和反向序列)。基于这三类序列,我们构造了三类多重粒化邻域熵序列集。相应地,得到了三种基于多重粒化相对熵的矩阵。
最后,计算基于多重粒化相对熵的离群因子(MREOF)来表征每个对象的离群度。并设计了相应的MREOD算法。
因此,本文的主要贡献如下。

1) 通过定义一个新的异构邻域距离度量,构造了一个新的NIS。
2) 采用一种新的邻域熵来定义三个序列。
3) 融合序列和多重粒度的思想,建立了离群点检测模型。
4) MREOD算法可以应用于三种类型的数据,包括分类数据、数值数据和混合属性数据。
5) 实验结果表明,该方法比现有的9种离群点检测方法具有更好的适应性和有效性。

本文其余部分的结构如下。在第二节中,我们回顾了与本文相关的邻域粗糙集和邻域熵的一些预备知识。在第三节中,我们提出了一种基于多粒度相对熵的混合属性离群点检测方法。第四节给出了实验结果和分析。最后,第五节对本文进行总结。

II. PRELIMINARIES

在本节中,我们回顾了邻域粗糙集[31],[47]中有关NIS和邻域熵的一些知识。
一个没有决策的信息系统(IS)可以形式化地表示为四重 I S = ( U , C , V , f ) IS=(U,C,V,f) IS=(U,C,V,f),其中 U = x 1 , x 2 , … , x n U={x_1,x_2,…,x_n} U=x1,x2,,xn是一个称为全总的非空有限对象集; C C C是条件属性的非空有限集; V = ∪ c ∈ C V c V= \cup_{c∈C}V_c V=cCVc是属性域 V c V_c Vc的并集;并且 f : U × C → V f:U×C→ V f:U×CV是一个信息函数: ∀ x ∈ U ∀x∈ U xU c ∈ C c∈ C cC s.t., f ( x , C ) ∈ V c f(x,C)∈ V_c f(x,C)Vc

A. Distance Metric 距离度量

对于 ∀ x 、 y , z ∈ U ∀x、 y,z∈ U xyzU上的距离函数 B ⊆ C B ⊆ C BC表示为 d B : U × U → [ 0 , + ∞ ) d_B:U×U→ [0,+∞) dB:U×U[0,+), 满足
1) d B ( x , y ) ≥ 0 d_B(x,y)≥0 dB(x,y)0, d B ( x , y ) = 0 d_B(x,y)=0 dB(x,y)=0当且仅当 x = y x=y x=y
2) d B ( x , y ) = d B ( y , x ) d_B(x,y)=d_B(y,x) dB(x,y)=dB(y,x)
3) d B ( x , z ) ≤ d B ( x , y ) + d B ( y , z ) d_B(x,z)≤d_B(x,y)+d_B(y,z) dB(x,z)dB(x,y)+dB(y,z)

有许多距离度量,例如Minkowski距离(包括曼哈顿距离、欧几里德距离和切比雪夫距离)、异质欧几里德重叠度量(HEOM)、值差度量(VDM)、异质VDM(HVDM)和插值VDM(IVDM)[48]。例如,C上的HEOM定义为:
在这里插入图片描述
w c k w_{c_k} wck是属性 c k c_k ck的权重, m a x c k max_{c_k} maxck m i n c k min_{c_k} minck分别表示属性 c k c_k ck的最大值和最小值。

从上面的定义中,我们可以看到HEOM可以处理数字属性和分类属性,并且在某些属性值未知时也可以使用。

B. Neighborhood Information System 邻域信息系统

由于等价关系和等价类只适用于求解分类属性数据集,基于距离度量,可以在粒度 U U U中引入邻域半径 ε ε ε,形成邻域和邻域类,从而得到一个NIS。

**定义1:**用于 ∀ B ⊆ C ∀B⊆ C BC x x x相对于 B B B的邻域 n B ( x ) n_B(x) nB(x)
在这里插入图片描述
n B ( x ) n_B(x) nB(x)包括在 B B B上的 x x x之间的距离不超过 ε ε ε的对象,因此它是基于距离的邻域粒子。

此外, n r B = { ( x i , x j ) ∣ x i , x j ∈ U , x j ∈ n B ( x i ) } nr_B=\{(x_i,x_j)|x_i,x_j∈ U, x_j∈ n_B(x_i)\} nrB={(xi,xj)xi,xjU,xjnB(xi)}定义为 U U U上的 B B B邻域关系,满足自反性和对称性,是一种相似关系。特别是,如果 ε B = 0 ε_B=0 εB=0 n r B nr_B nrB U U U上的等价关系,这种情况适用于分类属性数据; n r B nr_B nrB U U U上的相似关系,如果 ε B > 0 ε_B>0 εB>0,这种情况适用于数值属性数据。

C o v e r ( n r b ) Cover(nrb) Cover(nrb)表示 U U U的覆盖,称为 U U U上的邻域知识,定义 N R C = { n r B ∣ B ⊆ C } NR_C=\{nr_B|B⊆ C\} NRC={nrBBC}表示 U U U上的所有邻域关系,四元组 N I S = ( U , N R C , V , f ) NIS=(U,NR_C,V,f) NIS=(U,NRC,V,f)称为NIS。

显然,不同的距离度量和不同的ε可以得到不同的NIS。当 ε B = 0 ε_B=0 εB=0时, x x x的邻域类退化为 x x x的等价类,即 n B ( x ) = [ x ] B n_B(x)=[x]_B nB(x)=[x]B。NIS退化为经典IS。

C. Neighborhood Entropy 邻域熵

Hu等人提出的邻域熵可以处理分类属性数据和数值属性数据[47],如下所示。
定义2[47]: B B B x i x_i xi邻域不确定度通过以下公式计算:
在这里插入图片描述
其中|•|表示集合的基数•。

定义3[47]: B B B上的邻域熵 N H ( B ) NH(B) NH(B)
在这里插入图片描述

在上面的定义中,邻域熵是根据每个对象上邻域的平均不确定性来计算的。它可以度量邻域粗糙集的不确定性。如果 n r B nr_B nrB退化为清晰的等价关系,则提出的邻域熵与经典的香农熵相同。 这为混合属性异常检测方法的构建奠定了理论基础。

III. PROPOSED OUTLIER DETECTION METHOD 推荐的外部检测方法

提出了一种基于多粒度相对熵的混合属性离群点检测方法,主要包括问题分析、检测系统、检测方法和检测算法。

A. Problem Analysis

如引言中所述,现有一些方法的缺点总结如下。
1) 基于距离的方法和基于密度的方法通常应用于数值属性。
2) 基于粗糙集的方法只适用于分类属性。
3) [35]中提出的方法主要使用单属性集成技术,因此在某些数据集上的性能可能较弱。

为了说明[35]中算法NIEOD的局限性,下面给出一个例子。
在这里插入图片描述
在这里插入图片描述

例1:信息系统 I S = ( U , C , V , f ) IS=(U,C,V,f) IS=(U,C,V,f)如表1所示,其中 U = { x 1 , x 2 , … , x 8 } U=\{x_1,x_2,…,x_8\} U={x1x2x8} C = { c 1 , c 2 } C=\{c_1,c_2\} C={c1c2}。设 λ = 1 λ=1 λ=1,表I最后一列列出了相关的递减NEOF值。给定阈值 μ = 0.69 μ=0.69 μ=0.69,只有 N E O F ( x 7 ) > μ NEOF(x_7)>μ NEOF(x7)>μ N E O F ( x 1 ) > μ NEOF(x_1)>μ NEOF(x1)>μ。因此,离群值集是 O S = { x 1 , x 7 } OS=\{x1,x7\} OS={x1x7}。由于 N E O F ( x 8 ) < μ NEOF(x_8)<μ NEOF(x8)<μ x 8 x_8 x8不被认为是异常值。然而,图1所示的数据分布表明, x 1 x_1 x1 x 8 x_8 x8在某种程度上是客观的异常值。我们可以看到,算法NIEOD没有正确地将 x 8 x_8 x8识别为异常值,这导致了一个弱点。

针对上述问题分析,本部分构建了一种基于多粒度相对熵的混合属性离群点检测方法。

B. Detection System

在这一部分中,我们构建了一个用于离群点检测的NIS,主要包括归一化预处理、邻域度量的选择和邻域半径的标准设置。

数值特征中数据的维数通常是不同的。为了避免数据维数对数据挖掘结果的影响,在数据处理之前对原始数值属性数据进行归一化处理。本文使用最小-最大归一化方法,如下所示:
在这里插入图片描述
标准化后,这些数值属性的属性值范围为[0,1]。

为了有效处理异构属性数据,在[48]中提出了一种HEOM方法。类似地,异构曼哈顿重叠度量(HMOM)可定义如下。
定义4(HMOM):用于 ∀ x 、 y ∈ U ∀x、 y∈ U xyU,让 B = { c k 1 , c k 2 , … , c k l } ( 1 ≤ l ≤ m ) ⊆ C B=\{c_{k_1},c_{k_2},…,c_{k_l}\}(1≤l≤ m)⊆ C B={ck1ck2ckl}1lmC. B B B x x x y y y H M O M B ( x , y ) HMOM_B(x,y) HMOMB(x,y)定义为
在这里插入图片描述
现实生活中的大多数数据都是异构的。从上面的定义可以看出,HMOM不仅可以处理数字数据,还可以同时处理数字属性和分类属性相结合的复杂数据。因此,本文采用HMOM作为邻域距离度量。为扩大适用范围奠定了基础。

邻域的获取涉及邻域半径,邻域半径通常由专家根据经验确定[31]、[34]、[47]。例如,如果采用[34]中邻域半径的设置方法,所涉及的参数将多达属性数m。显然,这是主观和随机的,这导致了算法对参数选择的敏感性。此外,降低算法对专家指定参数的敏感性是提高算法精度的客观依据。一种更合理的方法是将属性值的实际值分布信息与专家给出的参数相融合来确定邻域半径。因此,对象 x x x相对于属性 c k c_k ck的邻域半径被设置为[35]
在这里插入图片描述
其中 s t d ( c k ) std(c_k) std(ck)表示数值属性值的标准偏差,而 δ δ δ是半径调整的参数。
标准偏差 s t d ( c k ) std(c_k) std(ck)用于测量数据集的分散程度。当 δ < 1 δ<1 δ<1时,邻域半径大于 s t d ( c k ) std(c_k) std(ck);如果 δ = 1 δ=1 δ=1,则邻域半径等于 s t d ( c k ) std(c_k) std(ck);当 δ > 1 δ>1 δ>1时,邻域半径小于 s t d ( c k ) std(c_k) std(ck)

综上所述, s t d ( c k ) std(c_k) std(ck)是调整邻域半径的一个重要因素,因此增加了更科学的统计性和客观性。为后续检测方法的适应性和有效性奠定了基础。

此外,对象B上的邻域半径设置为 ε B = ∑ h = 1 l ε k h ε_B= \sum_{h=1}^lε_{k_h} εB=h=1lεkh。当数值属性和分类属性共存时,假设 B 1 B1 B1 B 2 ⊆ C B2⊆ C B2C可以是数字属性,也可以是分类属性。然后, x x x的邻域定义如下[31]。
在这里插入图片描述
通过上述归一化,HMOM度量, ε ε ε n B ( x ) n_B(x) nB(x) n r B nr_B nrB C o v e r ( n r B ) Cover(nr_B) Cover(nrB),然后建立NIS。在下一节中,将构造MREOF以指示 U U U中每个对象 x x x的异常度。

C. Detection Method

Hu和Yu提出了邻域熵[47],它是根据每个对象在U中邻域的平均不确定性计算得出的。但是每个对象可能具有相同的邻域基数,这可能导致不确定性信息的冗余。因此,为了有效地构建离群点检测模型,通过不同邻域的不确定性之和属于U的程度来计算邻域熵,定义如下。给定 δ > 0 δ>0 δ>0,对于 ∀ n r B ∈ N R C ∀nr_B∈ NR_C nrBNRC D N U ( n r B ) = { N 1 , N 2 , … , N s } DN_U(nr_B)=\{N_1,N_2,…,N_s\} DNU(nrB)={N1N2Ns}表示U上的不同邻域。
定义5 n r B nr_B nrB上的邻域熵 N E ( B ) NE(B) NE(B)定义为
在这里插入图片描述

在上述定义中,如果 D N U ( n r B ) = U DN_U(nr_B)=U DNU(nrB)=U,则邻域熵 N E ( B ) NE(B) NE(B)达到最小值0。如果 D N U ( n r B ) = U = { { x 1 } , . . . , { x n } } DN_U(nr_B)=U=\{\{x_1\},...,\{x_n\}\} DNU(nrB)=U={{x1},...,{xn}},然后 N E ( B ) NE(B) NE(B)达到最大值 l o g 2 n log_2n log2n,所以我们得到 0 ≤ N E ( B ) ≤ l o g 2 n 0≤ NE(B) ≤ log_2n 0NE(B)log2n

为了构造基于多粒化相对熵的离群因子,提出了一种基于邻域熵的相对熵概念,该概念反映了 U U U

定义6:对于 ∀ x ∈ U ∀x∈ U xU,用 D N U − { x } ( n r B ) = { N 1 ′ , N 2 ′ , . . . , N s ′ ′ } DN_{U-\{x\}}(nr_B)=\{N_1',N_2',...,N_{s'}'\} DNU{x}(nrB)={N1,N2,...,Ns}来表示 s ′ s' s U − { x } U-\{x\} U{x}上的不同邻居。那么 x x x的相对熵 R E B ( x ) RE_B(x) REB(x)关于 n r B nr_B nrB的定义如下
在这里插入图片描述
其中, N E x ( B ) = − ( 1 / ∣ U − { x } ∣ ) ∑ r = 1 s ′ l o g 2 ( ∣ N r ′ ∣ / ∣ U − { x } ∣ ) NE_x(B)=-(1/|U-\{x\}|)\sum_{r=1}^{s'}log_2(|N_r'|/|U-\{x\}|) NEx(B)=(1/U{x})r=1slog2(Nr/U{x})表示从 U U U中移除 x x x n r B nr _B nrB上的邻域熵。

N E x ( B ) NE_x(B) NEx(B)可以测量 x x x的不确定性。当我们从U中删除x时,一方面,如果 N E x ( B ) NE_x(B) NEx(B)大大减小,那么我们可以考虑x的不确定性是高的。另一方面,如果 N E x ( B ) NE_x(B) NEx(B)变化不大或甚至增加,那么我们可以认为 x x x的不确定性是低的。然后,基于 N E x ( B ) NE_x(B) NEx(B)及其语义, R E B ( x ) RE_B(x) REB(x)给出了 x x x的不确定度的度量。具体地说, x x x的相对熵 R E B ( x ) RE_B(x) REB(x)越低, x x x的不确定度越高。

此外,权重函数对异常值因子和检测结果有积极影响,但它是一个经验函数。为了得到更准确的异常值检测结果,基于大量实验,权重量定义如下。
定义7: n r B nr_B nrB上x的加权函数 w B ( x ) w_B(x) wB(x)
在这里插入图片描述
上述权重函数设置背后的基本思想是,检测方法始终关注少数群体,因为属于少数群体的对象更可能是异常值。因此,属于少数群体的对象应具有较低的权重。在(10)中,如果 x x x附近几乎没有样本,那么 x x x U U U中的百分比很小,对应于少数群体和较低的权重。显然,我们有 w B ( x ) ∈ ( 0 , 1 ] w_B(x)∈ (0,1] wB(x)(0,1].

从上述定义6和7可以看出,通过不同的邻域关系可以得到不同的相对熵和权函数。每个 B ⊆ C B⊆C BC确定邻域关系 n r B nr_B nrB,它也被视为NIS中的邻域知识。因此,存在 2 ∣ C ∣ 2^{|C|} 2C个不同的邻域关系,可用于构建知识库。显然,我们可以通过使用 2 ∣ C ∣ 2^{|C|} 2C邻域关系来计算每个对象的 R E B ( x ) RE_B(x) REB(x) W B ( x ) W_B(x) WB(x)来获得更多的数据信息。然而,利用所有这些关系来计算 R E B ( x ) RE_B(x) REB(x) W B ( x ) W_B(x) WB(x)是不可行的。它的时间复杂度将在 ∣ C ∣ |C| C上呈指数级。因此,我们采取了有效的策略。即构造一类属性序列和两类属性子集序列来计算 R E B ( x ) RE_B(x) REB(x) W B ( x ) W_B(x) WB(x)

定义8:属性的序列S定义为
在这里插入图片描述
其中, N E ( { c k ′ } ) ≤ N E ( { c k + 1 ′ } ) NE(\{c_k'\})≤NE(\{c_{k+1}'\}) NE({ck})NE({ck+1})

进一步从单条件属性集( c 1 ′ c_1' c1 c m ′ c_m' cm)开始,每次使用正向或反向方式从S添加属性,直到获得包含所有条件属性的集。因此,可以确定属性子集的两种序列。

定义9:属性子集的正向序列FS和反向序列RS分别定义为
在这里插入图片描述
其中, C j ⊆ C C_j⊆C CjC C m = C C_m=C Cm=C C 1 = { c 1 ′ } C_1=\{c_1'\} C1={c1} C k + 1 = C k ∪ { c k + 1 ′ } C_{k+1}=C_k ∪\{c_{k+1}'\} Ck+1=Ck{ck+1} C k ′ ⊆ C C_k'⊆C CkC C 1 ′ = { c m ′ } C_1'=\{c_m'\} C1={cm} C m ′ ⊆ C C_m'⊆C CmC C k + 1 ′ = C k ′ ∪ { c m − k ′ } C_{k+1}'=C_k' ∪\{c_{m-k}'\} Ck+1=Ck{cmk}.

根据上述定义8和9,三种属性序列中的每个属性集可以确定邻域关系,从而获得关于邻域关系的邻域熵。因此,在三个属性序列S、FS和RS的基础上构造了三种多粒度熵序列。

定义10:三种多重粒化熵序列分别定义为
在这里插入图片描述
在此基础上,构造了三类基于多重粒化相对熵的矩阵。

定义11:三种基于多重粒化相对熵的矩阵分别定义为
在这里插入图片描述同样,可以得到三种基于多重粒化权函数的矩阵。

定义12:三种基于多重粒化权函数的矩阵分别定义为
在这里插入图片描述定义13:平均多粒化相对熵和基于权重函数的矩阵分别由计算得出
在这里插入图片描述
平均多粒度相对邻域矩阵的构造融合了三种属性序列的信息,为构建基于多粒度相对熵的离群因子奠定了基础。

在现实生活中,对于许多复杂的数据场景,为每个对象指定一个更高的级别更有意义。因此,Breunig等人[9]提出了一种基于密度的局部离群点识别方法。本文基于平均多粒化相对熵和基于权函数的矩阵,构造MREOF来表示每个对象的离群度。

定义14:用于 ∀ x i ∈ U ∀x_i∈ U xiU x i x_i xi的基于多重粒化相对熵的离群因子 M R E O F ( x i ) MREOF(x_i) MREOF(xi)定义为
在这里插入图片描述
式中, A E M ( i , k ) AEM(i,k) AEM(i,k) A W M ( i , k ) AWM(i,k) AWM(i,k)分别表示平均多重粒化相对熵和基于权函数的矩阵的第 i i i行和第 k k k列中的元素。

定义15:设 μ μ μ为判断阈值。对于 ∀ x i ∈ U ∀x_i∈U xiU,如果 M R E O F ( x i ) > μ MREOF(x_i)>μ MREOF(xi)>μ,那么 x i x_i xi称为基于多粒度相对熵的离群值。

例2(续例1):设 δ = 1 δ=1 δ=1,表II中列出了相关的下降 M R E O F MREOF MREOF值。给定阈值 μ = 0.54 μ=0.54 μ=0.54,有 M R E O F ( x 8 > μ MREOF(x_8>μ MREOF(x8>μ M R E O F ( x 7 ) > μ MREOF(x_7)>μ MREOF(x7)>μ。因此,离群值集是 O S = x 7 , x 8 OS={x_7,x_8} OS=x7,x8。与 N I E O D NIEOD NIEOD算法相比, M R E O D MREOD MREOD算法考虑了序列和多重粒度的思想,能够准确地检测出所有的目标异常值.

在这里插入图片描述
在这里插入图片描述

通常,检测方法只给出对象的异常值因子。在采用检测方法之前,用户应首先输入经验值 e v ev ev,以表示异常值的预期数量。在我们的MREOD方法中, μ μ μ可以通过以下数字 e v ev ev确定[35]。

为了进一步说明上述思想,图2中绘制了离群点检测框架。

在这里插入图片描述

D. Detection Algorithm

在这一部分中,我们提出并设计了相应的算法(MREOD)。

对于算法MREOD,步骤2-5的复杂度为 m × n × n m×n×n m×n×n,步骤8-11的复杂度为 m m m,步骤12-21的复杂度为 m × n m×n m×n。因此,算法MREOD的复杂度为 m × n × n + m + m × n m×n×n+m+m×n m×n×n+m+m×n。因此,在最坏情况下,算法MREOD的时间复杂度为 O ( m n 2 ) O(mn^2) O(mn2)

IV. DATA EXPERIMENTS(实验)

在本节中,为了评估算法MREOD的有效性,选择了14个数据集(包括分类、数字和混合属性)进行实验。1为了形成非常不平衡的分布,使用[49]和[50]中提出的下采样方法获得一些数据集,以评估离群点检测方法。对特定类进行随机下采样以产生异常值,而保留其余类的所有对象以形成异常值检测数据集。此外,对于数据集的缺失值,采用最大概率值法

在本节中,为了评估算法MREOD的有效性,选择了14个数据集(包括分类、数字和混合属性)进行实验。1为了形成非常不平衡的分布,使用[49]和[50]中提出的下采样方法获得一些数据集,以评估离群点检测方法。对特定类进行随机下采样以产生异常值,而保留其余类的所有对象以形成异常值检测数据集。另外,对于数据集的缺失值,采用最大概率值法来填充缺失值,即用其他对象上频率最高的属性值来填充缺失的属性值。特别是,对于数据集信用,忽略缺少一个或多个值的37个对象。表三概述了数据集的预处理和说明。

在这14个数据集上,我们比较了算法MREOD与基于距离的方法(DIS)[51]、基于k-最近邻(kNN)的方法[52]、基于密度的方法(LOF)[9]、基于聚类的方法(查找基于聚类的局部离群因子、FindCBLOF)[7]、基于GrC的方法[19]、基于序列和基于RS的方法(SEQ)[20],基于信息熵(IE)的方法[21],基于GrC和RST的方法(基于GrC和粗糙集的离群点检测,ODGrCR)[25],以及基于NIEOD的方法[35]。其中,DIS、kNN和LOF算法相对简单,仅适用于数值属性数据。算法FindCBLOF与聚类有很好的相关性,但它只适用于分类属性数据。

算法GrC、SEQ、IE和ODGrCR是以粗糙集为框架的离群点检测算法。它们只适用于分类属性数据,而对于数值属性数据,则需要进行离散化预处理。NIEOD算法适用于只考虑单个属性信息的混合属性数据。

A. Experimental Setup 实验装置

在我们的实验中,对于算法MREOD和NIEOD,需要分别设置参数 λ λ λ δ δ δ。我们计算了步长为 0.1 0.1 0.1时参数 λ λ λ δ δ δ [ 0.1 , 2 ] [0.1,2] [0.1,2]范围内的最佳值。我们对14个数据集重复算法kNN和LOF,并计算其各自参数 k k k和MinPts在 [ 1 , n / 4 ] [1,n/4] [1,n/4]范围内的最佳值,步长为1。算法FindCBLOF所需的两个参数 α α α β β β分别设置为90%和5[7]。算法FindCBLOF的最佳值 s s s [ 1 , 10 ] [1,10] [1,10]范围内计算,步长为1。对于算法GrC,重叠距离度量用于计算任意两个对象之间的距离[19],其参数 d = ∣ C ∣ / w d=|C|/w d=C/w。我们在 [ 1 , 10 ] [1,10] [1,10]范围内计算 w w w的整数最优值。此外,对于SEQ、IE和ODGrCR算法, I S W b IS_{Wb} ISWb I S L y IS_{Ly} ISLy中的所有条件属性值都被视为分类类型[7]。对于剩余的具有数值属性的数据集,采用基于等宽度(EW)和等频率(EF)的离散化方法将所有数值属性值转换为具有三个区间数的离散形式,最终采用效果最好的离散化方法。对于DIS、kNN和LOF算法,采用欧几里德距离度量。将所有不同的分类属性值替换为不同的整数值,然后使用最小-最大规格化将所有属性值规格化为[0,1]间隔。此外,在传统的基于DIS的方法中,离群值被视为二进制属性。显然,这是不合理的。因此,使用[21]的策略来定义距离离群因子,以表示每个对象的离群度。最后,不同数据集的最佳参数设置和离散化方法如表IV所示。
在这里插入图片描述
对于所有算法,它们的性能都由Aggarwal和Yu[10]以及Yuan等人[35]介绍的评估方法。它主要包括“最高比率(对象数量)”和“包含的异常值数量(覆盖率)”首先,使用10种离群点检测算法计算每个对象的离群点因子。然后,通过 M R E O F ( x i ) MREOF(x_i) MREOF(xi)按升序对所有对象进行排序。然后,让 O S t o p OS_{top} OStop表示top t对象集, O S t r u e OS_{true} OStrue表示 U U U中的真实异常值集。因此,对于每个算法,“对象数”等于 ∣ O S t o p ∣ = t |OS_{top}|=t OStop=t,“包含的真实异常值数”等于 ∣ O S i n c ∣ = O S t o p ∩ O S t r u e ∣ |OS_{inc}|=OS_{top}∩OS_{true}| OSinc=OStopOStrue,而最高比率 T R TR TR和覆盖率 C R CR CR分别计算如下
在这里插入图片描述
显然,CR越高,算法工作得越好。使用这种方法,MREOD的参数只需设置 δ δ δ δ δ δ用于根据标准偏差调整邻域半径。

B. Mixed Attribute Data Set 混合属性数据集

如表V所示,在大多数混合属性数据集上,算法MREOD的CR高于其他算法。

例如,对于 I S C r IS_{Cr} ISCr,当 t t t为43(TR为11.26%)时,由算法MREOD检测到的 ∣ O S i n c ∣ |OS^{inc}| OSinc为25。但对于算法DIS、kNN、LOF、FindCBLOF、GrC、SEQ、IE、ODGrCR和NIEOD,分别只发现了20、19、15、19、21、22、22、20和21个异常值。就IS_{Hea}和IS_{Hep}而言,可以分析相同的结果。

算法MREOD考虑了属性序列的集成。而NIEOD算法只考虑单个属性的信息。因此,MREOD算法在理论上应该优于MREOD算法。然而,在 I S G e IS_{Ge} ISGe中,算法MREOD略弱于算法NIEOD,这可能是由于数据分布异常造成的。

在对比实验中,算法MREOD只涉及一个参数 δ δ δ δ δ δ的波动会导致算法计算的CR值发生变化。CR随 δ δ δ的变化如图3所示,其中包含表V中的一些顶级TR。
在这里插入图片描述
例如,根据图3(a),我们可以分析TR水平为11.26%( t t t等于43)时CR的变化。具体来说,对于算法MREOD,其实验结果一般随着 δ δ δ的增大先增大后减小。此外,当 δ = 0.4 δ=0.4 δ=0.4时,算法MREOD达到最佳结果,即检测到的异常值数量最多。如图3(a)所示,当选择其他级别时,对于算法MREOD可以获得类似的结果。在 δ δ δ的最大范围内,MREOD算法检测到的异常值数量大于其他九种算法。

综上所述,与其他九种算法相比,MREOD算法对于混合属性数据集具有更好的性能。因此,我们可以看到,它可以有效地用于混合属性数据。

C. Numerical Attribute Data Set 数字属性数据集

表VI中数值属性数据集的实验结果表明,算法MREOD的性能明显优于算法NIEOD、ODGrCR、IE、SEQ、GrC、FindCBLOF、LOF、DIS和kNN。

在这里插入图片描述

对于算法MREOD,CR随δ变化的变化如图4所示。表六中还包含一些顶级TR。

例如,对于图4(g)中的TR水平为9.11%( t t t等于44),当 δ ≥ 0.5 δ≥ 0.5 δ0.5,算法MREOD在 I S W b IS_{Wb} ISWb中一般具有稳定性和优化性。算法MREOD在以下情况下获取包含的最大离群值数:
δ = 0.5 δ = 0.5 δ=0.5.

在这里插入图片描述

综上所述,对比实验结果表明,算法MREOD对数值属性数据集也有很好的效果。

D. Categorical Attribute Data Set 分类属性数据集

分类属性数据集的对比实验结果如表七所示。从表七可以看出,MREOD算法的性能优于其他九种算法。比较实验结果表明,MREOD算法同样适用于分类数据集。
在这里插入图片描述

V. CONCLUSION

本文提出了一种基于多粒度相对熵的混合属性离群点检测方法。基于新的NIS和邻域熵,融合了序列和多重粒度的思想,建立了离群点检测模型。因此,该方法弥补了现有方法的不足,适合于分类数字和混合属性数据集。对比实验结果表明,该方法具有较好的适应性和有效性。很少有人研究使用邻域粗糙集技术的离群点检测方法。本文的工作丰富了邻域粗糙集在数据挖掘中的应用,为混合属性离群点检测提供了一种新的方法。在未来的工作中,为了有效地处理动态数据,可以进一步研究增量异常检测方法。

REFERENCES

[1] D. M. Hawkins, Identification of Outliers. New York, NY, USA:Springer, 1980.
[2] N. Zhou, Y. Y. Xu, H. Cheng, Z. J. Yuan, and B. D. Chen, “Maximum correntropy criterion-based sparse subspace learning for unsupervised feature selection,” IEEE Trans. Circuits Syst. Video Technol., vol. 29, no. 2, pp. 404–417, Feb. 2019.
[3] C. C. Aggarwal, Outlier Analysis. Cham, Switzerland: Springer, 2016.
[4] H. W. Liu, X. L. Li, J. Y. Li, and S. C. Zhang, “Efficient outlier detection for high-dimensional data,” IEEE Trans. Syst., Man, Cybern., Syst., vol. 48, no. 12, pp. 2451–2461, Dec. 2018.
[5] J. L. Li, J. F. Zhang, P. Ning, and Q. Xiao, “Weighted outlier detection of high-dimensional categorical data using feature grouping,” IEEE Trans. Syst., Man, Cybern., Syst., vol. 50, no. 11, pp. 4295–4308, Nov. 2020.
[6] F. Y. Edgeworth, “XLI. On discordant observations,” London Edinburgh Dublin Philos. Mag. J. Sci., vol. 23, no. 143, pp. 364–375, 1887.
[7] Z. Y. He, X. F. Xu, and S. C. Deng, “Discovering cluster-based local outliers,” Pattern Recognit. Lett., vol. 24, nos. 9–10, pp. 1641–1650, 2003.
[8] E. M. Knorr and R. T. Ng, “Algorithms for mining distance-based outliers in large datasets,” in Proc. Int. Conf. Very Large Data Bases, 1998, pp. 392–403.
[9] M. M. Breunig, H. P. Kriegel, R. T. Ng, and J. Sander, “LoF: Identifying density-based local outliers,” ACM SIGMOD Rec., vol. 29, no. 2, pp. 93–104, 2000.
[10] C. C. Aggarwal and P. S. Yu, “Outlier detection for high dimensional data,” ACM SIGMOD Rec., vol. 30, no. 2, pp. 37–46, 2001.
[11] D. G. Chen and Y. Y. Yang, “Attribute reduction for heterogeneous data based on the combination of classical and fuzzy rough set models,” IEEE Trans. Fuzzy Syst., vol. 22, no. 5, pp. 1325–1334, Oct. 2014.
[12] S. Y. Xia, Z. Zhang, W. H. Li, G. Y. Wang, E. Giem, and Z. Z. Chen, “GBNRS: A novel rough set algorithm for fast adaptive attribute reduc- tion in classification,” IEEE Trans. Knowl. Data Eng., early access, May 25, 2020, doi: 10.1109/TKDE.2020.2997039.
[13] G. Yasmin, A. K. Das, J. Nayak, D. Pelusi, and W. Ding, “Graph based feature selection investigating boundary region of rough set for language identification,” Exp. Syst. Appl., vol. 158, May 2020, Art. no. 113575.
[14] H. M. Chen, T. R. Li, C. Luo, S. J. Horng, and G. Y. Wang, “A decision- theoretic rough set approach for dynamic data mining,” IEEE Trans. Fuzzy Syst., vol. 23, no. 6, pp. 1958–1970, Dec. 2015.
[15] D. C. Liang, W. Pedrycz, and D. Liu, “Determining three-way decisions with decision-theoretic rough sets using a relative value approach,” IEEE Trans. Syst., Man, Cybern., Syst., vol. 47, no. 8, pp. 1785–1799, Aug. 2017.
[16] P. F. Zhang et al., “Multi-source information fusion based on rough set theory: A review,” Inf. Fusion, vol. 68, pp. 85–117, Apr. 2021.
[17] M. Prasad, S. Tripathi, and K. Dahal, “An efficient feature selection based Bayesian and rough set approach for intrusion detection,” Appl. Soft Comput., vol. 87, Jan. 2020, Art. no. 105980.
[18] X. Y. Zhang, H. Y. Gou, Z. Y. Lv, and D. Q. Miao, “Double-quantitative distance measurement and classification learning based on the tri-level granular structure of neighborhood system,” Knowl. Based Syst., vol. 217, nos. 1–4, 2021, Art. no. 106799.
[19] Y. M. Chen, D. Q. Miao, and R. Z. Wang, “Outlier detection based on granular computing,” in Proc. Int. Conf. Rough Sets Current Trends Comput., 2008, pp. 283–292.
[20] F. Jiang, Y. F. Sui, and C. G. Cao, “Some issues about outlier detection in rough set theory,” Exp. Syst. Appl., vol. 36, no. 3, pp. 4680–4687, 2009.
[21] F. Jiang, Y. F. Sui, and C. G. Cao, “An information entropy-based approach to outlier detection in rough sets,” Exp. Syst. Appl., vol. 37, no. 9, pp. 6338–6344, 2010.
[22] F. Jiang, Y. F. Sui, and C. G. Cao, “A hybrid approach to outlier detection based on boundary region,” Pattern Recognit. Lett., vol. 32, no. 14, pp. 1860–1870, 2011.
[23] A. Albanese, S. K. Pal, and A. Petrosino, “Rough sets, kernel set, and spatiotemporal outlier detection,” IEEE Trans. Knowl. Data Eng., vol. 26, no. 1, pp. 194–207, Jan. 2014.
[24] F. Maciá-Pérez, J. V. Berna-Martinez, A. F. Oliva, and M. A. A. Ortega, “Algorithm for the detection of outliers based on the theory of rough sets,” Decis. Support Syst., vol. 75, pp. 63–75, Jul. 2015.
[25] F. Jiang and Y. M. Chen, “Outlier detection based on granular computing and rough set theory,” Appl. Intell., vol. 42, no. 2, pp. 303–322, 2015.
[26] F. Jiang, H. B. Zhao, J. W. Du, Y. Xue, and Y. J. Peng, “Outlier detection based on approximation accuracy entropy,” Int. J. Mach. Learn. Cybern., vol. 10, no. 9, pp. 2483–2499, Aug. 2019.
[27] M. Singh and R. Pamula, “An outlier detection approach in large scale data stream using rough set,” Neural Comput. Appl., vol. 32, pp. 9113–9127, 2020.
[28] T. Y. Lin, “Neighborhood systems and relational databases,” in Proc. ACM 16th Annu. Conf. Comput. Sci., 1988, p. 725.
[29] Y. Y. Yao, “Relational interpretations of neighborhood operators and rough set approximation operators,” Inf. Sci., vol. 111, nos. 1–4, pp. 239–259, 1998.
[30] Q. H. Hu, D. R. Yu, J. F. Liu, and C. X. Wu, “Neighborhood rough set based heterogeneous feature subset selection,” Inf. Sci., vol. 178, no. 18, pp. 3577–3594, 2008.
[31] Q. H. Hu, J. F. Liu, and D. R. Yu, “Mixed feature selection based on granulation and approximation,” Knowl. Based Syst., vol. 21, no. 4, pp. 294–304, 2008.
[32] Q. H. Hu, D. R. Yu, and Z. X. Xie, “Neighborhood classifiers,” Exp. Syst. Appl., vol. 34, no. 2, pp. 866–876, 2008.
[33] H. M. Chen, T. R. Li, Y. Cai, C. Luo, and H. Fujita, “Parallel attribute reduction in dominance-based neighborhood rough set,” Inf. Sci., vol. 373, pp. 351–368, Dec. 2016.
[34] Y. M. Chen, D. Q. Miao, and H. Y. Zhang, “Neighborhood outlier detection,” Exp. Syst. Appl., vol. 37, no. 12, pp. 8745–8749, 2010.
[35] Z. Yuan, X. Y. Zhang, and S. Feng, “Hybrid data-driven outlier detection based on neighborhood information entropy and its developmental measures,” Exp. Syst. Appl., vol. 112, pp. 243–257, May 2018.
[36] Y. Wang and Y. P. Li, “Outlier detection based on weighted neighbourhood information network for mixed-valued datasets,” Inf. Sci., vol. 564, pp. 396–415, Jul. 2021.
[37] P. Y. Goh, S. C. Tan, W. P. Cheah, and C. P. Lim, “Adaptive rough radia basis function neural network with prototype outlier removal,” Inf. Sci., vol. 505, pp. 127–143, Dec. 2019.
[38] Y. Y. Yao, “Granular computing: Past, present, and future,” in Rough Sets and Knowledge Technology. Berlin, Germany: Springer, 2008, pp. 27–28.
[39] Y. H. Qian, J. Y. Liang, Y. Y. Yao, and C. Y. Dang, “MGRS: A multigranulation rough set,” Inf. Sci., vol. 180, no. 6, pp. 949–970, 2010.
[40] S. K. Pal, S. K. Meher, and S. Dutta, “Class-dependent rough-fuzzy granular space, dispersion index and classification,” Pattern Recognit., vol. 45, no. 7, pp. 2690–2707, 2012.
[41] J. T. Yao, A. V. Vasilakos, and W. Pedrycz, “Granular computing: Perspectives and challenges,” IEEE Trans. Cybern., vol. 43, no. 6, pp. 1977–1989, Dec. 2013.
[42] C. E. Shannon, “A mathematical theory of communication,” Bell Syst. Tech. J., vol. 27, no. 3, pp. 379–423, 1948.
[43] J. Y. Liang, Z. Z. Shi, D. Y. Li, and M. J. Wierman, “Information entropy, rough entropy and knowledge granulation in incomplete information systems,” Int. J. Gen. Syst., vol. 35, no. 6, pp. 641–654, 2006.
[44] J. Y. Liang, J. H. Wang, and Y. H. Qian, “A new measure of uncertainty based on knowledge granulation for rough sets,” Inf. Sci., vol. 179, no. 4, pp. 458–470, 2009.
[45] J. H. Dai, B. J. Wei, X. H. Zhang, and Q. L. Zhang, “Uncertainty measurement for incomplete interval-valued information systems based on α-weak similarity,” Knowl. Based Syst., vol. 136, pp. 159–171, Nov. 2017.
[46] Q. H. Zhang, S. H. Yang, and G. Y. Wang, “Measuring uncertainty ofprobabilistic rough set model from its three regions,” IEEE Trans. Syst., Man, Cybern., Syst., vol. 47, no. 12, pp. 3299–3309, Dec. 2017.
[47] Q. H. Hu and D. R. Yu, “Neighborhood entropy,” in Proc. Int. Conf. Mach. Learn. Cybern., vol. 3, 2009, pp. 1776–1782.
[48] D. R. Wilson and T. R. Martinez, “Improved heterogeneous distance functions,” J. Artif. Intell. Res., vol. 6, pp. 1–34, Jan. 1997.
[49] G. O. Campos et al., “On the evaluation of unsupervised outlier detection: Measures, datasets, and an empirical study,” Data Min. Knowl. Disc., vol. 30, no. 4, pp. 891–927, 2016.
[50] Z. Yuan, H. M. Chen, T. R. Li, J. Liu, and S. Wang, “Fuzzy information entropy-based adaptive approach for hybrid feature outlier detection,” Fuzzy Sets Syst., vol. 421, pp. 1–28, Sep. 2021.
[51] E. M. Knorr, R. T. Ng, and V. Tucakov, “Distance-based outliers: Algorithms and applications,” VLDB J., vol. 8, no. 3, pp. 237–253, 2000.
[52] S. Ramaswamy, R. Rastogi, and K. Shim, “Efficient algorithms for mining outliers from large data sets,” ACM SIGMOD Rec., vol. 29, no. 2, pp. 427–438, 2000.

在这里插入图片描述
在这里插入图片描述

举报

相关推荐

0 条评论