1.上周回顾
这周刚开始写
2. 本周计划
完成信息熵与互信息的理论部分,继续完成论文第三部分方法论的书写。
3. 完成情况
3.1 信息熵简单介绍
信息熵是信息论中的一个概念,用于衡量一个随机变量的不确定性或信息量的平均值。它是由香农于1948年提出的,被广泛应用于信息理论、统计学和通信领域。
在信息论中,一个随机变量的熵表示为H(X),其中X是该随机变量。熵的单位通常用比特(bits)来衡量,也可以用纳特(nats)或其他适当的单位。
熵的计算公式为:
H
(
x
)
=
−
Σ
P
(
x
)
log
P
(
x
)
H(x)=-\Sigma P(x)\log P(x)
H(x)=−ΣP(x)logP(x)
其中,
P
(
x
)
P(x)
P(x)是随机变量X取值为x的概率,
Σ
\Sigma
Σ表示对所有可能的取值求和,
log
\log
log是以某个基数为底的对数运算。
信息熵的直观解释是,如果一个随机变量的熵较高,表示该变量的取值具有较大的不确定性,即我们需要更多的信息来描述或预测它。相反,如果一个随机变量的熵较低,表示该变量的取值具有较小的不确定性,即我们需要较少的信息来描述或预测它。
信息熵在数据压缩、数据传输、密码学等领域具有重要的应用。在数据压缩中,熵被用来衡量数据的冗余性,从而实现更高效的压缩算法。在数据传输中,熵被用来衡量信道的容量,以确定最大可靠传输速率。在密码学中,熵被用来衡量密码算法的安全性,以评估密码密钥的强度。
3.1.1 信息熵公式推导
信息熵的公式推导可以从信息量的基本定义开始,并应用一些概率和信息论的基本原理。
- 信息量的基本定义: 首先,我们引入一个事件的信息量的概念,记作 l ( x ) l(x) l(x),表示事件x发生时所提供的信息量。根据直觉,我们可以假设信息量与事件发生的概率成反比,即事件发生的概率越低,提供的信息量越大。于是,我们可以使用事件的概率的倒数来表示信息量,即 l ( x ) = 1 / P ( x ) l(x) =1/P(x) l(x)=1/P(x)
- 信息量的期望:对于一个随机变量
X
X
X,它可以取多个不同的取值
x
1
,
x
2
,
x
3
⋯
x
n
x_{1},x_{2},x_{3}\cdots x_{n}
x1,x2,x3⋯xn, 对应的概率分别为
P
(
x
1
)
,
P
(
x
2
)
,
P
(
x
3
)
,
⋯
P
(
x
n
)
P(x_{1}),P(x_{2}),P(x_{3}),\cdots P(x_{n})
P(x1),P(x2),P(x3),⋯P(xn)。我们可以计算每个取值的信息量,并根据概率加权求和得到期望信息量。即
E
[
I
(
x
)
]
=
Σ
P
(
x
)
∗
I
(
x
)
=
Σ
P
(
x
)
∗
(
1
/
P
(
x
)
)
=
Σ
1
=
n
\begin{aligned} E\left [I(x)\right ]&=\Sigma P(x)\ast I(x)\\ &=\Sigma P(x)\ast(1/P(x))\\ &=\Sigma 1\\ &=n \end{aligned}
E[I(x)]=ΣP(x)∗I(x)=ΣP(x)∗(1/P(x))=Σ1=n
其中, Σ \Sigma Σ表示对所有可能的取值求和, n n n表示随机变量的取值个数。 - 引入对数运算:
由于信息量的期望是随机变量的取值个数,它通常较大且不直观。为了得到一个更直观的度量,我们引入对数运算。
a)对数的性质:
log ( a b ) = log ( a ) + log ( b ) log ( a / b ) = log ( a ) − log ( b ) \log(ab)=\log(a)+\log(b)\\ \log(a/b)=\log(a)-\log(b) log(ab)=log(a)+log(b)log(a/b)=log(a)−log(b)
b) 使用对数运算的信息量公式:
根据上述对数的性质,我们可以将信息量的期望进行变形:
E [ I ( x ) ] = Σ P ( x ) ∗ I ( x ) = Σ P ( x ) ∗ log ( 1 / P ( x ) ) = − Σ P ( x ) ∗ log ( P ( x ) ) \begin{aligned} E\left [I(x)\right ]&=\Sigma P(x)\ast I(x)\\ &=\Sigma P(x)\ast\log(1/P(x))\\ &=-\Sigma P(x) \ast \log(P(x)) \end{aligned} E[I(x)]=ΣP(x)∗I(x)=ΣP(x)∗log(1/P(x))=−ΣP(x)∗log(P(x))
这个形式就是信息熵的公式。
综上所述,通过信息量的基本定义和对数运算的引入,我们可以推导出信息熵的公式为: H ( x ) = − Σ P ( x ) log P ( x ) H(x)=-\Sigma P(x)\log P(x) H(x)=−ΣP(x)logP(x)
这个公式可以用来计算一个随机变量的信息熵,衡量其不确定性或信息量的平均值。
3.2 互信息
互信息(Mutual Information)是信息论中用于衡量两个随机变量之间相互依赖程度的指标。它测量了两个变量之间的信息共享量,或者说通过观察一个变量可以提供多少关于另一个变量的信息。
给定两个随机变量
X
X
X和
Y
Y
Y,它们的互信息记作
I
(
X
;
Y
)
I(X;Y)
I(X;Y)。互信息可以通过它们的联合概率分布和各自的边缘概率分布来计算。互信息的公式如下:
I
(
X
;
Y
)
=
Σ
Σ
P
(
x
,
y
)
∗
l
o
g
(
P
(
x
,
y
)
/
(
P
(
x
)
∗
P
(
y
)
)
)
I(X;Y) = \Sigma\Sigma P(x,y) \ast \;log(P(x,y)/(P(x) \ast P(y)))
I(X;Y)=ΣΣP(x,y)∗log(P(x,y)/(P(x)∗P(y)))
其中,
Σ
\Sigma
Σ表示对所有可能的取值求和,
P
(
x
,
y
)
P(x,y)
P(x,y)表示
X
X
X和
Y
Y
Y同时取值为
x
x
x和
y
y
y的联合概率,
P
(
x
)
P(x)
P(x)和
P
(
y
)
P(y)
P(y)分别表示
X
X
X和
Y
Y
Y的边缘概率。
互信息的值越大,表示X和Y之间的依赖程度越高;值为零表示
X
X
X和
Y
Y
Y是独立的;而负值表示
X
X
X和
Y
Y
Y之间存在反相关关系。
互信息在许多领域有广泛的应用,包括特征选择、聚类分析、图像处理、自然语言处理等。在特征选择中,互信息可用于衡量一个特征与目标变量之间的相关性,从而帮助选择最相关的特征。在聚类分析中,互信息可以用于度量聚类结果与真实标签之间的一致性。在图像处理和自然语言处理中,互信息可以用于图像分割、文本分类等任务中的特征提取和特征权重计算。
总之,互信息是衡量两个随机变量之间依赖程度的指标,可以用于描述它们之间的信息共享量。
3.2.1互信息公式推导
从信息熵的角度出发,并使用条件熵的概念。
-
信息熵: 两个随机变量X和Y的信息熵分别表示为 H ( X ) H(X) H(X)和 H ( Y ) H(Y) H(Y),它们的定义如下: H ( X ) = − Σ P ( x ) ∗ log ( P ( x ) ) H ( Y ) = − Σ P ( y ) ∗ log ( P ( y ) ) H(X)=-\Sigma P(x) \ast \log(P(x))\\ H(Y)=-\Sigma P(y) \ast \log(P(y)) H(X)=−ΣP(x)∗log(P(x))H(Y)=−ΣP(y)∗log(P(y))
-
条件熵:
条件熵是在给定一个随机变量的条件下,另一个随机变量的不确定性或信息量。给定随机变量 X X X的条件下,随机变量Y的条件熵表示为 H ( Y ∣ X ) H(Y|X) H(Y∣X),它的定义如下: H ( Y ∣ X ) = − Σ Σ P ( x , y ) ∗ log ( P ( y ∣ x ) ) H(Y|X)= -\Sigma\Sigma P(x,y)\ast \log(P(y|x)) H(Y∣X)=−ΣΣP(x,y)∗log(P(y∣x)) -
互信息的定义:
互信息 I ( X ; Y ) I(X;Y) I(X;Y)表示随机变量X和Y之间的信息共享量,可以用条件熵和边缘熵表示: I ( X ; Y ) = H ( Y ) − H ( Y ∣ X ) I(X;Y) = H(Y) - H(Y|X) I(X;Y)=H(Y)−H(Y∣X) -
边缘概率和联合概率:
随机变量X和Y的边缘概率分布可以通过联合概率分布来计算:
P ( x ) = Σ P ( x , y ) P(x)=\Sigma P(x,y) P(x)=ΣP(x,y)(对所有y求和)
P ( y ) = Σ P ( x , y ) P(y)=\Sigma P(x,y) P(y)=ΣP(x,y)(对所有y求和)
注意: P ( x , y ) P(x, y) P(x,y)表示 X X X和 Y Y Y同时取值为x和y的联合概率。 -
这一步推导还有一些,来不及写了
4. 存在的主要问题
之前代码写的方案放太久了,忘了当时怎么做的了,现在正在回看代码,倒推自己的方案。。
5. 下一步工作
继续对互信息评分系统和网络创新部分的方法论进行写作。
但是下两周要离校自驾旅游一趟,请个假,暂停一下周报,回来后会全力继续。