浅谈互信息与熵

引言

最近在做有关曲线相关/似性的方法实现,找到了基于点、形状、分段的方法,考虑到实际研究问题我们选用了基于点的三种方法:DTW(参考123);LCSS(参考123)、EDR(参考123)。有关源码 ,非终极版
但上述方法还是存在一定的缺陷(如何证明不是自己一厢情愿),老板又给了一种方法:互信息
本文基于基于互信息,简单介绍一下自己这几天有关熵的补充和理解。

信息量

就是描述一个信息所需要的数据量。而信息量的大小和这件事的概率有关。简单来说,概率越小,那么信息量越大,比如国足世界杯夺冠(手动狗头)。信息量也可以说是一个事件的不确定性,如果一个事件或者说一个随机变量所有可能的概率之和为1,我这里将一个事件的某种可能记为一条信息,那么这条信息的信息量用I(xi)表示。那么
信息量
这便是信息量的计算定义,log函数应用非常巧妙,在实际应用中也非常广泛。
有了信息量就可以引出信息熵了

信息熵 (information entropy)

熵这个概念本质来说我认为是一个期望值,即随机变量所有可能的信息量的期望。通常用H(X)来表示,那么
信息熵

联合熵 (Joint entropy)

联合熵实际是信息熵的推广,如果将一维随机变量推广到多维,以二维为例,那么
联合熵
其中,P(xi, yi)为联合概率

条件熵 (Conditional entropy)

条件熵和条件概率类似,H(Y|X)就表示随机变量X已知的情况下随机变量Y的不确定性,X是随机的故有多种可能,那么条件熵就是在X取遍所有可能的期望
条件熵
其中,P(y|x)为条件概率
当然,公式还可以化简:H(Y|X)=H(X,Y)−H(X),具体推导详见参考

相对熵 (Relative entropy) [这部分理解不是很懂]

相对熵也称KL散度 (Kullback–Leibler divergence),用来刻画两个分布之间的差异性,设 p(x)、q(x) 是 离散随机变量 X 中取值的两个概率分布,则 p 对 q 的相对熵是:
相对熵
相对熵的值越小,表示q分布和p分布越接近。
这个并不像联合熵那样具有对称性。

交叉熵 (不懂,略)

互信息

一个随即变量中包含的关于另一个随机变量的信息量,或者说知道X,给Y的信息量带来多少损失(或者反过来),关于这损失也可以说是另一个事件的确定性的增加。可以用来度量两个随机变量的相互依赖性。
定义如下:
互信息
其中,p(x)、p(y)为边缘概率
简化推导:
互信息简化
互信息具有对称性

互信息、条件熵与联合熵联系

联系

参考

  1. 详解机器学习中的熵、条件熵、相对熵和交叉熵
  2. 通俗理解信息熵
  3. 通俗理解条件熵
  4. 关于熵的知识——信息论基本概念
  5. 最大熵模型 ,有关条件熵推导公式有误,缺少一个负号
  6. 条件熵的定义
  7. 自信息和互信息、信息熵
  8. 信息熵,条件熵,互信息的通俗理解
  9. 互信息——事件相关性度量
  10. 互信息、条件互信息
  11. 互信息(Mutual Information)的介绍
  12. 百度百科-互信息
  13. 百度百科-联合熵
  14. 关于互信息的一些注记