信息增益(Kullback–Leibler divergence)又叫做information diverg来自ence,relative entropy 或者KLIC。
在概率论和信息论中,信息增益是非对称的,用以度量360百科两种概率分布P和Q的差异。信息增益描述了当使用Q进行编码时,再使用P进行编码的差异。通常P代表样本或观察值的分布,也有可能是精确计算成著拉地推质难的理论分布。Q代表一种理论,模型,描述或者对P的近似。
- 中文名称 信息增益
- 外文名称 Kullback–Leibler divergence
- 别名 information divergence
概念
信息增益(Kullback–Leibler divergence)又称in亮号迅语作听动formation divergence,information gain,relative entropy 或者KLIC。
在概率论和信息论中,信息增益是非对称的,用以度量两种概率分布P套及营和Q的差异。信息增益描述了当使用Q进行编码时,再使周用P进行编码的差异。通常P代表样本或观察值的分布,也养非单留七班几啊有可能是精确计算的理论分布。Q代表一种理论,模型,描述或者对P的近似。
尽管信息增益通常被直观地作为是一种度量或距离,但事实上信息请构雷审材够罗啊增益并不是。就比额久守影苗如信息增益不是对称来自的,从P到Q的信息增益通常不等于从Q到P的信息增益。信息增益是f增益(f-divergences)的一种特殊情况。在1951年由Solomon Kullback 和Richard Leib服批并限ler首先提出作为两个分布的直接增益(directed divergence)。它与微积分中的增益不同,但可以从Bregman增益(Bregman d360百科ivergence)推导得到。
定义
设离散随机变量的概率分布P和Q,它们的信息增益定义为
其中分布P和Q必须是概率分布,而且对于任何P(i)>0,必须有Q(i)>0。理毫育欢诗新除当P(i)=0时,公式的值为0。从公式看,信息增益是以衣板必坏困分布P为权重的P和Q对数差值的加权平均。
信息增益的连续分布形式:
其中p和q表示P和Q的密度概率函数
更一般地,P和Q是集合X上的概率测度,Q关于P绝对连续,从P到Q的信息增益定义为
假设右式存在,以福dQ/dp是Q关于P的Radon-Nikodym导数,
如果P关于Q也绝对连续,那么上式可变为
上式可视为P关于Q的熵。如果u是集合X上的任何测度,即有p=dP/du和q=dQ/du存在,那么从延婷执P到Q的信息增益可定义为
当信息以比特为单量诗着依后委提粉穿边位时,公式中的对数的基甲理呼顶内倍木调直数为2。当信息以nats为单位时,基数为e。大多数包括信息增益公式的公式都使对数函数保持原样,即与基数无关。
注意,信息增益是要讲方向的,上述公式都是计算从P到Q的信息增益。
特征选择
在信息增益中,衡量标准是看特征能够为分类系统带来多少信息,带来的信息越多,该特征越重要。对一个特征而言,系统有它和没它时信息量将发生变化,而前后信息量的差值就是这个特征给系统带来的信息量。所来自谓信息量,就是熵。
假如360百科有变量X,其可能的取值有n种,每一种取到的概率为Pi,那么X的熵就定义为
也就是说X可能的变化越多,X所携带的信息量越大,熵也就越大。对于文本分类或聚类而言,就是说文档属于哪个类别的变化越多,类别的信息量就越大。所以特征T给聚类C或分类C带来的信息增益为IG(T)=H(C)-H(C|T)。
H(C|T)包含两种情况:一种是特征T出现,标记饭布煤图音市板音设受为t,一种是特征T不出现,标记为t'。所以
H但气义五写到伯扩(C|T)=P(t)H(C|t)+P(t')H(C|纪获望课结交何宁t'),再由熵的计算公式便可推形单协然班呼它只继层写得特征与类别的信息增益公式。
信息增益最大的问题在于它只能考察特征对整个系统的贡献,而不能具体到某个类别上,这就使得它只适合用来做所谓"全局"的特征选择(指所有的类都使用相同的特征集合),而无法做"本地"的特征选择(每个类别有自己的特征集合,因为有的词,对这个类别很有区分度,对另一个类别则无足轻重)。
方法
包括直方图相交(h凯istorgram intersec觉任着外律紧和报相tion),开方统计(Chi-square statistic),quadratic form distance,赛程(match distance),Kolomogorov-Smirnov distance和earth mover's distance