微分熵是消息理论中的一个概念,是从以离散随机变数所计算出的夏农熵推广,以连续型随机变数计算所得之熵,微分熵与离散随机变数所计算出之夏农熵,皆可代表描述一信息所需码长的下界,然而,微分熵与夏农熵仍存在着某些相异的性质。
令
为一连续型随机变数,其几率密度函数为
,其中
的支撑集为
。微分熵
:
。
与夏农熵为类比,计算夏农熵之算式中的
通常以2为底,而微分熵为计算方便,常以
计算后再转换为
的结果。微分熵与夏农熵最大的不同点在于
可为大于1的数值,此时可能会造成
为负值,而夏农熵
恒不为负。
例如,
为均匀分布
:
![{\displaystyle f_{X}(x)=}](https://wikimedia.org/api/rest_v1/media/math/render/svg/c3f8721682c012bd5586c0304e4c38050dd58fcd)
![{\displaystyle 1 \over a}](https://wikimedia.org/api/rest_v1/media/math/render/svg/bce3a62c2fd3349cb35f9a4a0276c9a7a375c3cf)
![{\displaystyle ;h_{X}(x)=-\int \limits _{0}^{a}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/0587cac5e1f527f785aee8e7f214388afd457201)
![{\displaystyle 1 \over a}](https://wikimedia.org/api/rest_v1/media/math/render/svg/bce3a62c2fd3349cb35f9a4a0276c9a7a375c3cf)
![{\displaystyle ln}](https://wikimedia.org/api/rest_v1/media/math/render/svg/2234193f1d24ab0337abad752c47e059232e6fcd)
![{\displaystyle 1 \over a}](https://wikimedia.org/api/rest_v1/media/math/render/svg/bce3a62c2fd3349cb35f9a4a0276c9a7a375c3cf)
![{\displaystyle h_{X}(x)=ln(a)}](https://wikimedia.org/api/rest_v1/media/math/render/svg/d7ed9fa080fb108713bd8ed800532f708c6a0f61)
相关计算[编辑]
为
之联合几率密度函数,其条件熵为:
。
又称KL散度(Kullback–Leibler divergence),两几率密度函数f、g的相对熵定义为:
。
两连续型随机变数的联合几率密度函数为
,其互信息:
广义而言,我们可以将互信息定义在有限多个连续随机变数值域的划分。
可参考连续互信息的量化。
与夏农相对熵性质相同,恒正。
(延森不等式)
。
链式法则[编辑]
一次观测所有随机变数所测得的联合熵,与个别接收随机变数后计算的条件熵总和相同,即观测顺序与间隔不影响微分熵。
。
随机变数的平移不影响微分熵,因为固定的平移不会增加随机变数的方差。
将随机变数缩放会增加其方差,微分熵亦会随之增加。
期望值为0,方差为
且值域为
之随机变数
的微分熵,其上界为正态分布
的微分熵。
估计误差[编辑]
随机变数
与其估计子
之均方误差存在下界,当
为正态分布且
为无偏估计子时,等号成立。
渐进等分性[编辑]
离散随机变数的夏农熵中,独立同分布的随机变数序列,在渐进等分性(Asymptotic equipartition property)之下其几率质量函数
趋近于
。
连续型随机变数之渐进等分性:
典型集[编辑]
典型集(Typical set)定义如下
,
集合包含于
,
,其体积(Volume)
定义如下:
。
典型集
的体积有以下性质:
1.
2.
证明
1.
由
,
可得:
2.
当n足够大时,
,
因此:
我们可以将几率密度函数量化后,以夏农熵来计算微分熵。首先将连续随机变数X以
分为数个区间,根据均值定理,
满足:
量化后的随机变数
:
夏农熵为:
意即,当
,
。
例子:[编辑]
1.
对X做n位元量化
。
上式表示,若我们想得到n位元精确度,则需要n-3个位元来表示。
2.
对X做n位元量化
。
上式表示,若我们想得到n位元精确度,需要
个位元来表示。
最大熵[编辑]
正态分布[编辑]
随机变数
,
值域为
,方差为
,
为任意分布,
为正态分布,几率密度函数分别为
。
则
证明:
其中,
指数分布[编辑]
随机变数
,
值域为
,期望值为
,
为任意分布,
为指数分布,几率密度函数分别为
。
则
。
证明:
其中,
参考文献[编辑]
- Thomas M. Cover, Joy A. Thomas, Elements of Information Theory, 1991 John Wiley & Sons, Inc, 1971. ISBN 0-471-20061-1