最大似然估计Maximum Likelihood Estimation,简写就是MLE。非常重要且常用的概念,后面要介绍的期望最大化算法就是以它为基础的。这个玩意最早是高斯提出,后经Fisher重新提出并推广。

根据之前似然函数说法,最大似然估计就是通过似然函数计算出来的最大可能性。也就是说,通过已经观测到的结果反推最有可能参数的值,参考wiki的例子:

给定一个概率分布$D$,假定其概率密度函数[连续分布]或概率质量函数[离散分布]为$f(D)$,以及一个概率分布参数k,此时我们可以从这个分布中观测到$n$个样本,$X={x_1,x_2,x_3,…,x_n}$。所以我们可以得到:$P(x_1,x_2,x_3,…,x_n)=f(x_1,x_2,x_3,…,x_n \mid k)$

后面的事其实也好解释,就是要根据估计一个k值使这n个样本出现的肯能行最大。这事说起来好说,但是做不好做,在数学上实现,要先定义似然函数[这是一个关键步骤]。此时的似然函数是$L(k)=f(x_1,x_2,x_3,…,x_n \mid k)$,至于为什么这样定义,不知道。不过发现一个规律,看了一些例子,发现都是讲概率密度函数定义为似然函数,今后可以考证。然后就是似然函数取最大,也就是一阶导数为0。为什么一阶导数为0取最大是一个基本问题,参考极大值极小值的wiki。这时得出的结果就是k的极大似然估计。

目前根据我的理解可以总结一下似然估计的算法[如有更深的领悟,今后再修改]:

1. 获知概率分布,样本数目,和需要估计的参数。

2. 列出样本发生的概率密度或质量函数

3. 根据目前的例子,都是用概率函数作为似然函数,然后求一阶导数,使其为0,估计参数值。

实际计算中,为了计算方便,都会采用对数似然函数,也就是说对$L(k)=f(x_1,x_2,x_3,…,x_n \mid k)$,两边同时取对数[以几为底不重要],也就是logL(k)=sum(log(f(x1 \mid k)))。此时我们叫$logL(k)$为对数似然函数,估计出的k值叫做对数平均似然,根据目前的学习,好像对数似然就可以理解为似然,因为两边同时去了对数。

根据目前的理解,我总结了一下似然的计算方式[如有理解,今后再改]

  1. 获知概率分布,样本数目和需要估计的参数

  2. 列出关于样本的概率密度或质量函数

  3. 根据目前的例子,应该都是用概率函数作为似然函数

  4. 似然函数去对数,求导,然后使之为0

  5. 估计出参数值

关于MLE还有一些其他的属性,在此就不介绍了。