|||
为什么要使用高斯分布?
来自知乎的高赞回答(https://www.zhihu.com/question/266383082/answer/307220960): 一般是认为高斯混合分布在分量足够多的时候可以模拟任何分布(它是多峰的,实际使用中拟合范围更广,这是由“混合”特性带来的好处之一)。注意这里的关键在于「混合」而不是「高斯」,也就是说,重要的是各个分量之间的位置关系,而不是每个分量的形状。每个分量取为高斯,只是因为它的性质比较良好(比如密度函数处处可导),计算也相对简单(混合分布的参数求解过程中,极大似然或极大后验很难求解析解,用EM算法求解高斯混合更为简单一些)。
EM迭代算法来求解每个高斯核的混合权值,参数(均值,方差)
EM迭代算法如下:
a)主观设定高斯核个数. 类似模糊数学中的分类,比如: 身高的模糊分类有高个、普通、侏儒,每个都是一维高斯核分布。
b)假定各高斯核的初始参数(均值,方差)
c)用公式及样本算各高斯核的混合权值
d)利用极大似然法和样本计算各高斯核的参数
e)c和d反复迭代,类似K-means
如果数据较少的时候,不能够使用中心极限定理怎么办?
多假定几个分布试试?用事实说话?感觉用聚类算法聚一下,把比较重要的筛选出来,当作均匀分布好了??!!(自己胡诌吹水)
如果出现重尾长尾分布怎么办?
据我隔壁宿舍的吹水,银行业大多采用稳定分布(α稳定分布)。不知道效果怎样,感觉参数挺多的。应该泛化性比较好。
我个人感觉如果longtail 在应用场景中不是很重要的话,可以当作异常值舍去。工程狮的蓝办法,无脑暴力不够科学。
为什么用高斯混合分布这么常用? - 王赟 Maigo的回答 - 知乎
https://www.zhihu.com/question/266383082/answer/307220960为什么用高斯混合分布这么常用? - 王赟 Maigo的回答 - 知乎
https://www.zhihu.com/question/266383082/answer/3072209
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-4-18 17:59
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社