kevin64zhang的个人博客分享 http://blog.sciencenet.cn/u/kevin64zhang

博文

高斯分布--稳定分布等问题及解答

已有 2854 次阅读 2019-5-28 11:26 |个人分类:读书笔记|系统分类:科研笔记|关键词:学者

为什么要使用高斯分布?


来自知乎的高赞回答https://www.zhihu.com/question/266383082/answer/307220960):                           一般是认为高斯混合分布在分量足够多的时候可以模拟任何分布(它是多峰的,实际使用中拟合范围更广,这是由“混合”特性带来的好处之一)。注意这里的关键在于「混合」而不是「高斯」,也就是说,重要的是各个分量之间的位置关系,而不是每个分量的形状。每个分量取为高斯,只是因为它的性质比较良好(比如密度函数处处可导),计算也相对简单(混合分布的参数求解过程中,极大似然或极大后验很难求解析解,用EM算法求解高斯混合更为简单一些)。

EM迭代算法来求解每个高斯核的混合权值,参数(均值,方差)
EM迭代算法如下:
a)主观设定高斯核个数. 类似模糊数学中的分类,比如: 身高的模糊分类有高个、普通、侏儒,每个都是一维高斯核分布。
b)假定各高斯核的初始参数(均值,方差)
c)用公式及样本算各高斯核的混合权值
d)利用极大似然法和样本计算各高斯核的参数
e)c和d反复迭代,类似K-means


如果数据较少的时候,不能够使用中心极限定理怎么办?

多假定几个分布试试?用事实说话?感觉用聚类算法聚一下,把比较重要的筛选出来,当作均匀分布好了??!!(自己胡诌吹水)


如果出现重尾长尾分布怎么办?

据我隔壁宿舍的吹水,银行业大多采用稳定分布(α稳定分布)。不知道效果怎样,感觉参数挺多的。应该泛化性比较好。

我个人感觉如果longtail 在应用场景中不是很重要的话,可以当作异常值舍去。工程狮的蓝办法,无脑暴力不够科学。




为什么用高斯混合分布这么常用? - 王赟 Maigo的回答 - 知乎
https://www.zhihu.com/question/266383082/answer/307220960
为什么用高斯混合分布这么常用? - 王赟 Maigo的回答 - 知乎
https://www.zhihu.com/question/266383082/answer/3072209



https://m.sciencenet.cn/blog-3413082-1181633.html

上一篇:关键信息基础设施的安全防护
下一篇:[转载]关于IEEE声明更新的一些看法,希望媒体能够有正确的阅读能力

1 杨正瓴

该博文允许注册用户评论 请点击登录 评论 (1 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-18 17:59

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部