科学网

 找回密码
  注册
科学网 标签 D2V

tag 标签: D2V

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

关于文本表示的一些模型(看到别人写的一些资源存留一下)
mashutian 2016-2-13 01:54
本文主要是关于文本表示的一些模型的介绍,其实就是想推荐给你们一些容易理解的资源。我就给链接,具体要了解,还是大家自己去看,有觉得不正确的地方可以交流,我来更正。 主要有这样几个模型:VSM(不解释),LSI,LDA,D2V。 VSM模型是非常基础的文本表示方式,把要表示的文本分词,可以做做降维,选出文本特征,然后基本上就完成了VSM模型表示的90%的工作量。 好了下面开始正题: 首先是LSI。在用LSI的时候一直在纠结我是写LSI还是LSA。虽然两个是差不多的感觉,而且看到的资料总是一会儿用LSI,一会儿用LSA。后来看到一个资料是这么写的,估计也是看到文献中的: LSI refers to using this technique for indexing, or information retrieval. LSA refers to using it for everything else. 所以他们指的是同一种技术,只是应用场景不同。 转自 : http://www.datalab.sinaapp.com/?p=277 潜语义分析利用奇异值分解技术把文本从高维空间映射到低维空间,称之为潜语义空间,文档的相似性在这个空间内进行比较。空间的维度个数可以自己指定,往往比传统向量空间维度更少,所以LSA也是一种降维技术。而关于奇异值分解技术的说明,大家可以看看这个链接: http://blog.csdn.net/wangzhiqing3/article/details/7446444 其他相关的有用链接: http://blog.csdn.net/bob007/article/details/30496559 http://blog.csdn.net/roger__wong/article/details/41175967 http://blog.sina.com.cn/s/blog_7d43383e0101eecu.html LSI模型总结一下关键要理解奇异值分解的步骤,感觉就是利用数学的方法,把一个大矩阵缩小为一个小矩阵,而这个小的就是潜在语义空间了。 说完LSI,说一下LDA( Latent Dirichlet Allocation )。不得不提到 LDA数学八卦(给一个微盘链接: http://vdisk.weibo.com/s/q0sGh/1360334108?utm_source=weibolife ),初学的时候觉得自己能把这个PDF看懂就胜利了,结果看到最后看晕了,至今没再探究过。虽然每次看到别人的论文将LDA模型翻来覆去得玩很是羡慕,但是自己确实连弄懂都困难,又不去搞清楚,实在怪自己咯~ 好吧,这个如果不深究其中的数学原理,可以看看这几个链接: http://www.xperseverance.net/blogs/2012/03/17/ (不错的!) http://blog.csdn.net/poson/article/details/8195908 (有讲到 Gibbs Sampling,浅显 ) http://blog.csdn.net/poson/article/details/8195908 http://blog.csdn.net/wangran51/article/details/7408399 不过,如果觉得自己数学水平还是可以的,可以看看下面这个链接: http://blog.csdn.net/v_july_v/article/details/41209515?utm_source=tuicoolutm_medium=referral 除此之外,LDA在进行参数学习时,较为常用的方法是Gibbs采样,想要了解何为Gibbs Sampling可以看一下 如下的链接: http://blog.csdn.net/yangliuy/article/details/8302599 http://download.csdn.net/detail/zouhch/4352762 另外推荐文章: Heinrich G. Parameter estimation for text analysis . University of Leipzig, Tech. Rep, 2008. Oh 终于到了深度学习模型了么?这个我是真的还没研究透,连梯度下降我都迷糊,更别说这个了。 做研究的时候主要用了Mikolov团队开发的doc2vec还不是word2vec,不过是差不多的原理啦。来个原话: The only change in this model compared to the word vector framework is in equation 1, where h is constructed from W and D. 给你们看一下公式1 其中, every paragraph is mapp ed to a unique vector, represented by a column in matrix D and every word is also mapped to a unique vector, represented by a column in matrix W. 经典文献,我就不给了,还是给一些别人写的资源: http://blog.csdn.net/mytestmy/article/details/26961315?utm_source=tuicoolutm_medium=referral http://blog.csdn.net/mytestmy/article/details/26969149?utm_source=tuicoolutm_medium=referral 还有来自知乎的资源: https://www.zhihu.com/question/21661274/answer/19331979 其中见解还是大家懂的去探究吧,我觉得我还是小白。 这里还有一个实战链接: http://techblog.youdao.com/?p=915 实践证明学好数学是一件大事啊! 结束。
6319 次阅读|0 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-6-2 22:03

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部