科学网 › 标签 › D2V

标签: D2V

相关帖子	版块	作者	回复/查看	最后发表

没有相关内容

相关日志

关于文本表示的一些模型（看到别人写的一些资源存留一下）: mashutian 2016-2-13 01:54; 本文主要是关于文本表示的一些模型的介绍，其实就是想推荐给你们一些容易理解的资源。我就给链接，具体要了解，还是大家自己去看，有觉得不正确的地方可以交流，我来更正。主要有这样几个模型：VSM(不解释)，LSI,LDA,D2V。 VSM模型是非常基础的文本表示方式，把要表示的文本分词，可以做做降维，选出文本特征，然后基本上就完成了VSM模型表示的90%的工作量。好了下面开始正题：首先是LSI。在用LSI的时候一直在纠结我是写LSI还是LSA。虽然两个是差不多的感觉，而且看到的资料总是一会儿用LSI，一会儿用LSA。后来看到一个资料是这么写的，估计也是看到文献中的： LSI refers to using this technique for indexing, or information retrieval. LSA refers to using it for everything else. 所以他们指的是同一种技术，只是应用场景不同。转自： http://www.datalab.sinaapp.com/?p=277 潜语义分析利用奇异值分解技术把文本从高维空间映射到低维空间，称之为潜语义空间，文档的相似性在这个空间内进行比较。空间的维度个数可以自己指定，往往比传统向量空间维度更少，所以LSA也是一种降维技术。而关于奇异值分解技术的说明，大家可以看看这个链接： http://blog.csdn.net/wangzhiqing3/article/details/7446444 其他相关的有用链接： http://blog.csdn.net/bob007/article/details/30496559 http://blog.csdn.net/roger__wong/article/details/41175967 http://blog.sina.com.cn/s/blog_7d43383e0101eecu.html LSI模型总结一下关键要理解奇异值分解的步骤，感觉就是利用数学的方法，把一个大矩阵缩小为一个小矩阵，而这个小的就是潜在语义空间了。说完LSI，说一下LDA（ Latent Dirichlet Allocation ）。不得不提到 LDA数学八卦（给一个微盘链接： http://vdisk.weibo.com/s/q0sGh/1360334108?utm_source=weibolife ），初学的时候觉得自己能把这个PDF看懂就胜利了，结果看到最后看晕了，至今没再探究过。虽然每次看到别人的论文将LDA模型翻来覆去得玩很是羡慕，但是自己确实连弄懂都困难，又不去搞清楚，实在怪自己咯~ 好吧，这个如果不深究其中的数学原理，可以看看这几个链接： http://www.xperseverance.net/blogs/2012/03/17/ （不错的！） http://blog.csdn.net/poson/article/details/8195908 （有讲到 Gibbs Sampling，浅显） http://blog.csdn.net/poson/article/details/8195908 http://blog.csdn.net/wangran51/article/details/7408399 不过，如果觉得自己数学水平还是可以的，可以看看下面这个链接： http://blog.csdn.net/v_july_v/article/details/41209515?utm_source=tuicoolutm_medium=referral 除此之外，LDA在进行参数学习时，较为常用的方法是Gibbs采样，想要了解何为Gibbs Sampling可以看一下如下的链接： http://blog.csdn.net/yangliuy/article/details/8302599 http://download.csdn.net/detail/zouhch/4352762 另外推荐文章： Heinrich G. Parameter estimation for text analysis . University of Leipzig, Tech. Rep, 2008. Oh 终于到了深度学习模型了么？这个我是真的还没研究透，连梯度下降我都迷糊，更别说这个了。做研究的时候主要用了Mikolov团队开发的doc2vec还不是word2vec，不过是差不多的原理啦。来个原话： The only change in this model compared to the word vector framework is in equation 1, where h is constructed from W and D. 给你们看一下公式1 其中， every paragraph is mapp ed to a unique vector, represented by a column in matrix D and every word is also mapped to a unique vector, represented by a column in matrix W. 经典文献，我就不给了，还是给一些别人写的资源： http://blog.csdn.net/mytestmy/article/details/26961315?utm_source=tuicoolutm_medium=referral http://blog.csdn.net/mytestmy/article/details/26969149?utm_source=tuicoolutm_medium=referral 还有来自知乎的资源： https://www.zhihu.com/question/21661274/answer/19331979 其中见解还是大家懂的去探究吧，我觉得我还是小白。这里还有一个实战链接： http://techblog.youdao.com/?p=915 实践证明学好数学是一件大事啊！结束。; 6319 次阅读|0 个评论

更多...

帐号		自动登录	找回密码
密码			注册

关闭 安全验证

标签: D2V

相关帖子

相关日志

关闭安全验证