xiaohai2008的个人博客分享 http://blog.sciencenet.cn/u/xiaohai2008

博文

HMM-LDA模型简介

已有 12431 次阅读 2012-1-29 08:31 |个人分类:机器学习|系统分类:科研笔记|关键词:学者| Model, topic

Griffiths et. al.~cite{GSBT05}认为,一个词出现在句子中是有原因的。作者将原因分为两种:一种是它起到的是句法(syntactic)功能,使整个句子符合一定的语言规范,也就是常说的虚词(function words);另一种它起到语义(semantic)功能,传递句子的真实含义,也就是常说的实词(content words)。

句法约束通常是短程(short-range)的,一般不会超过一个句子;而语义约束通常是长程(long-range)的,也就是说同一篇文档的不同句子表达相近或相关的内容,通常会使用相近或相关的词汇。句法约束一般用HMM(Hidden Markov Model,隐马尔科夫模型)或PCFG(Probabilistic Context Free Grammar,概率上下文无关文法)进行建模,而语义约束通常用主题模型(topic model)进行建模。以前的研究通常将二者分开进行考虑,Griffiths et. al.认为如果将二者组合在一起,估计会得到更好的效果,于是就提出了HMM-LDA模型,文献~cite{GSBT05}对HMM-LDA模型有详细描述。

相关公式推导见附件hmm-lda简介.pdf

@STRING(NIPS17="Advances in Neural Information Processing Systems 17")

@INCOLLECTION{GSBT05,
  author = {Griffiths, Thomas L. and Steyvers, Mark and Blei, David M. and Tenenbaum,
Joshua B.},
  title = {Integrating Topics and Syntax},
  booktitle = NIPS17,
  publisher = {MIT Press},
  year = {2005},
  editor = {Saul, Lawrence K. and Weiss, Yair and Bottou, L'{e}on},
  pages = {537--544},
  address = {Cambridge, MA},
}


https://m.sciencenet.cn/blog-611051-532360.html

上一篇:“! Latex source files more than 5 years old!.”解决方案
下一篇:推荐一款Windows下将jpeg文件转换成eps文件的小工具

0

该博文允许注册用户评论 请点击登录 评论 (8 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-23 15:01

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部