章成志 分享 http://blog.sciencenet.cn/u/timy 宠辱不惊闲看庭前花开花落,去留无意漫观天外云展云舒

博文

关于序列:文本、音乐、DNA等

已有 6181 次阅读 2010-5-27 00:48 |个人分类:科学评论|系统分类:观点评述|关键词:学者| 生物信息学, 音乐, 自然语言处理, 序列问题, 主题模型

       现实生活中存在的序列有很多,如文本、音乐、DNA序列等。由于都是序列,所以关于一些序列处理的基本方法,有很多是相通的,比如序列切分、序列比对、序列相似度的计算等。

       目前在文本挖掘(或机器学习)领域,主题模型(Topic model)研究的很火,基本想法就是文本集不直接用词语(word)来表示,而是通过隐含主题(topic)来表示。

       主题模型的基础是概率模型,让人觉得主题模型的提出者,是突发奇想,搞出这么一个模型,后来又有很多人搞出一些变种模型出来。但如果将处理对象换成是音乐的乐谱或者DNA序列,这个东西似乎容易理解些。换成是音乐,似乎天然就存在所谓的主题模型:乐谱的基本构成比文本构成要简单的多,7个符号组成谱子,可以表达不同主题(怀旧的、忧郁的等)。如果是DNA,4个符号(A、C、G、T)组成的序列,具有不同的功能。

       由于文本的基本组成部分(文字或者词语)比音乐、DNA的规模要大的多,所以做文本的主题模型,似乎难度要大得多(若要考虑所有文字的排列组合,这显然是个不可计算问题),所以现阶段,在一定规模的语料库上做的主题模型,用概率是必然的了。

     若将文本挖掘领域的主题模型引入到音乐分析中,那么只用大规模的乐谱,不同主题类别的音乐似乎可以被机器自动识别出来。同样,DNA序列分析里,也可以借鉴主题模型。

     以上是些零星想法,不正确的地方,还请懂行的朋友指正。

   



https://m.sciencenet.cn/blog-36782-329071.html

上一篇:学术报告通知:如何确定给定数据集中的聚簇个数?
下一篇:垃圾邮件也知道“个性化服务”了

6 武夷山 刘钢 魏瑞斌 金小伟 迟菲 高建国

发表评论 评论 (3 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-19 08:59

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部