博文

关于序列：文本、音乐、DNA等

已有 6181 次阅读 2010-5-27 00:48 |个人分类:科学评论|系统分类:观点评述|关键词:学者| 生物信息学, 音乐, 自然语言处理, 序列问题, 主题模型

现实生活中存在的序列有很多，如文本、音乐、DNA序列等。由于都是序列，所以关于一些序列处理的基本方法，有很多是相通的，比如序列切分、序列比对、序列相似度的计算等。

目前在文本挖掘（或机器学习）领域，主题模型（Topic model）研究的很火，基本想法就是文本集不直接用词语（word）来表示，而是通过隐含主题（topic）来表示。

主题模型的基础是概率模型，让人觉得主题模型的提出者，是突发奇想，搞出这么一个模型，后来又有很多人搞出一些变种模型出来。但如果将处理对象换成是音乐的乐谱或者DNA序列，这个东西似乎容易理解些。换成是音乐，似乎天然就存在所谓的主题模型：乐谱的基本构成比文本构成要简单的多，7个符号组成谱子，可以表达不同主题（怀旧的、忧郁的等）。如果是DNA，4个符号（A、C、G、T）组成的序列，具有不同的功能。

由于文本的基本组成部分（文字或者词语）比音乐、DNA的规模要大的多，所以做文本的主题模型，似乎难度要大得多（若要考虑所有文字的排列组合，这显然是个不可计算问题），所以现阶段，在一定规模的语料库上做的主题模型，用概率是必然的了。

若将文本挖掘领域的主题模型引入到音乐分析中，那么只用大规模的乐谱，不同主题类别的音乐似乎可以被机器自动识别出来。同样，DNA序列分析里，也可以借鉴主题模型。

以上是些零星想法，不正确的地方，还请懂行的朋友指正。

转载本文请联系原作者获取授权，同时请注明本文来自章成志科学网博客。
链接地址：https://m.sciencenet.cn/blog-36782-329071.html

上一篇：学术报告通知：如何确定给定数据集中的聚簇个数？
下一篇：垃圾邮件也知道“个性化服务”了

收藏分享

章成志　分享 http://blog.sciencenet.cn/u/timy 宠辱不惊闲看庭前花开花落，去留无意漫观天外云展云舒

博文

关于序列：文本、音乐、DNA等

当前推荐数：6 推荐人：武夷山 刘钢 魏瑞斌 金小伟 迟菲 高建国

发表评论评论 (3 个评论)

章成志

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

相关博文

章成志 分享 http://blog.sciencenet.cn/u/timy 宠辱不惊闲看庭前花开花落，去留无意漫观天外云展云舒

博文

关于序列：文本、音乐、DNA等

当前推荐数：6 推荐人： 武夷山 刘钢 魏瑞斌 金小伟 迟菲 高建国

发表评论 评论 (3 个评论)

章成志

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

相关博文

章成志　分享 http://blog.sciencenet.cn/u/timy 宠辱不惊闲看庭前花开花落，去留无意漫观天外云展云舒

当前推荐数：6 推荐人：武夷山刘钢魏瑞斌金小伟迟菲高建国

发表评论评论 (3 个评论)