ZYyuyu的个人博客分享 http://blog.sciencenet.cn/u/ZYyuyu 在等待中积蓄能量,充实自己 德识为先 记录生活点滴

博文

毕业设计

已有 3164 次阅读 2010-7-9 15:04 |个人分类:NLPの机器翻译|系统分类:科研笔记|关键词:学者| 机器翻译, 依存语法

    前几天开题,研究内容为基于依存语法的SMT,这是个不容小觑的工程,确切的说应该有点挑战性。以前都在短语的级别来做,研究了短语抽取,最小错误率训练,和相关的解码,只是自我感觉最底层的东西依然没有彻底搞清楚,所以,接下来的几个月,除了找工作,还要抓紧时间把毕业设计做做好,然后再写两篇论文发了,也算大功告成。

    暑假期间争取搭个框架出来,可以把流程完整的跑一边,至少丢个中文句子进去,系统能扔个英文出来,目标很明确,接下来就是时间和精力了,加油。

    话说中文依存工具只有哈工大的那个平台可以用,大概准确率在百分之七十几,没有仔细去研究,因为貌似标点符号没有包含在依存树上,如果用没有标点的树,无疑为以后的解码增加了无形的困难,还要去学习和定位标点符号,于是用stanford的工具直接做了Syntactic Parser,然后用Penn2Malt去转了一把,中文短语结构树的parser的F1值大概80%左右,不同的领域应该有差别,语料库用的以前哈工大暑期课程里的一个双语语料,训练集开发集和测试集都有,领域偏向口语的日常交流,挺适合做研究,等系统平台稳定了,再增加训练语料,进行性能测试和分析,目前首要的是好好设计翻译模型,一个好的翻译模型可以存储丰富的翻译知识。

    加油。



https://m.sciencenet.cn/blog-457901-342566.html


1 田仁飞

发表评论 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-29 20:41

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部