自上研以来,接手的第一个项目就是为输入法的整句转换建模。读了几篇关于语言模型的文章,最后确定采用高剑锋的MSR模型。三五个人倒腾了半年,最后就剩下我在那折腾了。07年底的时候就把程序写出了个框架版本,基本跑通,存在内存泄漏问题。训练语料不能超出3000句的样子。后来改改能用10000句跑了,始终不理想。
计划08年上学期怎么着也得完成吧,又打算准备直博,就下定决心重写了原程序,争取一定在上博前完成。又因为自己技不如人,重写的版本采用Nbest算法分两步走,第一步为每个样本产生N个最优候选,把它存起来,然后第二步分别读每个样本,再MSR选择最优候选,训练特征到时不存在内存问题,但跑起来像蜗牛一样的慢,最初的想法又泡汤了。
于是乎决定在博士第一学期还没正式进入博士题目研究前再努力一把,蹭蹭蹭的又重写了一遍。到是不存在内存问题了时间也限制在两三个小时之内了。但不管我怎么选择特征,训练参数,跑出来的结果和没利用这些特征一样。真是太折腾人了。
转眼到了新的学期了,我还能在老路上停止不前吗?我痛苦呀,难产的孩子!
https://m.sciencenet.cn/blog-86286-214243.html
下一篇:
多词表达的定义