博文

NLP的机器学习策略反思——为什么有些任务就是上不去

已有 3362 次阅读 2014-5-26 21:20 |个人分类:Computational Linguistics|系统分类:科研笔记|关键词:学者

当标注者的一致率不高的时候，这样的问题可能是假的。例如，词性标注、语义标注、句法标注任务，分类标签都是先验的设定的，不同的科研机构还用了差异很大的标记集方案，但是最后的Fscore相距不大。当然，标记集规模会略有影响。现在很值得探讨的问题是，即使一个训练语料标注的一致性较差，机器学习依然可以学得好，接近人工的标注一致性。因为现在的机器学习模型使用了大量的上下文信息，也就是个案优先的标注，可以使得标注精度很高。

看看事实，如果拿人工标注的一致性来计算Fscore，则词性95%，语义70%，句法85%。机器标注的非常接近人的结果。这并不能说明标记集设计的好不好，反而能够看出标注任务本身是不是一个良好定义的、可计算的问题。机器学习模型的强大，往往使得这些任务给人以错觉，彷佛已经可以和人媲美了。而实际情况上，机器模型恰恰把人拿不准的、游移的、错误的地方也一起学去了。

好吧，目前结论是，Fscore低的这些任务，值得从是否可计算本身加以深究，而这正是当代语言学家应该做的。

转载本文请联系原作者获取授权，同时请注明本文来自李斌科学网博客。
链接地址：https://m.sciencenet.cn/blog-39714-797869.html

上一篇：表音文字的活化石——青年人爱用网络语言的深层动因
下一篇：南京师范大学文学院汉语言（语言信息处理方向）本科专业简介

收藏分享

当前推荐数：1 推荐人：章成志

该博文允许注册用户评论请点击登录评论 (0 个评论)

数据加载中...

返回顶部

随园厚学分享 http://blog.sciencenet.cn/u/gothere 计算语言学博士希望在这里留下学术的足迹

博文

NLP的机器学习策略反思——为什么有些任务就是上不去

当前推荐数：1 推荐人：章成志

该博文允许注册用户评论请点击登录评论 (0 个评论)

李斌

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

相关博文

随园厚学分享 http://blog.sciencenet.cn/u/gothere 计算语言学博士 希望在这里留下学术的足迹

博文

NLP的机器学习策略反思——为什么有些任务就是上不去

当前推荐数：1 推荐人： 章成志

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

李斌

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

相关博文

随园厚学分享 http://blog.sciencenet.cn/u/gothere 计算语言学博士希望在这里留下学术的足迹

当前推荐数：1 推荐人：章成志

该博文允许注册用户评论请点击登录评论 (0 个评论)