科学网

 找回密码
  注册
【立委科普:自动民调】
热度 3 李维 2012-10-19 02:33
【立委科普:自动民调】
Automatic survey complements and/or replaces manual survey. That is the increasingly apparent direction and trend as social media are getting more popular everyday. 自动民调(or 机器民调: Automatic Survey / Machine Survey)指的是利用电脑从语言数据中自动抽取挖掘有关特定话题的民间舆论,其技术领 ...
个人分类: 立委科普|8212 次阅读|5 个评论 热度 3
【研发笔记:粤语文句的情报挖掘】
热度 4 李维 2012-9-28 07:50
【研发笔记:粤语文句的情报挖掘】
在研发社会媒体舆情挖掘的中文系统过程中,遇到一些粤语的帖子,看上去似懂非懂的。从机器处理角度来看,方言与行业用语类似,算是一种子语言(sublanguage),可以看作是普通话的变体。其中绝大多数的区别在词汇层,句子结构大同小异。于是决定采用先把粤语文句自动翻译成普通话的方法,然后再 feed 到普通话的主体系统 ...
个人分类: 立委科普|8659 次阅读|4 个评论 热度 4
评注冯老师的“微波加热”的话题
热度 10 李维 2012-8-28 02:35
评注冯老师的“微波加热”的话题。 作者: mirror (*) 日期: 08/27/2012 01:18:57 微波炉里的为什么 里有说明为什么微波能加热食品的部分。冯老师讲得那么“头头是道”,不相信、不接受都有些“不好意思”了。 从结论上讲,冯老师对微波加热的解说是不合适的。或者说,冯老师的解说与微波加热没有多少 ...
个人分类: 镜子大全|5778 次阅读|13 个评论 热度 10
《立委随笔: 语言学家是怎样炼成的》
热度 5 李维 2012-2-29 23:29
《立委科普: 语言学家是怎样炼成的》 我们知道,钢铁战士保尔柯察金是在残酷的革命斗争中炼成的。我要说:语言学家是在 瞎琢磨中炼成的。下面这个故事就是证明。 《立委说文解字:好,好不?》 语言现象中,有逻辑的成分,也有不逻辑的成分:约定俗成是语言的天则,只要语言共同体认可,逻辑不逻辑 ...
个人分类: 立委科普|6782 次阅读|19 个评论 热度 5
《老爸:救死扶伤,实行革命人道主义》
热度 6 李维 2012-2-20 17:03
【立委按】 我一直觉得, 老爸就是时代造就的现代华佗,就技术之精湛、经验之丰富、医疗面之广、救助病人之多、服务时间之长,可以说是前无古人(maybe 除了华佗),后无来者。 老爸从基层行医至今50年了(如今年过七旬依然半日在岗),遇到过各种状况。凭着他过人的才智、精力和手巧,因地制宜,胆 ...
个人分类: 风雨春秋|4895 次阅读|7 个评论 热度 6
为什么cruise翻译成邮船而不是游船?
热度 8 李维 2012-1-17 10:30
答聊友的“为什么cruise翻译成邮船而不是游船?”的问题 作者: mirror (*) 日期: 01/16/2012 18:04:42 网友指名“要镜子来研究研究 ”,不好推辞。 游弋、旅游 中的游,按字典的解说是在不固定、无目标的移动。因此把cruise(r)叫巡洋舰也算是佳译了。当然,这是今天的理解,昨天的人脑里,给不出 ...
个人分类: 镜子大全|6755 次阅读|9 个评论 热度 8
说说科研立项中的大跃进
热度 11 李维 2012-1-7 08:01
说到立项,再多说几句。...... 如果一个大项目选错了方向,才真是糟蹋人民的钱财。历史上这样的案例还是不少的。远的有日本在上个世纪80年代上马的所谓“第五代计算机”的项目,忽悠得昏天黑地,似乎这个大项目的完成,新一代能够理解自然语言的人工智能电脑就会面世,日本就会成为世界电脑技术翘楚。结果呢,无疾而终( ...
个人分类: 立委科普|8295 次阅读|13 个评论 热度 11
“市面上能买到的都不是什么过硬的东西”
热度 16 李维 2012-1-1 07:05
如果不体验一把,大约不能体会到“市面上能买到的都不是什么过硬的东西”。 作者: mirror (*) 日期: 12/30/2011 11:02:19 院士问题的那页总算是可 以翻过去了。对于真实的 科技 ,一般人都不能有机会体验。透过这样的关键词 瓦圣纳协定 , The Wassenaar Arrangement是什么意思 ,可以对真实的 科技 ...
个人分类: 镜子大全|6495 次阅读|17 个评论 热度 16
中文处理的迷思之一:切词特有论
热度 7 李维 2011-12-28 13:33
电脑的中文处理业界有很多广为流传似是而非的迷思。在今后的随笔系列中,准备提出来分别讨论。 迷思之一:切词(又叫分词,word segmentation)是中文(或东方语言)处理特有的前提,因为中文书写不分词。 切词作为中文处理的一个先行环节,是为了模块化开发的方便,这一点不错。但它根本就不特有。 任何自 ...
个人分类: 立委科普|13905 次阅读|11 个评论 热度 7
坚持四项基本原则,开发鲁棒性NLP系统
热度 3 李维 2011-12-9 07:04
《科研随笔:自然语言处理系统的鲁棒性》 以前说过,一个 real life 自然语言处理系统,其质量和可用度除了传统的 data quality 的衡量指标查准度(precision)和查全度(recall)外,还有更为重要的三大指标:海量处理能力(scalability), 深度(depth)和鲁棒性(robustness)(参见:《 “三好”立委要做“三有” ...
个人分类: 立委科普|9520 次阅读|5 个评论 热度 3

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-26 10:38

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部