科学网

 找回密码
  注册

tag 标签: 舆情挖掘

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

【李白之32:从“没 de Vt” 聊开去】
热度 1 liwei999 2017-2-21 01:30
Me: 问一下各位老师 “没的吃”、“没的喝” ,算是个什么结构?与 “没吃的”、“没喝的” 有何异同?“没的害臊”、“没的不要脸” 这类大概是口语习惯表达法 不在此列。 没的 vt == have nothing to Vt VP 动宾结构 否定式宾语前置 “没 vt 的” 或者 “没的 vt 的”,也是 动宾结构的 VP,但否定式落在 v 不落在宾语身上,而且是 的字结构 做后置宾语。 梁: “没的” 应该是方言吧?wei老师,闽南话。 Me: 不仅是闽南 好像各地都有 至少是都能听懂的句式 . “没的吃” = “没有可吃的” = do not have anything to eat. 没吃的 意思有差别吗 do not have what to eat ? 没的 vt == 没的 可vt ? 问:“过得怎么样?” 答:“不怎样,这些年没的折腾。” “没的折腾” 怎么回事?跟 “没的害臊” 类似 也是成语用法 而不是有产生性的用法吗?? 白: 没的折腾,不懂啥意思 Me: 觉得就是 “净瞎折腾” 的意思。 字面是 “没什么可折腾” 没的害臊 是 真害臊 没的不要脸 是 真不要脸 嗨 别提了 没的生气呢 是 生气生不过来 的意思 太多气生了 咋回事 本来是说 nothing 没的生气 = 净生气了 白: 没的any more 先说这个“没”是副词还是动词。副词不好接名物化的“的”,所以是动词。如果“的”是“得”之讹误,更不具备结合条件 Me: “没” 是状态v,没有动作性,通常不带 【得字补语】 白: 这俩人有的一拼,这俩人有得一拼 Me: “没的 vt” 中 “没 比 vt” 谁主谁副? “没“” 主,那就是 v:have nothing to eat;Vt 为主的话,可以看作否定式 “的字结构”做前置宾语:nothing to eat,eat nothing 白: 没的,更像是存在量词的否定 对比:有人来了 有和来,谁主? Me: 我处理成 “来” 为主。“有” 虚晃一枪: 有人来 = somebidy 来 白: 我是把他俩合并,共享坑(不需要那么多萝卜),其他事情落地时再说。 Me: 形式上看,自然是“有”为句法的主要谓词。带 【宾+宾补】的 subcat pattern 结构。但实际中,把宾补当做主要谓语,把句首的 “有” 当做小词,处理起来有诸多便利,也更靠近语义实质。 白: 当小词,处理变式需要当心 Me: 有前条件的:必须位于句首。严格说是,跳过副词类小词,“有” 居于句首。有这么个约束。 白: “酱油有买的吗?” 有时又及物,有时又折腾出一个主语状语两可的萝卜 Me: “有” 是个很讨厌的词。台湾国语可以表达完成体,倒是与英语平行了。这个台湾国语的用法如今已经推广到整个华人世界了,算是丰富汉语时体系统的一个小贡献。 白: 闽南话 Me: “我有学琴过,就是一直没上路。” “你有看《长城》吗?据说巨烂,老谋子的好莱坞滑铁卢。” 还好紧随着动词,这种用法不太难识别。 白: 当助动词好了 Me: 查了一下,“我们没得吃,没得喝”,还真是用 “得” 的,比用 “的”的多。想不出来,这 “得” 怎么冒出来的。 白: 没得到吃,没得到喝。 没东西得以吃,没东西得以喝 Me: 我们没的(or 得)吃,没的(or 得)喝,已经好几天了。 这地儿没的(or 得)吃,没的(or 得)喝,我们来干啥? 从上例看,没 de Vt 作为谓语,可以要求一个 【human】 的主语,也可以要求一个 【location】 或 【org】 的主语。【human】或【location】常做主语。 【human】 have nothing to eat vs. 【@location】 there is nothing to eat “没的 Vt” 相对于 “有的 Vt”: 入伙吧,保你从此有的吃、有的喝。 可是除了 吃喝玩乐,这个 Vt 也不好延伸er而无歧义(歧义表现在“有的”做逻辑宾语还是作为不定代词【human】做逻辑主语,其实这种做逻辑主语歧义在上述吃喝玩乐的用法中也休眠隐藏在内,不过可能性较低而已): 有的喜欢,有的不喜欢: 1. there's some to like and some to dislike; 2. some (people) like it, some (people) dislike it 没的学习??? nothing to learn? 白: 没的项目做,散伙算了。 Me: 想得脑仁疼。就为对付这么个简单的破说法。 有一个简单的办法就是,对于这些个模模糊糊的结构,产生性不强,介于习惯用法的成语与非成语之间,见一个扔一个,统统进词典。“没的Vt” 也就不用琢磨这个 Vt 集合到底有多大了,哪些该词典化,哪些该规则化,各自的标配分析和休眠的种子又是怎样。譬如,大数据挖一把,trigram 频率就搞定大部该词典化的现象及其合适处置。而鸡零狗碎里面琢磨规律性,真心难,不值得也没时间花那个力气了。 嗨,奏酱紫了,好歹它了。 白: “酱油有买的吗?”这里有坑: 第一,“酱油”和“有”没有先结合,而是选择了Sh。第二,“有”和“买”没有立即结合,而是选择了Sh。 Me: 买的 = 买的人? 如果换成“卖”:卖的 == 卖的东西,回指 “酱油”。 “酱油有卖的吗?” “没有卖的,有赠的。” 白: 哈,卖的、送的,买的、偷的、拿的, Me: 酱油有买的吗 == 酱油有买的人吗?== 酱油有人要买吗? 这是最常见的理解。但不排除: 酱油有买的吗? == 酱油有买来的么?(还是全部是赠送的?or 全部是抢来的)。 这里,“买的” 回指 “酱油”。 有意思的是,如果是“买”,指人的概率大(hence 标配理解),回指的概率小。 如果是“卖”,则反过来,回指是标配理解,指人概率小。 白: 在我的处理里,都模糊掉了。 Me: hidden 歧义,句法模糊掉,是对的。 白: 在“卖”的场景下,不完全是回指,存在“整体-部分”关系。也许还有留一部分自用的、送人的。先行词是整体,含省略的搭配词+的是部分: 礼我只收脑白金。 也是同样。 Me: 我所谓 “回指” 包括 整体部分的关系。是我用词不确。以前说过类似的: hit sb on the head:hit 的是人 还是 人的头?其实都对:hit 了头 就 hit 了人。头”回指到人。 白: 白马非马 Me: i love iPhone for its screen I love the screen of iPhone 喜欢的是手机还是屏幕?我们做 sentiment 的认为 都算。喜欢部分就是喜欢整体。 白: Among the horses you gave me, I love the white one. 讲点逻辑的话,不算。爱屋及乌是有的,只爱屋不及乌也是有的。 说某些议员是狗婊子养的是骂人,说某些议员不是狗婊子养的也是骂人。 Me: 逻辑是这样的: I like the screen of iPhone and hate its battery life so this person has 2 votes for iPhone:1 positive and 1 negative。只有这样 sentiment 的统计才真正具有舆情的意义。世界上没有完美(脑残粉的视角不算)。喜欢一个 object 永远是喜欢它的(让人喜欢的)部分。有时候这个部分(Aspect)被明确表达出来作为理由。有时候不表达出来。从舆情的角度,就是投票。喜欢一个部分,就是对整体的正面的一票。喜欢整体,没有明确表达喜欢的部分,也算是一票,因为他心里其实是有部分的,理论上不可能是百分百从头到脚到细胞到令人讨厌的部分都喜欢。前者除了计入褒贬情绪(即舆情)的统计票数外,还提供了 actionable insight,具有具体的情报价值,后者只是舆情的发泄而已。 白: 往往,喜欢一部分而不提另一部分,就是委婉表示不喜欢另外部分 Me: 那么想,就没法做舆情统计了。你那是言外之意,正话反说;不是没有,总体是少量。 有一次应邀到一家公司给个 sentiment 的 talk,听众有问,讽刺如何识别,我说,讽刺的确是挑战,不仅对我们是挑战,对大家都是挑战。讽刺中的形式痕迹,也有可以识别的,但更多是缺乏形式痕迹的,或者形式表现在语气和表情这些 text 以外的方面。 可以识别的形式有: 1. thank you for 【BAD behaviour】 2. 【BAD behaviour】,great! 【BAD behaviour】是各种具体的负面表述或吐槽,而句首或句尾的正面情绪 thank you 或 great,形成反差,因此构成了形式上可捕捉的讽刺。通常的逻辑总是拿具体的正面(反面)证据来支持正面(反面)的情绪或评价。如果这个范式被打乱,就可以传达讽刺。 接着我说,但是很多讽刺是没有显式的文本痕迹。对于人的理解有时也构成困难,比较木的人或情商较低或经验不足的人,往往也无法 decode,对于机器自然也就难了。譬如 刚谈恋爱的愣头青 往往听不懂对象的话。但对象说 no 的时候,他不知道其实不一定是 no,很可能是 yes。 达令,给你买个你一直超喜欢的名包吧? No,这包太贵。 这个傻瓜居然就真地不买了。三个月后,对象跟隔壁阿二跑le。阿二不仅仅有钱,也有心,懂得察言观色 body language,善于 read between lines,尤其擅长 decode 女性的话语。 马: 看得懂这标题吗? 曝国王将考神交易至鹈鹕 联手浓眉组双塔 也许有背景知识的能秒懂,我是没懂,看了正文才懂 白: 这个例子好 “联手”的逻辑主语怎么确定很有看点。 Me: 我完全看不懂。不知道我的 parser “看懂了”没有: 从模拟domain专家理解的角度,几乎肯定错得离谱,因为根本没有domain的知识训练和词汇外挂。我们 domain-independent parser 的是语言学分析的“合理”。在 domain 化(domain porting 90% 涉及的是词汇表术语及其本体的引入,其次才是边缘规则的微调)之前,上面的这个parse,看上去应该说是合理的。 白: 需要知道,“国王、鹈鹕”是org,“考神、浓眉”是individual,联手individual的只能是individual,等等。“a联手b组c”,有兼语的味道。组,是动词,组成的缩写。 Me: “浓眉组和细眉组,分头出击。” “浓眉组双塔顶不过细眉组单塔,真是不可思议。” 白: 语义场在起作用 球队、球员、转会交易、阵型,暗中互相支持。这些命名实体很可能不用定义什么,就可以自动获得这些标签。大数据太丰富了。还需要知道,在NBA场景下,“浓眉组”是超低频的。 【相关】 【李白对话录系列】 中文处理 Parsing 【置顶:立委NLP博文一览】 《朝华午拾》总目录
个人分类: 立委科普|2540 次阅读|1 个评论
【大数据跟踪美大选,希拉里成功反击,拉川普下水】
热度 2 liwei999 2016-11-1 20:53
昨天发布了 【社煤挖掘:大数据告诉我们,希拉里选情告急】 ,鉴于大选的临近和选情的瞬息万变,我们决定用我们的社煤挖掘的核武器,每日跟踪大数据选情。 美国大选大数据一日一更新,11/1/2016 前24小时,看FBI事件发酵后的走势最新动态: 嗨 过去 24 小时,克林顿赶上来了也:两人打平,都是 -12%。热议度克林顿更甚,这也难怪,FBI 重启以后,议论焦点从老川转移到老喜身上。看看BPI这图,这一对真是冤家啊,纠缠在一起: 川大叔整个被喜大妈包住了,严严实实,比孙悟空的紧箍圈还厉害。Note:里面的圈是川普,外面的圈是希拉里,貌似希拉里气场如今大过老川了。照这个趋势,克林顿希望蛮好。 昨天晚上看新闻,说虽然 FBI 重启对克林顿选情影响很大,传统的新闻民调 CNN poll 还是希拉里领先五个百分点,其他的民调有曾一度只领先一个百分点的记录。虽然都比以前的领先幅度缩小,但仍然领先。川普阵营批判说这些个民调都是被操纵的,他们那边的民调是川普领先。这些个极小数据的民调极易偏差,公婆各有理,还是 put aside,咱们看真正的大数据:这是川普与希拉里最近24小时的 big data summary 对比 回顾重温一下一周来(10/25-11/1)的走向,作为希拉里选情起伏的背景: 到现在为止的一周平均 net sentiment,Trump 是 2%,Clinton 是 -12%,可见希拉里的反击,主要不是把自己的 social rating 提升了(过去一天还是 -12),而是把对手拉下水了,让川普从周平均的 +2 拉到现在的冰点以下 -12。克林顿用的是什么伎俩赶上来的呢? 朋友说,大招来了:原来 拉川普下水是找到了川普与普京勾搭的新证据啊: A Veteran Spy Has Given the FBI Information Alleging a Russian Operation to Cultivate Donald Trump Donald Trump Used Legally Dubious Method to Avoid Paying Taxes 约: 有点标题党,内容还算靠谱: 希拉里这次要坐牢? 施: 这次选举是测试大数据有效性的一个试金石,我感觉可能无效.... 另:美帝国主义的人民群众也太不成熟了,一点自己的信念都没有?都受舆情影响,吃瓜群众表示不懂 南: 关键是很多选民都没有被社交媒体覆盖到吧 施: 情绪和投票时间的关系是什么样的? Nick: 没错。伟哥说这么多没用,就一句话:谁能上。 张: 看样子是川普了,我很好奇这个家伙上来会是什么结果 我: 我这才是实事求是,动态跟踪,全方位大数据信息。“谁能上”那算个啥啊? 在胶着的选情下,那就是赌命,有没有大数据,都可以一赌,也都有不小的概率猜中,或猜不中,没有半点营养。如果是非胶着状态,大数据预测比其他预测更准。我坚信。 要学那个AI大嘴巴,谁不会?他们根本连技术细节都没有,不过是制造了一个话题,顶了一个AI的帽子,利用普罗和媒体对AI的敬畏 。我的选情追踪和分析,比那个高出不知几个数量级,这还真不是吹的。今天的选情趋势如果能够持续,大选日前没有新的定时炸弹被引爆,我预测克林顿当选的可能性可达80% Nick: @wei 是骡子是马,拉出来溜溜。就一句话:谁赢。 我: 这样吧,大选日前一天,我做个预测,根据一直到那一刻的综合大数据 analytics,现在不行,选情还在变化,并且显然有胶着的迹象。 Xi: @wei , 别那么保守! 得老莫者, 得天下! 肯定是Hillary赢了。。。 Nick: @wei 这算什么本事? 我: 尼克是星座骗女青年骗惯了,只知道短平快 如何得手,顾不了失手的后果了。 反正我有大数据 有平台 有深度parisng 我就这么每日追踪 不打无准备之仗。 以唐老师的说法,得老墨者得天下,那是克林顿无疑了, 西班牙语舆情那是一面倒,克林顿高高在上,从来没有下来过 。 白: 伟哥这是要把谁能上做成红学的节奏。 最后,谁能上不重要了,为了谁能上而秀肌肉的人互撕。 我: 重在过程 不在结果。 这次大选好 富有戏剧性和悬念, 具有观赏性和互撕性, 跌宕起伏 精彩纷呈 阿: 我开了个盘口 目前二人押川普 四人押希太 欢迎加入 重在结果 不在过程 我: 问一句 为什么希拉里推特说的三点facts 第一条说 fbi 并未重启电邮门调查,只是提议重启。 Nick: @wei 加入盘口,eat your own dog food 我: 第二个 fact 是 fbi director 自己并不清楚新发现的邮件有多少相关 据信很可能是已经审查过的邮件的另一个拷贝。 这个 director 涉嫌扰乱大选,对一个不知结果的新线索 可以按程序重启调查 但在大选前造成舆论 难逃干扰大选的怀疑,他可能也有违法乱纪的麻烦。 【相关】 【社煤挖掘:大数据告诉我们,希拉里选情告急】 CNBC: AI system finds Trump will win the White House and is more popular than Obama in 2008 Trump sucks in social media big data in Spanish Did Trump’s Gettysburg speech enable the support rate to soar as claimed? 【社煤挖掘:川普的葛底斯堡演讲使支持率飙升了吗?】 【社煤挖掘:为什么要选ta而不是ta做总统?】 Big data mining shows clear social rating decline of Trump last month Clinton, 5 years ago. How time flies … 【社媒挖掘:川大叔喜大妈谁长出了总统样?】 【川普和希拉里的幽默竞赛】 【大数据舆情挖掘:希拉里川普最近一个月的形象消长】 欧阳峰: 论保守派该投票克林顿 【立委科普:自动民调】 【关于舆情挖掘】 《朝华午拾》总目录 【关于立委NLP的《关于系列》】 【置顶:立委NLP博文一览】 【 立委NLP频道 】
个人分类: 社媒挖掘|4033 次阅读|2 个评论
【社煤挖掘:为什么要选ta而不是ta做总统?】
liwei999 2016-10-27 01:09
中文社煤挖掘美国大选的华人舆情 ,接着练。 Why and why not Clinton/Trump? Why 喜大妈?Why 川大叔?Why not Clinton? Why not Trump?这是大选的首要问题,也是我们舆情挖掘想要探究的重点。Why??? First, why Clinton and why not Clinton? 看看喜大妈在舆情中的优劣对比图(pros and cons)。 why Clinton?剔除竞选表现优秀等等与总统辩论和 campaign 有关的好话(“领先”、“获胜”、“占上风”、“赢得”等)外,主要理由有: 1. 老练 强硬; 2. 乐观; 2. 清楚; 4 换发活力 谈笑风生; 5. 梦想共同市场 拿着放大镜,除了政治套话和谀辞外也没看到什么真正的亮点。舆情领先,只能说对手太差了吧。四年前与奥巴马竞争被甩出一条街去,那是遇到了真正的强手。 OK,why not Clinton? 1. 性侵 性骚扰 威胁(她丈夫做的好事,她来背黑锅,呵呵。照常理她是受害者,可以同情的,不料给同样管不住下半身的川普一抹黑,她倒成了性侵的帮凶,说是威胁被性侵的女性。最滑稽的是,川普自己的丑闻曝光,他却一本正经带了一帮前总统克林顿的绯闻女士开记者会,来抹黑自己的对手克林顿夫人。滑稽逆天了。) 2. 邮件门 曝光 泄密 3 竞选团队的不轨行为 操纵大选 作弊 4. 克林顿基金会的问题 5. 华尔街收费 6 健康问题 7 撒谎、可耻 8. 缺乏判断力 这些都不是新鲜事儿,大选以来已经炒了很久了,但比起她的长处(经验老练等少数几条),喜妈被抓住的辫子还真不少。再看网民的情绪性吐槽, 说好话都是相似的,坏话却各有不同:轻的是,“乏善可陈”、“不喜欢”、“不信任”; 重的是:“妖婆”,“婊子”、“灾难”、“无耻”、“邪恶”。 作为对比,来看川大叔,why or why not Trump? pros:1. 减税;2. 承诺 崛起 (America great again);3. 真实;4. 擅长 business cons: 1. 曝光的视频丑闻 性骚扰 2. 偷税漏税 3. 吹嘘 4 咄咄逼人 喜怒无常 5 粗鄙、威胁 6 撒谎 情绪性吐槽,轻的是 “不靠谱”、“出言不逊”,重的是 “恶心”、“愚蠢”、“卑劣”、“众叛亲离”。 上篇中文社煤自动民调博文发了以后有朋友问,为什么不见大名鼎鼎的脸书。(微信不见可以理解,人家数据不对外开放,对隐私性特别敏感,比脸书严多了。不过,地球人都知道,反映我大唐舆情最及时精准的大数据宝库,非微信莫属)。查对了一下,上次做的中文舆情调查,不知何故 Facebook 不在 top 10,只占调查数据的 0.1%: 记得以前的英语社煤调查,通常的比例是 70% twitter,20% Facebook, 其他所有论坛和社交媒体只占 10%。最近加了 instagram、Tumblr 等,格局似有变。但是中文在海外,除了推特,Facebook 本来应该有比重的,特别是我台湾同胞,用 Facebook 跟东土用微信一样普遍。 再看看这次调查的网民背景分类。 1. 职业是科技为主(大概不少是咱码农),其次才是新闻界和教育界。这些人喜欢到网上嚷嚷。 这是他们的兴趣(interests),有意思的关联似乎是,喜欢谈政治的与喜欢谈宗教和美食的有相当大交集。 这是年龄分组,分布比较均匀,但还是中青年为主。 性别不用说,男多女少。男人谈政治与女人谈shopping一样热心。 最后看看地理分布,社煤的地理来源: 【相关】 【社媒挖掘:川大叔喜大妈谁长出了总统样?】 Big data mining shows clear social rating decline of Trump last month 【川普和希拉里的幽默竞赛】 【大数据舆情挖掘:希拉里川普最近一个月的形象消长】 论保守派该投票克林顿 【立委科普:自动民调】 【关于舆情挖掘】 《朝华午拾》总目录 【关于立委NLP的《关于系列》】 【置顶:立委NLP博文一览】 【 立委NLP频道 】
个人分类: 社媒挖掘|2971 次阅读|0 个评论
【大数据舆情挖掘:希拉里川普看图说话】
热度 1 liwei999 2016-10-23 17:54
大数据舆情挖掘,看图说话。 先看近一个月来在社会媒体上的希拉里和川普的品牌形象对比图: 看点三: 1 川普的 buzz 大过 希拉里一倍多,川普是话题中心(圈的大小表明热议度) 2. 普罗对川普比对希拉里,情绪更趋激烈:表现在 Y 轴的 passion intensity 上 3. 两人总体都不讨人喜欢,川普更加让人厌恶,表现在 x 轴上的 Net Sentiment(也就是褒贬对比的度量)。两人都在冰点之下,社会媒体的形象不佳。 如果我们要自动调查过去一个月时间的趋向和形象消长,可以考虑把数据分割为两段或三段来看此消彼长,先一分为二来看图: 看到了吧,过去一个月,随着总统大选辩论和丑闻的揭示和宣传,川普的媒体形象显著恶化,表现在舆情圈圈从右(x轴上的右是评价度高 love like,左边是评价度低 hate dislike)向左的位移。本来评价度clearly比希拉里要好,终于比希拉里差了。同时,希拉里的社会媒体形象有所改善,圈圈在从左向右位移。两个人始终都是冰点以下,吐槽多于赞美,但是就在一个月前,还是喜妈更不受待见: 不是民众更喜欢老川,而是普罗更厌恶喜妈 。 这个品牌对比图示表达了四维信息: 1. net sentiment 评价度 x 轴 2. passion intensity 舆情烈度 y 轴 3. buzz 圈圈的大小,是热议度 4. 一分为二的两个圈是时间的粗线条切割的维度 在二维的图纸上,要表达四维的信息,的确不是很容易。 要是嫌第四维时间太粗线条,咱们一分为三看看: 三个圈,浓度的深浅表达的是时间的远近。当短短的一个月的时间,被一分为三的时候,我们看到了什么趋向呢?请注意颜色的深浅,对应的是时间的远近。我们看到,喜妈的三个圈圈是左下角到右上(还是visualization设计不到家,不同品牌应该用不同的颜色区分才好)。原来喜妈的评价是先好,后坏,最后回到中间。而老川在同一个时间点,是先中,后略好,最后跌入深渊。 以上是利用我们自创的品牌对比图(有美国专利的)来看候选人的形象消长。 社会媒体数据的来源呢?Twitter 为主: 这是一个月来的舆情总结: 的确是大数据了,一个月的随机的社会媒体数据样本里面,两人的 mentions 就有近两亿,眼球数共计高达3万6千亿。川普占7成,喜妈才三成。川普跟冰冰类似,都是话题之王。 总体社会评价,川普零下20%,喜妈零下18%。 下面是有关川普的社煤数据选摘: Bill Clinton disgraced the office with the very behavior you find appalling in Trump. In closing, yes, maybe Trump does suffer from a severe case of CWS. Instead, in this alternate NY Times universe, Trump’s campaign was falling apart. Russian media often praise Trump for his business acumen. This letter is the reason why Trump is so popular Trump won I'm proud of Trump for taking a stand for what's right. Kudos to Trump for speaking THE TRUTH! Trump won I’m glad I’m too tired to write Trump/Putin fuckfic. #trump won Trump is the reason Trump will lose this election. Trump is blamed for inciting violence. Breaking that system was the reason people wanted Trump. I hate Donald Trump for ruining my party. 32201754 Trump is literally blamed by Clinton supporters for being too friendly with Russia. Another heated moment came when Trump delivered an aside in reponse to a Clinton one-liner. @dka_gannongal I think Donald Trump is a hoax created by the Chinese.... Skeptical_Inquirer The drawing makes Trump look too normal. I'm proud of Donald Trump for answering that honestly! Donald grossing me out with his mouth features @smerconish @realdonaldtrump Controlling his sniffles seems to have left Trump extraordinarily exhausted Trump all the way people trump trump trump Trump wins Think that posting crap on BB is making Trump look ridiculous. I was proud of Trump for making America great again tonight. MIL is FURIOUS at Trump for betraying her! @realdonaldTrump Trump Cartel Trump Cartel America is already great, thanks to President Obama. Kudos to Mr Trump for providing the jobs!! The main reason to vote for Trump is JOBS! Yes donal trump has angered many of us with his WORDS. Trump pissed off a lot of Canadians with his wall comments. Losing this election will make Trump the biggest loser the world has ever seen. Billy Bush's career is merely collateral damage caused by Trump's wrenching migration. So blame Donald for opening that door. The most important reason I am voting for Trump is Clinton is a crook. Trump has been criticized for being overly complimentary of Putin. Kudos to Trump for reaching out to Latinos with some Spanish. Those statements make Trump's latest moment even creepier. I'm mad at FBN for parroting the anti-Trump talking points. Kudos to Trump for ignoring Barack today @realDonaldTrump Trump has been criticized for being overly complimentary of Putin. OT How Donald Trump's rhetoric has turned his precious brand toxic via The Independent. It's these kinds of remarks that make Trump supporters look like incredible idiots. Trump is blamed for inciting ethnic tensions. Trump is the only reason the GOP is competitive in this race. Its why Republicans are furious at Trump for saying the voting process is rigged. Billy Bush’s career is merely collateral damage caused by Trump’s wrenching migration. Donald Trump is the dumbest, worst presidential candidate your country has EVER produced. I am so disappointed in Colby Keller for supporting Trump. Billy Bush’s career is merely collateral damage caused by Trump’s wrenching migration. In swing states, Trump continues to struggle. Trump wins Co-host Jedediah Bila agreed, saying that the move makes Trump look desperate. Trump wins Trump attacks Clinton for being bisexual! TRUMP win Pence also praised Trump for apologizing following the tape’s disclosure. In swing states, Trump continues to struggle. the reason Trump is so dangerous to the establishment is he is unapologetically alpha. 关于希拉里的社会媒体样本数据摘选: Hillary deserves worse than jail. Congratulations to Hillary her campaign staff for wining three Presidential debates. I HATE @chicanochamberofcommerce FOR INTRODUCING THAT HILLARY GIF INTO MY LIFE As it turns out, Hillary creeped out a number of people with her grin. Hillary trumped Trump Trump won! Hillary lost Hillary violated the Special Access Program (SAP) for disclosing about the nuclear weapons!! I trust Flint water more than Hillary Hillary continued to baffle us with her bovine feces. NEUROLOGISTS HATE HILLARY FOR USING THIS TRADE SECRET DRUG!!!!... CONGRATULATIONS TO HILLARY CLINTON FOR WINNING THE PRESIDENCY Supreme Court: Hillary is our only choice for keeping LGBT rights. kudos to hillary for remaining sane, I'd have killed him by now How is he blaming Hillary for sexually assaulting women. He's such a shithead The only reason I'm voting for Hillary is that Donald is the only other choice Hillary creeps me out with that weird smirk. Hillary is annoying asf with all of her laughing I credit Hillary for the Cubs waking up When you listen to Hillary talk it is really stupid On the other hand, Hillary Clinton has a thorough knowledge by virtue of her tenure as Secretary of State. Americans deserve better than Hillary Certain family members are also upset with me for speaking out against Hillary. Hillary is hated by all her security detail for being so abusive Hillary beat trump The only reason to vote for Hillary is she's a woman. Certain family members are also upset with me for speaking out against Hillary. I am glad you seem to be against Hillary as well Joe Pepe. Hillary scares me with her acions. Unfortunately Wikileaks is the monster created by Hillary democrats. I'm just glad you're down with evil Hillary. Hillary was not mad at Bill for what he did. She was mad he got caught. Just like she is not ashamed of what she did she is angry she got caught. These stories are falling apart like Hillary on 9/11 Iam so glad he is finally admitting this about Hillary Clinton. Why hate a man for doing nothing like Hillary Clinton Hillary molested me with a cigar while Bill watched. You are upset with Hillary for doing the same as all her predecessors. I feel like Hillary Clinton is God's punishment on America for its sins. Trumps beats Hillary You seem so proud of Hillary for laughing at rape victims. Of course Putin is going to hate Hillary for publicly announcing false accusations. Russia is pissed off at Hillary for blaming the for wikileaks! Hillary will not win. Good faith is stronger than evil. Trump wins🇺🇸 I am proud of Hillary for standing up for what is good in the USA. Hillarys plans are worse than Obama Hillary is the nightmare the people have created. Funny how the Hillary supporters are trashing Trump for saying the same thing. 🇺🇸🇺🇸🇺🇸🇺🇸🇺🇸🇺🇸 I am so proud of the USA for making Hillary Clinton president. Hillary, you're a hoax created by the Chinese Trump trumps Hillary During the debate, Trump praised Hillary for having the will to fight. Trump is better person than Hillary Donald TRUMPED Hillary Kudos to Hillary for her accomplishments. He also praised Hillary for handling the situation with dignity. During the debate, Trump praised Hillary for having the will to fight. People like Hillary in senate is the reason this country is going downhill. Hillary did worse than expectations. Trump will prosecute Hillary for her crimes, TRUMP will! Have to praise Hillary for keeping her focus. a landslide victory for Hillary will restore confidence in American democracy vindicated I was so proud of Hillary tonight for acting like a tough, independent woman. I dislike Hillary Clinton, as I think she is a corrupt, corporate shill. Hillary did worse than Timmy Kaine Im so glad he finally brought Benghazi against Hillary Hillary, thank you for confirmation that the Wikileaks documents are authentic and you did that tonight when you accused the Russians of hacking your servers! We the people deserve better than you! Supreme Court justices is the only reason why I'd vote for Hillary. Massive kudos to Hillary for keeping her cool with that beast behind her. Congrats to Hillary for actually answering the questions. She's spot on. #debate 【相关】 Big data mining shows clear social rating decline of Trump 【关于舆情挖掘】 《朝华午拾》总目录 【关于立委NLP的《关于系列》】 【置顶:立委NLP博文一览】 【 立委NLP频道 】
个人分类: 社媒挖掘|6063 次阅读|1 个评论
【关于舆情挖掘】
liwei999 2016-7-2 07:00
【喋喋不休论大数据(立委博文汇总)】 【新智元笔记:再谈舆情】 舆情挖掘系统独立验证的意义 【社煤挖掘:雷同学之死】 《利用大数据高科技,实时监测美国总统大选舆情变化》 世人皆错nlp不错,民调错大数据也不会错 社媒大数据的困境:微信的风行导致舆情的碎片化 从微信的用户体验谈大数据挖掘的客户情报 社媒挖掘:社会媒体疯传柴静调查,毁誉参半,争议趋于情绪化 【 奥巴马赢了昨晚辩论吗?舆情自动检测告诉你 】 全球社交媒体热议阿里巴巴上市 到底社媒曲线与股市曲线有没有、有多少相关度? 再谈舆情与股市的相关性 【『科学』预测:A-股 看好】 舆情挖掘用于股市房市预测靠谱么? 大数据帮助决策实例:《走进“大数据”——洗衣机寻购记》 【社媒挖掘:外来快餐店风光不再】 【社媒挖掘:中国手机市场仍处于战国争雄的阶段】 世界杯是全世界的热点,纵不懂也有义务挖掘一哈 【大数据挖掘:方崔大战一年回顾】(更正版) 【大数据挖掘:转基因一年回顾】 【大数据挖掘:“苦逼”小崔2013年5-7月为什么跌入谷底?】 【大数据挖掘:转基因中文网络的自动民调,东风压倒西风?】 【大数据挖掘:转基因英文网络的自动民调和分析】 只认数据不认人:IRT 的鼓噪左右美国民情了么? 继续转基因的大数据挖掘:谁在说话?发自何处?能代表美国人民么 关于转基因及其社会媒体大数据挖掘的种种问题 【美国网民怎么看转基因:英文社交媒体大数据调查告诉你】 【社媒挖掘:必胜客是七夕节情侣聚餐的首选之地?】 【社媒挖掘:大数据时代的危机管理】 测试粤语舆情挖掘:拿娱乐界名人阿娇和陈冠希开刀 【社媒挖掘:不朽邓丽君】 【社媒挖掘:社会媒体眼中的李开复老师】 【社媒挖掘:糟糕透顶的方韩社会形象】 社媒挖掘:关于狗肉的争议 社媒挖掘:央视的老毕 社媒挖掘:老毕私下辱毛事件再挖掘 大数据淹没下的冰美人(之一) 大数据淹没下的冰美人(之二) 大数据淹没下的冰美人(之三): 喜欢的理由 大数据淹没下的冰美人(之四): 流言蜚语篇(慎入) 大数据淹没下的冰美人(之五): 星光灿烂谁为最? 【社媒挖掘:成都暴打事件中的男司机和女司机】 【社媒挖掘:社会媒体眼中的陳水扁】 【社媒挖掘:社会媒体眼中的李登輝】 【社媒挖掘:馬英九施政一年來輿情晴雨表】 【社媒挖掘:臺灣政壇輿情圖】 【社媒挖掘:社会媒体眼中的臺灣綠營大佬】 舆情挖掘:九合一國民黨慘敗 馬英九時代行將結束? 社会媒体舆情自动分析:马英九 vs 陈水扁 社媒挖掘:争议人物方博士被逐,提升了其网路形象 方韩大战高频情绪性词的词频分析 方韩大战的舆情自动分析:小方的评价比韩少差太多了 社媒挖掘:苹果CEO库克公开承认同志身份,媒体反应相当正面 苹果智能手表会是可穿戴设备的革命么? 全球社交媒体热议苹果推出 iPhone 6 互联网盛世英雄马云的媒体形象 革命革到自身头上,给咱“科学网”也挖掘一下形象 两年来中国红十字会的社会媒体形象调查 自动民调Walmart,挖掘发现跨国公司在中国的日子不好过 【社媒挖掘:“剩女”问题】 【舆情挖掘:2013央视春晚播后】 【舆情挖掘:年三十挖一挖央视春晚】 新浪微博下周要大跌?舆情指数不看好,负面评价太多(疑似虚惊) 【大数据挖掘:微信(WeChat)】 【大数据解读:方崔大战对转基因形象的影响】 【微博自动民调:薄熙来、薛蛮子和李天一】 【社媒挖掘:第一夫人光彩夺目赞誉有加】 Chinese First Lady in Social Media Social media mining on credit industry in China Sina Weibo IPO and its automatic real time monitoring Social media mining: Teens and Issues 立委元宵节大数据科技访谈土豆视频上网 【大数据挖掘:中国红十字会的社会媒体形象】 【社媒挖掘:社会媒体眼中的财政悬崖】 【社媒挖掘:美国的枪支管制任重道远】 【舆情挖掘:房市总体看好】 【社媒挖掘:社会媒体眼中的米拉先生】 【社会媒体:现代婚姻推背图】 【社会媒体:现代爱情推背图】 【科学技术之云】 新鲜出炉:2012 热点话题五大盘点之五【小方vs韩2】 【凡事不决问 social:切糕是神马?】 Social media mining: 2013 vs. 2012 社会媒体测试知名品牌百度,有惊人发现 尝试揭秘百度的“哪里有小姐”: 小姐年年讲、月月讲、天天讲? 舆情自动分析表明,谷歌的社会评价度高出百度一倍 圣诞社媒印象: 简体世界狂欢,繁體世界分享 WordClouds: Season's sentiments, pros cons of Xmas 新鲜出炉:2012 热点话题五大盘点之一【吊丝】 新鲜出炉:2012 热点的社会媒体五大盘点之二【林书豪】 新鲜出炉:2012 热点话题五大盘点之三【舌尖上的中国】 新鲜出炉:2012 热点话题五大盘点之四【三星vs苹果】 社会媒体比烂,但国骂隐含舆情 肮脏语言研究:英语篇 肮脏语言研究:汉语篇(18岁以下勿入) 新年新打算:【社媒挖掘】专栏开张大吉 【 关于 NLP 以及杂谈 】 【 关于NLP体系和设计哲学 】 【 关于NLP方法论以及两条路线之争 】 【 关于 parsing 】 【关于中文NLP】 【关于信息抽取】 【关于舆情挖掘】 【关于大数 据挖掘】 【关于NLP应用】 【关于人工智能】 【关于我与NLP】 【关于NLP掌故】 《朝华午拾》总目录 【关于立委NLP的《关于系列》】 【置顶:立委NLP博文一览(定期更新版)】 【 立委NLP频道 】
个人分类: 社媒挖掘|3088 次阅读|0 个评论
《扫了 sentiment,NLP 一览众山小:从“良性肿瘤”说起》
liwei999 2016-7-1 16:01
高,广,宽,深,大,粗,长 ...... 这些形容词很有意思,本来它们应该是中性的,因为作为逻辑形容词一极,在它所限定的逻辑名词没有确认之前,理论上是无法断定褒贬的:譬如 高收入 高品位 是优点,但高血压 高血脂 就不好。不过语言的逻辑是一回事儿,语言的心理是另一回事儿,从语言心理来看,如果逻辑名词阙如,这些词默认是褒义词。逻辑上说不通,因为落脚点都不知道,怎么知道褒贬呢?可几乎全人类都有这种迷信 高 大 上 远 粗 长 深 广 多 硬 。。。的趋向,这也反映在命名上,无论是给自己的产品、算法,还是给自己的孩子起名,大家都喜欢用形容词的这一极,而不喜欢用另一极 短 小 软 细 少 矮 窄 近 。HowNet 把两极以及中间的级的这些形容词 都命名为 X-Value, 我们还是把两极区别了一下,ValueUp and ValueDown。 ValueUp 的默认在 sentiment 系统中是有用的,它天生讨喜。这些都是客观形容词,理论上无褒贬,实际上有默认。主观形容词不同,它无需落脚到逻辑名词,就已经宣示了褒贬: 譬如,好/坏 优/劣 良/歹 善/恶 正/邪。哪怕它最终落脚到一个坏的名词身上,这种宣示还是有效的: 如,良性肿瘤。 肿瘤是坏东西,但检查出结果是“良性肿瘤”的时候,那就是喜讯。当然 这里面有些微妙 任何矛盾体的组合 都可能呈现这类微妙的问题 sentiment 这一行就更明显。微妙之处在于,局部来看语言结构,当褒义的主观形容词“良性”开始修饰贬义的名词“肿瘤”的时候,其作用是反转,贬义变褒义了。但是,这种反转在更大的上下文中,仍然是摇摆的。尽管良性,毕竟是肿瘤,毕竟是疾病。所以良性肿瘤仍然可以略带贬义。所以我说,自然语言中,最难缠的就是sentiment了,人类用主观语言(subjective language)表达 sentiment,比起用客观语言(objective language)表达事实,要微妙、歧义、模糊、摇摆得多。 NLP 做 sentiment 是吃硬果子。这个苦果吃下去消化了,那些个基于事实抽取的所谓知识图谱,就是小菜了。扫了 sentiment,就如登了泰山,NLP 可以一览众山小了。 【相关】 【立委科普:舆情挖掘的背后】 【置顶:立委NLP博文一览(定期更新版)】 《朝华午拾》总目录
个人分类: 立委科普|3338 次阅读|0 个评论
【社煤挖掘:雷同学之死】
热度 11 liwei999 2016-5-14 08:54
这是最近的热点新闻,舆情鼎沸,有蔓延之势。值得挖掘和跟踪。 社煤选样: 雷洋遗体外伤严重 质疑雷洋案件十大疑点 雷洋妻报案:有充分证据警察涉故意伤害致死罪 ( 图 ) 雷洋事件解决不好,非正常死亡可能成为常态 【时局深度】 - 蔡慎坤:血与泪的控诉还原雷洋遇害真相 对比家属报案书和警方通报再看雷洋致死案 转发雷洋案刑事报案书:描述死亡过程 ( 真相即将到来 )- 衡阳 雷洋案件之疑点 - 第 11 页 - 血与泪的控诉还原雷洋遇害真相 - 网传 ' 大学生屁股被警察叔叔打开花 ' ,警方:属实!图 _ 中华论坛 _ 中华网社区 - 雷洋死亡当晚到底发生了什么?央视专访当事警察 雷洋家属向北京市检报案 要求侦查涉事民警 - ' 他沒有嫖娼時間 ' 家屬報案指雷洋被無辜毆死 吴文萃 ( 雷洋妻子 ) :关于要求北京市检察院立案侦查雷洋被害案的刑事报案书 血与泪的控诉还原雷洋遇害真相 雷洋死有余辜! 雷某的家人实在太不要脸了! “ 刑事报案书 ” 描述雷洋之死【李鸣生】 - 常德 雷洋妻子报案,事件最新爆料!嫖娼是栽赃,雷洋被打死 - 休闲侃吧 - 雷洋遗孀之报案书等于官媒的死刑判决书 雷洋父母看完遗体后,为何当场给尸检证人下跪? 雷洋最新情报: “ 刑事报案书 ” 描述雷洋之死经历 关于要求北京市检察院立案侦查雷洋被害案的刑事报案书 ( 转载 ) 我们为什么要关注雷洋之死? 雷洋案刑事报案书,警方涉嫌故意伤害(致人死亡)罪、滥用职权罪、帮助伪造证据罪 - 转帖:雷洋妻子向北京市检察院报案:嫖娼是栽赃,雷洋被打死 1) 雷洋家属告控告警方 2) 雷被殴打致死当日是雷结婚纪念日 3 )尸检结果延迟到 60 天出结果 一个昌平 “ 嫖娼者 ” 为何引燃了全国公众的怒火?(转) 陈有西律师曝雷洋案发现最新一个重要疑问 吴文萃 ( 雷洋妻子 ) :关于要求北京市检察院立案侦查雷洋被害案的刑事报案书 雷洋家属向北京市检报案,要求侦查涉事民警 【时评】雷洋之死,疑云重重 人大学生会秘书长郝鹏程说,雷洋嫖娼不是第一次。 作为正在人大读书的研究僧,分析雷案可能的结果吧 - 七律 读微信圈雷洋数帖激愤有咏一气呵成重字不改也 何新:悼雷洋 哀悼环保烈士雷洋 血的事实告诉我,雷洋事件很快就平静下来! 警察滥用国家暴力必须予以遏制 雷洋事件解决不好,非正常死亡可能成为常态 【时局深度】 - 雷洋之死纯属咎由自取 _ 中华论坛 _ 中华网社区 - 人大硕士雷洋真的嫖娼了吗? 十三省 朝吉:足疗送命记 雷洋之死击碎了中产阶级的优越感! 昌平的一个 “ 嫖娼者 ” 为什么会引发公众的怒火 雷洋案:尽管真相还在路上,三种共识可以先到 北京公安回應雷洋案 : 決不護短 北京市检察院:已将雷某家属报案材料移送昌平检方 北京市公安局公开回应雷洋案:高度重视 绝不护短 横河:雷洋案为什么应该怀疑警方 关于雷 阳事件的随想 警察蜀黍为何喜欢抓嫖? - “ 雷洋事件 ” 终于开了个好头 雷洋用牺牲捍卫一个公务员的尊严 _ 网上谈兵 _ 中华网社区 - 从目击者证言和记者调查的报道看被忽略的雷洋事件关键点 雷洋被强押致死案,槽点多多,警方说辞漏洞百出 雷洋事件:中国人民大学 88 级部分校友向公安部门下战书 雷洋家属联系第三方鉴定机构 将第二次与检方沟通 - 雷洋事件,显示了老百姓的焦虑,不安全和无助感 _ 网罗天下 _ 天涯论坛 雷洋的家属成了大输家!!! 雷洋案真相不难搞清,但很多人打死也不愿相信 解密雷洋之死的根本原因 !- 常德 有见过抓嫖不在店里抓现行而在马路上盘查的吗 【视点】比雷某嫖娼事件真相更可怕的,是 “ 相信 ” 尽失! 【时评】雷洋事件,送环球时报两字无耻 中国人民大学 88 级部分校友就雷洋同学意外身亡的声明 雷洋之死:给你真相又何妨? 雷洋遗体外伤严重 尸检后家属控告警方涉嫌犯罪 - 中国禁闻网 呼格案律师谈雷洋之死 : 涉事警察是嫌犯 警方无权再接触证人 - 常德 民众为什么关注雷洋的案子? 转载:雷洋妻子正式报案:嫖娼是栽赃,雷洋致命处睾丸异常肿大系被打死 妻子坚决捍卫老公嫖娼有理正义吗。打飞机不算嫖娼吗 _ 中华论坛 _ 中华网社区 - 雷洋之死的九大谜团,谁能告诉我们真相? 雷洋案:守住私德的底线,恢复人性的的良知 一周新闻聚焦:雷洋之死掀起舆论风暴,各方谴责警方滥权 雷洋案:守住私德的底线,恢复人性的的良知 人大学生会秘书长郝鹏程说,雷洋嫖娼不是第一次。 雷洋案真相不难搞清,可怕的是有人就是打死也不愿相信 网友热议:雷洋的事,恐怖在哪儿? ( 图 ) - 看中国 secretchina.com 雷洋尸检报告未出,但问题已显现: ( 第 3 页 )_ 天涯杂谈 _ 天涯论坛 嫖娼案拒谈嫖娼,雷洋老婆居心叵测,图谋不轨 雷洋死亡案铁证如山,雷洋没有白死 雷洋案新证据浮现:警察有问题 快讯!雷洋家属正式控告警方涉嫌犯罪 雷某嫖娼案最终结果的终极预测 - 第 2 页 - 雷洋怎么死的,我来 分析下。 雷洋死因的逻辑分析 雷洋怎么死的? 【猫眼看人】 - 雷洋嫖娼,谁又在嫖中国法律 _ 天涯杂谈 _ 天涯论坛 警方回应雷洋案热点问题 昌平检方介入调查 【转帖】中国人民大学 88 级部分校友就雷洋同学意外身亡的声明 - 橫河:雷洋案為什麼應該懷疑警方 最新消息:从警方提供及其他方面提供的证据看,雷洋涉嫌 “ 嫖娼 ” 的疑问太多!【铁证】 - 有啥说啥 我们为什么要关注雷洋之死? ( 第 4 页 )_ 关天茶舍 _ 天涯论坛 雷阳嫖娼就可以打死吗?转 _ 网罗天下 _ 天涯论坛 我服了雷洋家人了,到底要闹哪样?没见过这么无赖的 ( 第 5 页 )_ 天涯杂谈 _ 天涯论坛 草根今日谈:依法治国请从雷洋事件开始 人大部分 88 级校友就同学雷洋身亡声明 : 对恶 我们不会忍太久 全文 - 中国禁闻网 中国人民大学 77 、 78 级校友关于雷洋的声明 大陸雷洋離奇死亡 聯合國貼文關注 雷洋尸检超过 12 个小时 北京昌平警方回避不 热帖:为什么我们应该感谢雷洋的妻子 ( 图 ) 雷洋死有余辜! 由雷洋事件看恶警李乐斌杀人未受惩罚的危害性 支持雷洋遗孀依法起诉诬陷其亡夫的媒体 雷洋之死的真相究竟是什么? 雷洋,愿你的名字叫做公正与法治 【猫眼看人】 - 雷洋事件,显示了老百姓的焦虑,不安全和无助感 _ 网罗天下 _ 天涯论坛 ' 嫖娼者 ' 雷洋的安全感要不要保护 亦忱:简评陈有西代理雷洋案的前景 雷洋案新证据浮现:警察有问题 雷洋之死的两个最重要真相! - 云中茶社 由雷洋事件看恶警李乐斌杀人未受惩罚的危害性 雷洋家属发表声明:警方的做法是在混淆视听 昌平警方的行为完全合法! 周小平: 酷吏以法杀人,奸生以文灭口 - 真相为何败给愤怒? - 第 6 页 - 雷洋案:守住私德的底线,恢复人性的的良知 三点详析雷洋事件严重亏空损耗了 XX 公信力! 雷洋有没有嫖娼,有一个绝招,立刻就能见分晓! 风云洞评 劣等民族情商高? ( 图 ) 周小平: 酷吏以法杀人,奸生以文灭口 - 真相为何败给愤怒? - 第 6 页 - 周小平: 酷吏以法杀人,奸生以文灭口 - 真相为何败给愤怒? - 第 6 页 - 雷洋有没有嫖娼,有一个绝招,立刻就能见分晓! 雷洋案:守住私德的底线,恢复人性的的良知 涉案警方擅自检验死者 DNA 是否涉嫌违法犯罪? 贾冀豫 __ 北京出租车司机说雷洋是打死的 【风青杨专栏】对不起,我并不想知道雷洋如何嫖娼 ( 第 8 页 )_ 天涯杂谈 _ 天涯论坛 雷洋之死让普通人感到无比恐惧 雷洋之死或可推动社会三大进步 雷洋之死让普通人感到无比恐惧 这不是两个人死亡的问题 _ 社会热点 _ 中华网社区 - 解密雷洋之死的根本原因 !- 常德 性价比。。。。 _ 上海汽车论坛 _XCAR 有见过抓嫖不在店里抓现行而在马路上盘查的吗 雷洋嫖娼离奇死亡案。 重大消息!国资委官员嫖娼被抓猝死(组图) 这不是两个人死亡的问题 张鸣:雷洋之死 雷洋案,网友如何 “ 推波助澜 ” ?全民一起破案,真相越来越近了吗? - 人大硕士求救帖,几乎每一段都充斥着谎言! 中国人民大学 77 、 78 级校友关于雷洋的声明 中国人民大学 77 、 78 级校友关于雷洋的声明 2016 年 05 月 13 日 人大的校友别再发声了, 77 , 78 , 84 , 88 级的 女人天天被杀都激不起水花,雷洋死就激起千层浪! 《雷洋案》引起北京公安局领导高度重视 雷洋是不是嫖娼不重要?扯淡!笔者用十点给某些人普法 快讯!雷洋家属正式控告警方涉嫌犯罪 雷洋案:守住私德的底线,恢复人性的的良知 雷洋事件也许将有助中国执法部门的公正、警醒? 那些声嘶力竭认为雷洋嫖娼该死的人,他们是些啥人? 雷洋事件也许将有助中国执法部门的公正、警醒? 关注小人物的命运 ! 就是关注自个命运 ! 小人物之死网友理应关注 雷洋案:守住私德的底线,恢复人性的的良知 “ 欺负死人不能说话 ” 乃世间首恶 “ 欺负死人不能说话 ” 乃世间首恶 拿雷洋殒命事件大肆鼓噪的那些人,可把死者一家人害惨了 “ 欺负死人不能说话 ” 乃世间首恶 “ 欺负死人不能说话 ” 乃世间首恶 力瑾:還有多少國人在意雷洋案的真相? 雷阳嫖娼就可以打死吗?转 _ 网罗天下 _ 天涯论坛 【野渡专栏】草根今日谈:依法治国请从雷洋事件开始 _ 天涯杂谈 _ 天涯论坛 【野渡专栏】草根今日谈:依法治国请从雷洋事件开始 _ 天涯杂谈 _ 天涯论坛 雷洋案:守住私德的底线,恢复人性的的良知 警方续昌平涉嫖男子在查处过程中突发死亡通报有无问题 - 第 2 页 - 警务探讨 草根今日谈:依法治国请从雷洋事件开始 【野渡专栏】草根今日谈:依法治国请从雷洋事件开始 _ 天涯杂谈 _ 天涯论坛 雷洋案:为何警方信息发布总显得很被动? 【视点】比雷某嫖娼事件真相更可怕的,是 “ 相信 ” 尽失! 【时评】雷洋事件,送环球时报两字无耻 中国人民大学 88 级部分校友就雷洋同学意外身亡的声明 ' 嫖娼者 ' 雷洋的安全感要不要保护 打飞机为何没有改变雷洋案的舆情走向? 一个昌平 “ 嫖娼者 ” 为何引燃了全国公众的怒火?(转) 十族沦为下一个魏则西比雷洋尤恐怖 - 有图有真相 - 中豫爆料 十日谈;我想说几句了,关于何新的两篇文章 _ 中华论坛 _ 中华网社区 - 女人天天被杀都激不起水花,雷洋死就激起千层浪! 女人天天被杀都激不起水花,雷洋死就激起千层浪! 喝我这七星茶 听他摆龙门阵 再饮三盅 喝我这七星茶 听他摆龙门阵 再饮三盅 喝我这七星茶 听他摆龙门阵 再饮三盅 【今言野语】副省长私访被警察殴打的社会问题? _ 新闻众评 _ 天涯论坛 雷洋死亡案铁证如山,雷洋没有白死 雷洋死亡案铁证如山,雷洋没有白死 说雷阳打飞机我的看法不成立! _ 中华论坛 _ 中华网社区 - 陈中华;警察威严不容丧尽,法律遵严不容侵犯 _ 中华论坛 _ 中华网社区 - 为违法警察洗地,无耻! _ 中华论坛 _ 中华网社区 - 雷洋事件,某些人已经玩过火了! 雷洋父母看完遗体后,为何当场给尸检证人下跪? 雷洋父母看完遗体后,为何当场给尸检证人下跪? 雷洋事件:雷洋律师团调集近 20 位律师参案 雷洋事件:雷洋律师团调集近 20 位律师参案 雷洋案:守住私德的底线,恢复人性的的良知 转载:一个昌平 “ 嫖娼者 ” 为何引燃了全国公众的怒火? | 洛阳城事 一周新闻聚焦:雷洋之死掀起舆论风暴,各方谴责警方滥权 雷洋之死第二季 规范警务活动:从雷洋案开始 雷洋之死击碎了中产阶级的优越感! 人大学生会秘书长郝鹏程说,雷洋嫖娼不是第一次。 人大学生会秘书长郝鹏程说,雷洋嫖娼不是第一次。 人大学生会秘书长郝鹏程说,雷洋嫖娼不是第一次。 人大学生会秘书长郝鹏程说,雷洋嫖娼不是第一次。 人大学生会秘书长郝鹏程说,雷洋嫖娼不是第一次。 人大学生会秘书长郝鹏程说,雷洋嫖娼不是第一次。 人大学生会秘书长郝鹏程说,雷洋嫖娼不是第一次。 人大学生会秘书长郝鹏程说,雷洋嫖娼不是第一次。 雷洋案:守住私德的底线,恢复人性的的良知 人大学生会秘书长郝鹏程说,雷洋嫖娼不是第一次。 人大学生会秘书长郝鹏程说,雷洋嫖娼不是第一次。 李悔之:比雷洋之死更可怕的是 龙兴伟 从雷洋案看科学研究思维在生活中的应用 从雷洋案看科学研究思维在生活中的应用 人大部分 88 级校友就同学雷洋身亡声明 : 对恶 我们不会忍太久 全文 - 中国禁闻网 民主到底能不能当饭吃? 对警察说两句,你们不感到愧疚吗 涉嫌嫖娼男突发死亡,你怎么看? - 雷洋事件,让我想起那些年采访过的奇葩嫖娼案 _ 三秦网 雷洋被嫖被死案,急呼性合法化 _ 京味悠长 _ 天涯论坛 贪官雷洋嫖娼被抓 , 畏罪拘捕逃跑未遂身亡 雷洋父母看完遗体后,为何当场给尸检证人下跪? 我又不嫖娼,我为什么会成为下一个雷洋 我们追问雷洋是怎么死的,他们却要证明他是怎么嫖的! 雷洋怎么死的,我来 分析下。 一周新闻聚焦:雷洋之死掀起舆论风暴,各方谴责警方滥权 雷洋妻儿父母岳父母的今后生活北京警方必须承担 - 雷洋案件之疑点 - 第 5 页 - 投票赢取《狄仁杰之神都龙王》 .. 《意外的恋爱时光》都市剩男 .. 为您梦想中的 “ 土豪人生 ” 投票 .. 雷洋事件需要真相而非真像 雷洋案件之疑点 - 第 3 页 - 有谁认为雷洋不是警察打死的 _ 亚洲论坛 _ 天涯论坛 拍案尖笑(集锦) 雷阳事件现场群众偷拍视频 雷洋疑案:史上效率最高最变态最廉价的嫖娼 雷洋事件解决不好,非正常死亡可能成为常态 【时局深度】 - 雷洋事件解决不好,非正常死亡可能成为常态 老徐:雷洋事件需要真相而非真像 雷洋事件,让我想起那些年采访过的嫖娼案 雷洋案:守住私德的底线,恢复人性的的良知 警察能让处女嫖娼,何况男士乎? 雷洋事件解决不好,非正常死亡可能成为常态 _ 中华论坛 _ 中华网社区 - 雷洋事件解决不好,非正常死亡可能成为常态 _ 中华论坛 _ 中华网社区 - 人大学生会秘书长郝鹏程说,雷洋嫖娼不是第一次。 雷洋之死击碎了中产阶级的优越感! 雷洋之死击碎了中产阶级的优越感! 贾冀豫 __ 北京出租车司机说雷洋是打死的 ” 这份 “ 公平正义 ” ,雷洋听不到了,但我们必须感受到! ( 第 2 页 )_ 重庆 _ 天涯论坛 警察能让处女嫖娼,何况男士乎? 让子弹飞一会:人大硕士涉嫖身亡 ( 集中讨论 )( 第 2 页 )_ 国际观察 _ 天涯论坛 雷阳嫖娼就可以打死吗?转 _ 网罗天下 _ 天涯论坛 这些事发生在啥国度?! 德媒:雷洋之死公信力缺失之下人人自危 ( 图 ) 德媒:雷洋之死公信力缺失之下人人自危 ( 图 ) - 中国禁闻网 德媒:雷洋之死公信力缺失之下人人自危 ( 图 ) 女人天天被杀都激不起水花,雷洋死就激起千层浪! 对不起,我并不想知道雷 洋如何嫖 娼 - 邵阳 中国人民大学 77 、 78 级校友关于雷洋的声明 罗竖一:检方应尽快就雷洋一案启动侦查程序 雷洋死亡案,我持消极看法 草根今日谈:依法治国请从雷洋事件开始 【野渡专栏】草根今日谈:依法治国请从雷洋事件开始 _ 天涯杂谈 _ 天涯论坛 张鸣:雷洋之死 说服公众 【话题】常识变为异端的社会 下一个 “ 雷洋 ” 不会太远,或是你我,或在身边 - 下一个 “ 雷洋 ” 不会太远,或是你我,或在身边 - 被雷洋案击中的那根弦 雷洋案与毒地案有关?网传因特殊身份致死 ( 组图 ) 警方:已證實雷洋有嫖娼行為 喝我这七星茶 听他摆龙门阵 再饮三盅 喝我这七星茶 听他摆龙门阵 再饮三盅 喝我这七星茶 听他摆龙门阵 再饮三盅 雷洋嫖娼案的所有证据都是事后补上? 雷洋嫖娼案的所有证据都是事后补上? ( 图 ) 雷洋嫖娼案的所有证据都是事后补上? ( 图 ) - 中国禁闻网 重要质疑:就雷洋案请教昌平警方几个问题 - 常德 雷洋嫖娼案的所有证据都是事后补上? ( 图 ) 关注雷洋,也关注人民警察 就雷洋案请教昌平警方几个问题 没有嫖娼动机的说法很可笑 雷洋死亡原因的最简单分析 雷洋案新证据浮现:警察有问题 三个字道破宇宙真理,破解《道德经》三千年谜团。 雷洋家属状告公安局全体民警,称雷洋没嫖娼,一切都是警方伪造,故意杀人后伪造事实 凯迪何公然支持传谣?!有关 “ 雷阳视频 ” 的真相 十年一觉京华梦 赢得娼平嫖客名 雷洋 “ 嫖资收据 ” 铁证如山 _ 胜利社区 _ 东营论坛 _ 油城茶座 985 各校新闻量排行 张鸣:雷洋之死 .............. 尸检结论获一致认可前 雷洋遗体不会被火化 洗脚女,昌平警察提供了雷洋没有进入洗脚店的证据 民主到底能不能当饭吃? 识不足则多虑,不要因个别负面事件过于恐慌 - 我说深圳事 谁在妖魔化中国人 中国人开始追求免于恐惧的自由 有谁认为雷洋不是警察打死的 _ 亚洲论坛 _ 天涯论坛 致人 “ 屁股开花 ” 的警察有兽性无人性 有谁认为雷洋不是警察打死的 _ 亚洲论坛 _ 天涯论坛 雷洋事件,某些人已经玩过火了! 中国人开始追求免于恐惧的自由 ( 转载 )_ 邯郸 _ 天涯论坛 雷洋案: “ 我上车,我必死 ” 公知们,不要搬起石头砸了自己的脚 ( 转载 )_ 时尚资讯 _ 天涯论坛 质疑雷洋案件十大疑点 雷洋父母看完遗体后,为何当场给尸检证人下跪? 雷洋妻报案:有充分证据警察涉故意伤害致死罪 ( 图 ) 雷洋案: “ 我上车,我必死 ” 欲追究警方刑責 雷洋家屬向北京市檢報案 | 暴力執法 | 大紀元 欲追究警方刑责 雷洋家属向北京市检报案 雷洋家属及代理律师已提出刑事起诉 雷洋事件,某些人已经玩过火了! 欲追究警方刑事责任 雷洋家属向北京市检报案 - 中国禁闻网 四川省纪委与厅纪委过去有结论吗?王书记上任后又是什么结论? - 四川省纪委与厅纪委过去有结论吗?王书记上任后又是什么结论? - 有谁认为雷洋不是警察打死的 _ 亚洲论坛 _ 天涯论坛 每日大盘走势预判和盘中分时高低点的实时分析 各国《宪法》中几种《权利法案》之比较 除了移民我们还有什么更好的选 蔡慎坤 家属最大的交代和安慰 雷某嫖娼案最终结果的终极预测 - 第 2 页 - 很奇怪,没抓现行,雷洋已死,警方是怎么锁定雷洋所嫖失足女的? 有谁认为雷洋不是警察打死的 _ 亚洲论坛 _ 天涯论坛 有谁认为雷洋不是警察打死的 _ 亚洲论坛 _ 天涯论坛 民主到底能不能当饭吃? 雷洋死亡案,已经形成死结 喝我这七星茶 听他摆龙门阵 再饮三盅 民主到底能不能当饭吃? 雷洋事件引发更深刻的社会问题 蔡慎坤:雷洋之死真相早己大白于天下 民主到底能不能当饭吃? 喝我这七星茶 听他摆龙门阵 再饮三盅 民主到底能不能当饭吃? 民主到底能不能当饭吃? 蔡慎坤:雷洋之死真相早己大白于天下 民主到底能不能当饭吃? 民主到底能不能当饭吃? 民主到底能不能当饭吃? 三点详析雷洋事件严重亏空损耗了 XX 公信力! 喝我这七星茶 听他摆龙门阵 再饮三盅 民主到底能不能当饭吃? 民主到底能不能当饭吃? 民主到底能不能当饭吃? 蔡慎坤:我們為什麼恐懼為什麼憤怒? 童大焕:中国人开始追求免于恐惧的自由 | 洛阳城事 蔡慎坤:我们为什么恐惧为什么愤怒? 雷洋是否嫖娼和怎么死亡证据链暴光 童大煥:中国人开始追求免于恐惧的自由 - 喝我这七星茶 听他摆龙门阵 再饮三盅 转发:我们追问雷洋是怎么死的,警方却非要证明他是怎么嫖的? 赏析《还原雷洋之死》(续) 一周新闻聚焦:雷洋之死掀起舆论风暴,各方谴责警方滥权 雷剧大反转之二:让子弹飞一会儿( ZT ) 国资委官员嫖娼死的 “ 春秋笔法 ”- 程序正义高于实质正义的理念,规则重于道德的理念,生命高于一切的理念 _ 胜利社区 _ 东营论坛 _ 油城茶座 有谁认为雷洋不是警察打死的 _ 亚洲论坛 _ 天涯论坛 有谁认为雷洋不是警察打死的 _ 亚洲论坛 _ 天涯论坛 雷洋事件需要真相而非真像 雷洋之死真相早己大白于天下 几乎所有关注雷洋之死的舆论和公 雷洋,你能否为暴力执法敲一个警钟? _ 新浪杂谈 _ 历史论坛 _ 新浪网 童大焕:中国人开始追求免于恐惧的自由 雷洋之死真相早已大白于天下 【猫眼看人】 - 雷洋家属有责任立即单方面公布解剖真相 雷洋案:守住私德的底线,恢复人性的的良知 转发:我们追问雷洋是怎么死的,警方却非要证明他是怎么嫖的? 童大焕:中国人开始追求免于恐惧的自由 老徐:雷洋事件需要真相而非真像 转发:我们追问雷洋是怎么死的,警方却非要证明他是怎么嫖的? 下一个雷洋是谁? 律师从法律角度看雷洋案:警方认定嫖娼的事实不能成立 _ 中华论坛 _ 中华网社区 - 转发:我们追问雷洋是怎么死的,警方却非要证明他是怎么嫖的? 力瑾:還有多少國人在意雷洋案的真相? 国资委官员嫖娼死的 “ 春秋笔法 ”—— 雷洋事件再反转 _ 中华论坛 _ 中华网社区 - “ 友邦人士,莫名惊诧,长此以往,国将不国 ” :是不是鲁讯的文章?! _ 汽车时代 _ 天涯论坛 “ 友邦人士,莫名惊诧,长此以往,国将不国 ” :是不是鲁讯的文章?! 雷洋 “ 嫖资收据 ” 铁证如山 _ 胜利社区 _ 东营论坛 _ 油城茶座 让子弹飞一会:人大硕士涉嫖身亡 ( 集中讨论 )( 第 2 页 )_ 国际观察 _ 天涯论坛 雷阳嫖娼就可以打死吗?转 _ 网罗天下 _ 天涯论坛 人大硕士雷洋真的嫖娼了吗? 十三省 下一个 ' 雷洋 ' 是谁? 雷洋之死击碎了中产阶级的优越感! 雷洋嫖娼,谁嫖了法治? 为北京警方的 “ 嫖资收据管理 ” 叫好 通过雷洋案,都要洗干净自己的灵魂,多一份正能量,就少一份阴暗 我服了雷洋家人了,到底要闹哪样?没见过这么无赖的 ( 第 5 页 )_ 天涯杂谈 _ 天涯论坛 雷洋之后 谁会成为替补 蔡慎坤:雷洋之死真相早己大白于天下 【普欣夜话】拿嫖娼说事,最终谁会被嫖娼? ( 第 3 页 )_ 天涯杂谈 _ 天涯论坛 雷洋猝死政府忙公关:雇水军、删贴、掉包视频 雷洋嫖娼,谁嫖了法治? 【猫眼看人】 - 昌平警方说明其实暗示了真相 宽带山 KDS- 宽带山社区 - 第一城市消费门户 雷洋嫖娼,谁嫖了法治? 【猫眼看人】 - 草根今日谈:依法治国请从雷洋事件开始 【野渡专栏】草根今日谈:依法治国请从雷洋事件开始 _ 天涯杂谈 _ 天涯论坛 端宏斌:国资委官员嫖娼死的 “ 春秋笔法 ” - 警务探讨 雷洋案:检方已出手, “ 涉嫖死 ” 真相,在这 讨论:雷洋案应抓重点,不然就被人给误导了 汪剛強:從鄧玉嬌到雷洋 昌平警方说明其实暗示了真相 ' 嫖娼者 ' 雷洋的安全感要不要保护 成年男子安全路过洗脚屋行动指南 妻子不关心嫖娼 ' 雷洋之死 ' 还存疑点真相究竟是什么 妻子不关心嫖娼, ' 雷洋之死 ' 还存疑点。硕士雷洋死亡之夜到底发生了什么?雷洋死了,意外地死在一起嫖娼事件当中,揪住全社会的心。今日,有协调处理此事的警员感叹舆论发酵到这般程度,受到伤害最大的是家人 …… 雷洋案中警方存在 ' 钓鱼 ' 抓嫖的可能 人大硕士雷洋之死 对 “ 如果雷洋没有死 ” 的一些推论 端宏斌:国资委官员嫖娼死的 “ 春秋笔法 ”_ 上海汽车论坛 _XCAR 再次重复:雷洋死后 谁是下一个 ? 中国人民大学 77 、 78 级校友关于雷洋的声明 国资委官员嫖娼死的 “ 春秋笔法 ”- 雷洋事件引发更深刻的社会问题 童大煥:中国人开始追求免于恐惧的自由 - 中国人开始追求免于恐惧的自由 女人天天被杀都激不起水花,雷洋死就激起千层浪! 童大焕:中国人开始追求免于恐惧的自由 新华社连发两篇评论追问 童大焕:中国人开始追求免于恐惧的自由 人大学生会秘书长郝鹏程说,雷洋嫖娼不是第一次。 人大法学院就雷洋案举行研讨会 案情惊动联 昌平警方的行为完全合法! 嫖娼釣魚執法,坐地分贓 深度剖析雷某嫖娼案 … 姜杰律师:雷洋案件管辖权的法律分析 雷洋案件之疑点 - 第 4 页 - 雷洋案:守住私德的底线,恢复人性的的良知 嫖就嫖了,何必美其名 ——“ 被嫖娼 ” ? | 【新鲜茶馆】 雷洋案真相不难搞清,但很多人打死也不愿相信 央视:足疗女帮雷洋打飞机,帮助他射精 你怎么看? 看 “ 嫖资收据 ” 雷洋嫖娼铁证! ( 图 ) 雷洋之死背后的阴谋论 - 雷洋案真相不难搞清,可怕的是有人就是打死也不愿相信 雷洋之死背后的阴谋论 人大部分 88 级校友就同学雷洋身亡声明 : 对恶 我们不会忍太久 全文 不成为下一个雷洋:就要围观不悲观 蔡慎坤:血与泪的控诉还原雷洋遇害真相 对比家属报案书和警方通报再看雷洋致死案 雷洋惊天大推论 —— 喊假警察居然为报信 觀察:徹查雷洋案 誰是獨立方? 对比家属报案书和警方通报再看雷洋致死案 雷洋妻子正式报案:嫖娼是栽赃,致命处睾丸异常肿大 _ 中华论坛 _ 中华网社区 - 转发雷洋案刑事报案书:描述死亡过程 ( 真相即将到来 )- 衡阳 血与泪的控诉还原雷洋遇害真相 - 雷洋事件:有百姓的信任危机,或许也有被利用! _ 中华论坛 _ 中华网社区 - 雷洋死亡当晚到底发生了什么?央视专访当事警察 雷洋妻子正式报案:嫖娼是栽赃,致命处睾丸异常肿大 雷洋家属向北京市检报案 要求侦查涉事民警 湖南人在北京 - 常德 雷洋家属向北京市检报案 要求侦查涉事民警 - 雷洋案「刑事報案書」細述雷洋之死經歷 | 刑訊逼供 | 暴力執法 | 大紀元 ' 他沒有嫖娼時間 ' 家屬報案指雷洋被無辜毆死 吴文萃 ( 雷洋妻子 ) :关于要求北京市检察院立案侦查雷洋被害案的刑事报案书 血与泪的控诉还原雷洋遇害真相 雷洋事件:有百姓的信任危机,或许也有被利用! ' 刑事报案书 ' 细述雷洋之死:外力伤害所致 雷洋是不是嫖娼不重要?扯淡!笔者用十点给某些人普法 雷洋死有余辜! 雷某的家人实在太不要脸了! 吴文萃 ( 雷洋妻子 ) :关于要求北京市检察院立案侦查雷洋被害案的刑事报案书 血与泪的控诉还原雷洋遇害真相 雷洋妻子报案,事件最新爆料!嫖娼是栽赃,雷洋被打死 - 休闲侃吧 - 质疑雷洋案件十大疑点 雷洋遗孀之报案书等于官媒的死刑判决书 雷洋父母看完遗体后,为何当场给尸检证人下跪? 雷洋最新情报: “ 刑事报案书 ” 描述雷洋之死经历 关于要求北京市检察院立案侦查雷洋被害案的刑事报案书 ( 转载 ) 我们为什么要关注雷洋之死? 雷洋案刑事报案书 - 雷洋案刑事报案书,警方涉嫌故意伤害(致人死亡)罪、滥用职权罪、帮助伪造证据罪 - 转帖:雷洋妻子向北京市检察院报案:嫖娼是栽赃,雷洋被打死 雷洋死有余辜! 1) 雷洋家属告控告警方 2) 雷被殴打致死当日是雷结婚纪念日 3 )尸检结果延迟到 60 天出结果 一个昌平 “ 嫖娼者 ” 为何引燃了全国公众的怒火?(转) 陈有西律师曝雷洋案发现最新一个重要疑问 吴文萃 ( 雷洋妻子 ) :关于要求北京市检察院立案侦查雷洋被害案的刑事报案书 别忘了雷洋案中被抓的另五名嫌疑人 雷洋父母看完遗体向专家证人痛哭下跪 四川省纪委与厅纪委过去有结论吗?王书记上任后又是什么结论? - 求助帖:别忘了雷洋案中被抓的另五名嫌疑人 - 有啥说啥 那些声嘶力竭认为雷洋嫖娼该死的人,他们是些啥人? 雷洋事件昌平警方两份通报比较出的问题 别忘了雷洋案中另五名被抓的嫌疑人 父母看完遗体向专家证人痛哭下跪 - 常德 雷洋死亡案,已经形成死结 警察蜀黍为何喜欢抓嫖? 崔家楠律师认为:确定雷洋死亡的时间,比确定死亡的原因更重要! 歐陽南山:下一個雷洋是誰? 童大煥:中国人开始追求免于恐惧的自由 - 雷洋,愿你的名字叫做公正与法治 【猫眼看人】 - 我们追问雷洋是怎么死的,他们却要证明他是怎么嫖的! 雷洋没有抗拒执法,铁证如山!证据就在此 一周新闻聚焦:雷洋之死掀起舆论风暴,各方谴责警方滥权 哀悼环保烈士雷洋 | 龙虎文苑 雷洋案:守住私德的底线,恢复人性的的良知 雷洋案:守住私德的底线,恢复人性的的良知 ( 第 7 页 )_ 关天茶舍 _ 天涯论坛 雷洋案件的焦点应该回归到如何死亡的问题上 _ 文学论坛 _ 中华网社区 - 雷洋案件的焦点应该回归到如何死亡的问题上 _ 社会热点 _ 中华网社区 - 小区内现蛇窝 :5 条大蛇吓得消防员直冒汗 ( 图 ) 程序正义高于实质正义的理念,规则重于道德的理念,生命高于一切的理念 _ 胜利社区 _ 东营论坛 _ 油城茶座 雷洋的父母下跪为哪般?(原创) 明天就是 5.16 ,大家还是说点什么吧 雷阳事件肯定不是跨区执法 雷洋案中,当事警察说谎了没有? 雷洋案中,当事警察说谎了没有? 天啊 —— 这位律师是在为雷洋鸣不平吗?! _ 中华论坛 _ 中华网社区 - 童大焕:中国人开始追求免于恐惧的自由 - 童大焕:中国人开始追求免于恐惧的自由 - 童大焕:中国人开始追求免于恐惧的自由 - 女人天天被杀都激不起水花,雷洋死就激起千层浪! 女人天天被杀都激不起水花,雷洋死就激起千层浪! 雷洋案件的焦点应该回归到如何死亡的问题上 雷洋案件的焦点应该回归到如何死亡的问题上 关注小人物的命运 ! 就是关注自个命运 ! 小人物之死网友理应关注 童大焕:中国人开始追求免于恐惧的自由 律师:事后搜集卖淫女的供词根本不能作为证据! 童大焕:中国人开始追求免于恐惧的自由 天啊 —— 这位律师真是在为雷洋鸣不平吗?! 中国人开始追求免于恐惧的自由 雷洋案:守住私德的底线,恢复人性的的良知 我们关注雷某事件的重点:执法人员滥用职权、非法拘禁致人死亡 _ 娱乐八卦 _ 天涯论坛 律师从法律角度看雷洋案:警方认定嫖娼的事实不能成立 - 常德 雷洋案:守住私德的底线,恢复人性的的良知 雷洋之死击碎了中产阶级的优越感! 力瑾:还有多少国人在意雷洋案的真相? 人大硕士之死果然反转了,这小脸,抽得啪啪的响! ( 转载 )( 第 35 页 )_ 娱乐八卦 _ 天涯论坛 雷洋之死击碎了中产阶级的优越感! 致人民大学 88 级部分校友:看了你们的声明我很无语 ( 转载 )( 第 2 页 )_ 网罗天下 _ 天涯论坛 律师从法律角度看雷洋案:警方认定嫖娼的事实不能成立 _ 中华论坛 _ 中华网社区 - 雷洋案中案 和常州毒地案有關係 ?? 雷洋死于无知 雷洋嫖娼,谁嫖了法治? 【话题】关于垒洋之死的问答 通过雷洋案,都要洗干净自己的灵魂,多一份正能量,就少一份阴暗 如果雷洋案发生在美国 再次重复:雷洋死后 谁是下一个 ? 人大法学院就雷洋案举行研讨会 案情惊动联合国 狗哥评论雷洋事件 !_ 天涯杂谈 _ 天涯论坛 中国人民大学 77 、 78 级校友关于雷洋的声明 朋友圈骂交警 “ 擦亮狗眼 ” 被拘 2 日是执法滥权 雷洋之死或可推动社会三大进步 议雷洋之死 看了这么多人关心雷阳事件,我感觉警察存在钓鱼执法行为。 _ 新闻众评 _ 天涯论坛 雷洋屍檢釐清死因 校友發聲明轟警違法瀆職 - 東網即時 再次重复:雷洋死后 谁是下一个 ? 戴套打飞机 雷洋怎么死的? 女人天天被杀都激不起水花,雷洋死就激起千层浪! 雷洋这事,关键看标题 雷洋之死牵动人大校友 上百人联署声明要真相 雷洋案中案 神秘便衣牵出常州毒地案 雷洋家属指警方误导公众 雷洋案新证据浮现:警察有问题 一周新闻聚焦:雷洋之死掀起舆论风暴,各方谴责警方滥权 “ 雷洋嫖娼 ” 案惊动联合国 立此存照:雷阳的事情经过 BBC: 雷洋之死背后 中国人对中国没信心 ( 图 ) 雷洋死后的人血馒头,不知道网上各位公知吃的好不好? 张鸣:雷洋之死 观察:雷洋事件 舆论风暴眼中的盲点 朱征夫:卖淫嫖娼收容制度违宪,早该废 雷洋嫖娼案的所有证据都是事后补上? 为什么雷洋案这么高的社会关注度能持续一周时间? 重要质疑:就雷洋案请教昌平警方几个问题 - 常德 雷洋嫖娼案的所有证据都是事后补上? ( 图 ) 人大校友声明是粗暴干涉司法的恶劣行为 关注雷洋,也关注人民警察 ” 这份 “ 公平正义 ” ,雷洋听不到了,但我们必须感受到! 细思极恐,雷洋之死或有更深内幕 就雷洋案请教昌平警方几个问题 对比家属报案书和警方通报再看雷洋致死案 对雷洋家属说几句话 橫河:雷洋案為什麼應該懷疑警方 贪官雷洋嫖娼被抓 , 畏罪拘捕逃跑未遂身亡 雷洋死亡案铁证如山,雷洋没有白死 雷洋父母看完遗体向专家证人痛哭下跪 雷洋是不是嫖娼不重要?扯淡!笔者用十点给某些人普法 _ 中华论坛 _ 中华网社区 - 【江西卫视】北京昌平的警方 雷洋尸体应严加监控,以防 M 帝下手 童大焕:必须全面还原并公开雷洋案执法过程 对不起,我并不想知道雷 洋如何嫖 娼 - 邵阳 大反转:目击者详述雷洋事发过程:警察没打人!请火速扩散! ( 转载 )_ 婆媳关系 _ 天涯论坛 警方塑造出神一般的雷洋 雷洋案尸检初步结果出炉:等待病理结果 警方回避不在现场 雷洋之死的看法 _ 北京 _ 天涯论坛 【调查】探访雷洋案 ' 神秘 ' 专家证人张惠芹 雷洋用牺牲捍卫一个公务员的尊严!!!!! 雷洋尸检超 12 小时 家属请她全程监督 “ 雷洋事件 ” 终于开了个好头 雷洋之死真相早己大白于天下 ( 转帖 )- 雷洋之死击碎了中产阶级的优越感! 滨州刑警支队原副支队长张惠芹,作全程见证雷洋尸 雷洋案:尽管真相还在路上,三种共识可以先到 雷洋没有抗拒执法,铁证如山!证据就在此 雷洋尸检超 12 小时 警方回避 家属坚持请她全程监 雷洋嫖娼案的所有证据都是事后补上? ( 图 ) 下一个雷洋是谁? “ 雷洋嫖娼 ” 案惊动联合国 十日谈;我想说几句了,关于何新的两篇文章 _ 中华论坛 _ 中华网社区 - 雷洋案蹊跷 中国官方的处理手段令人心寒 郭宝胜呼吁海内外人大校友都来关注雷洋案 , 为雷洋讨取公道 雷洋没有抗拒执法,特证就在此。 雷洋是否嫖娼不重要?怎么就不重要了?!很重要好吗! _ 天涯杂谈 _ 天涯论坛 中国人民大学 77 、 78 级校友关于雷洋的声明 看 “ 嫖资收据 ” 雷洋嫖娼铁证! ( 图 ) 警方续昌平涉嫖男子在查处过程中突发死亡通报有无问题 - 第 2 页 - 警务探讨 【麻辣舆情】 人大硕士雷洋非正常死亡舆情分析 - 麻辣棱镜舆情通 - 从目击者证言和记者调查的报道看被忽略的雷洋事件关键点 人大硕士涉嫖身亡 死因蹊跷背后真相》给人民一个交代 应当理直气壮的为 “ 暴力执法 ” 正名! 他嫖不嫖娼关我屁事,我只关心他到底是怎么死的 雷洋 “ 打飞机 ” 能把自己打死吗? 家属澄清雷洋调查常州毒地等三传言 雷洋被强押致死案,槽点多多,警方说辞漏洞百出 时代尖兵:雷洋的官方背景值得关注! 雷洋案的焦点就是有没有受到粗暴对待? 雷洋真嫖娼了吗? - 第 2 页 【相关】 【置顶:立委科学网博客NLP博文一览(定期更新版)】 《朝华午拾》总目录
个人分类: 社媒挖掘|10098 次阅读|14 个评论
舆情挖掘系统独立验证的意义
热度 5 liwei999 2015-11-22 01:40
一个偶然的机会,做了一个偶然的HTC中文舆情挖掘的实验,结果发在博文 到底社媒曲线与股市曲线有没有、有多少相关度 ,引起很多的兴趣,也激发了不少关于利用大数据做股市预测的想象。但这个实验对于我却有另一层难得的系统独立验证的意义。 这个实验本来只是为了回应投资人的问题,同时也满足自己的好奇,尝试寻找社交媒体大数据的舆情与股市波动之间的相关性。熟悉股市,帮助我制图的老友看到结果后评论说: It is interesting, to say the least. HTC中文舆情指数(net-sentiment)与其美国股市表现曲线图的对比(谢谢老友帮助制图) 股市预测是无数人的梦想,哪怕有一点突破,可以用来 beat the market,那也是不得了的效应。但是造成股市波动的因素太多,反映股民信心的舆情只是众多因素之一种。虽然从中长期看,股市波动的总体趋势似乎有迹可循,但股市崩盘这样的突发事件应该是不可具体预测的。这就好像地震一样,什么时候到临界点是无法精确预知的。 撇开这个非常诱人的应用领域不谈,本博文要说明的是,该实验对我本人,对我研制的以parsing为基础的中文舆情挖掘系统的独特意义。 这个意义的实质在于,它独立验证了该系统的质量,结论是:用 parsing 做底的中文社交媒体的舆情挖掘是靠谱的。 我们研制一个自然语言的舆情挖掘系统,特别是对中文社交这样的高度复杂的分析抽取引擎,自然有各种质量检测(QA),从我们开发者自己设立的各种 regression tests 来保障系统质量永远向上,到专门的QA组利用 Crowd Sourcing 的第三方资源帮助判定每一期开发的质量变动。后者也算是独立的质量监测。但这一切仍然是内部进行的过程。外部的独立验证很有必要,但难以操作。譬如学界(academia)会有一些系统竞赛,好处是标准是透明公开的,缺点是每个任务的制定与我们要实际应用的现场需求往往不能很好地吻合。为了做 apples to apples comparison,必须花费很多精力去适应学界制定的那个标准及其 format。另外一点是,学界的系统竞赛很少关注系统运行的效率,其宗旨是鼓励新方法的探索和科学的进步,而不是应用性的考量。其结果是,很少见到学界中的竞赛优胜者成长为一个工业卓越的应用,也很少见到工业大规模应用的系统去学界竞赛。 王婆卖瓜没有说不甜的。那么除了内部测试,怎样才能得到有说服力的独立验证呢?一个办法是客户的使用反馈,特别是大客户,他们往往尝试使用了一批同类型的工具,对于数据质量,会有切身的感受和非常有价值的比较,具有相当大的 due diligence 的参考价值(实际上我们有很多这样的客户反馈和见证)。缺点是客户的主观验证(或见证 testimony)往往不系统,而且数据质量与应用层面的其他 features 的主观感受容易混在一起。 恰好在这一点,上述实验的结果提供了一个极好的具有客观性的系统独立验证,令人鼓舞。数据挖掘的结果与股市波动的数据是完全独立的两个来源,如今居然吻合得这么好。于是,在验证了舆情与股市正相关之外,我们客观上得到了一个额外的系统独立验证的 bonus:本挖掘系统是靠谱的,质量是有保证的,因为在一年这样长的时间区间,两条完全独立来源的相关数据曲线恰好能相伴而舞,步调一致,这不可能是碰巧。具体说来有两点。如果舆情挖掘的结果曲线与股市波动有时吻合有时不吻合,我们不能得出结论说系统质量不可靠(当然也不能得出可靠的结论),因为股市波动的触发因素不仅仅是舆情。然而,如果舆情挖掘结果与股市波动吻合了,唯一的逻辑结论就是,舆情挖掘是靠谱的。这就是这次偶然的实验对我本人和我的开发团队的独特意义,这个独立验证是经得起逻辑推论的。 最有意思的是,我们还同时比较了同一个时间区间的热度(mentions)曲线(见下图),发现它与股市波动有不少不相吻合的地方。这个比较更具有说服力,因为 mentions 实际上给舆情提供了背景和不带情感因素的baseline。它帮助突显了舆情挖掘的价值,谈论多少虽然与舆情密切相关,但它不能反映舆情的方向(polarity),自然无法与股市波动协调。 HTC中文热议度与股市表现曲线图的对比 (谢谢老友帮助制图 ) 【相关】 到底社媒曲线与股市曲线有没有、有多少相关度? 再谈舆情与股市的相关性 一切声称用机器学习做社会媒体舆情挖掘的系统,都值得怀疑 2015-11-21 【立委科普:NLP 中的一袋子词是什么】 2015-11-27 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 立委科普|6799 次阅读|8 个评论
执着于自然语言处理、机器翻译、大数据挖掘的 李维
readnet 2013-5-14 16:18
李维的博客 【科普随笔:NLP主流的傲慢与偏见】 热度 1 2013-5-9 17:33 上篇博文 【科普随笔:NLP的宗教战争?兼论深度学习】 匆匆写就发出以后,没想到在新浪微博上一夜间有好几万点击,而平时我在新浪转发的博文最多也不到几千点击。想来一是题目比较花哨(宗教,深层学习,都是容易引起热议的 buzz words),难逃标题党嫌疑;二来内容也容易引起这个领域的争论、不屑或共鸣。 需要说明一 ...个人分类: 立委科普 | 348 次阅读 | 1 个评论 分享 【科普笔记:没有语言结构可以解析语义么?(之二)】 热度 1 2013-5-8 00:54 就这个问题,以前写过 【研发笔记:没有语言结构可以解析语义么?浅论 LSA】 ,介绍的是很流行的 LSA 统计算法,它利用自然语言篇章中的一袋子关键词(bag of words)之间的 lexical coherence,绕过语法结构分析,模拟语义,往往也显得很智能的样子 。 无独有偶,绕过语言结构解析语义在传统的知识系统中早有 ...个人分类: 立委科普 | 333 次阅读 | 1 个评论 分享 【科普随笔:NLP的宗教战争?兼论深度学习】 热度 6 2013-5-7 23:18 有回顾NLP(Natural Language Processing)历史的大牛介绍统计模型(通过所谓机器学习 machine learning)取代传统知识系统(又称规则系统 rule-based system)成为学界主流的掌故,说20多年前好像经历了一场惊心动魄的宗教战争。其实我倒觉得更像49年解放军打过长江去,传统NLP的知识系统就跟国民党一样兵败如山倒,大好 ...个人分类: 立委科普 | 2930 次阅读 | 6 个评论 分享 【腾讯微信在移动社交媒体中的异军突起】 2013-4-15 18:09 Abstract: The Tencent WeChat app is revolutionary in social networking at the mobile platform. Not just Chinese counterparts of mobile Facebook, or Skype, or Facetime, or Voicemail, it is all of these but much more. Its explosive growth with hundred millions of users in such a sh ...个人分类: 立委科普 | 494 次阅读 | 没有评论 分享 台北演讲幻灯片上网(2/2) 2013-4-6 06:58 Chinesemorphology syntax 字组词与词组句( or 短语): 1. 界限不清晰 2. 规则类似 3. compounding: small syntax, a BIG partof Chinese structures 4 . pipeline steps with adaptivedevelopment and patches can handle modula ...个人分类: 立委科普 | 355 次阅读 | 没有评论 分享 台北演讲幻灯片上网(1/2) 热度 2 2013-4-6 06:42 Towards robust large-scale Chineseparsing Wei Li March 29, 2013 Institute of Information Science Academia Sinica Chinese Parsing Background: Four Layer System Architecture I: DesignPhilosophy Indexingsystem (backend engi ...个人分类: 立委科普 | 698 次阅读 | 2 个评论 分享 北京演讲幻灯片上网(3/3) 2013-4-5 05:36 民调 自动 化:实时监测 Obama won the debate, see our evidence 奥巴马赢了昨晚辩论吗?舆情自动检测告诉你。 技 术改变世界,甚至总统 对奥巴马真正具有挑战性的议题有二:一是他在第一任总统期间的经济表现( 6:55pm );二是批判他对中国不够强硬 (7:30pm) 。 人气曲线反映了 ...个人分类: 立委科普 | 602 次阅读 | 没有评论 分享 北京演讲幻灯片上网(2/3) 热度 1 2013-4-5 05:22 I:System Architecture for Core Engine II:Parsing-based Information Extraction III:Text Mining IV:App-level 【立委科普:NLP 联络图】 Course-grained vs. fine-grained sentiment extraction ...个人分类: 立委科普 | 390 次阅读 | 1 个评论 分享 北京演讲幻灯片上网(1/3) 热度 7 2013-4-5 04:43 应同行朋友的要求,幻灯片做最后修正后上网图示如下(并提供博文相关链接!) 【朝华午拾集锦:立委流浪图】 【『科学』预测:A-股 看好】 【立委科普:所谓大数据(BIG DATA)】 【立委科普:自动民调】 ...个人分类: 立委科普 | 2414 次阅读 | 8 个评论 分享 拉大旗做虎皮是 marketing 的惯用伎俩,不可轻信,但可以理解 热度 4 2013-3-24 23:35 Marketing claims are to be distinguished from scientific claims. Algorithms in academia can be scientifically compared but it is difficult to do apples to apples comparison between systems in terms of technical strength due to too many factors and moving parts involved. Innovation happens when the ...个人分类: 立委科普 | 436 次阅读 | 4 个评论 【研发笔记:没有语言结构可以解析语义么?浅论 LSA】 2013-3-24 15:10 what are your views on Latent Semantic Analysis (LSA)? LSA is a cool machine learning technique based on lexical evidence of co-occurrence in order to decode the underlying semantic categories (clustering or classification) of the given text (Deerwester et al. 1990). Typically, th ...个人分类: 立委科普 | 346 次阅读 | 没有评论 分享 【立委科普:所谓大数据(BIG DATA)】 热度 3 2013-3-21 04:58 Big data is not just data that are big. In the sense of data load, big data has been there for quite a while in Internet, on which the entire search industry was based and developed. The current buzz word big data is different, it is innately associated with users' background and social ...个人分类: 立委科普 | 807 次阅读 | 3 个评论 分享 广而告之:科学网“双百”博主立委四月一日在北京演讲大数据挖掘 热度 11 2013-3-20 19:57 UPDATE:立委愚人节北京讲演时间地点已经确认,感谢中文信息学会孙教授的邀请和安排,也感谢董振东前辈教授的建议和推举: The loacation is : Room 334, 3rd floor, building 5 Institute of Software, Chinese Academy of Sciences, No. Zhongguancun South 4th Street 10:00~12:00 It' ...个人分类: 立委科普 | 779 次阅读 | 13 个评论 分享 小广告:My talk is 2013-03-29 10:00 資訊所新館106演講廳 热度 2 2013-3-15 19:58 2013 學術演講 時間 主題 -- 主講人 地點 邀請人 2013-03-29 (Fri) 10:00 – 12:00 Towards robust large-scale Chinese parsing Wei Li 博士 資訊所新館106演講廳 陳克健 講 題: Towards robust large-scale Chinese parsing 講 者: ...个人分类: 立委科普 | 431 次阅读 | 3 个评论 分享 Course-grained vs. fine-grained sentiment extraction 2013-3-12 06:51 As for sentiment extraction itself, there are different layers: 1. sentiment classification: thumbs-up and down (or plus neutral) 2. sentiment association: to associate a sentiment with a topic or brand 3. fine-grained sentiment extraction: for example, who made the sentiment comment? about w ...个人分类: 立委科普 | 319 次阅读 | 没有评论 分享 【“剩女”的去向和出路(1)】 热度 2 2013-3-8 20:03 在面目可憎的新词“剩女”流行之前,大龄单身女青年的问题就存在,只是问题到如今愈加严重。 前文 说过,尤其是高学历大龄女青年这个群组,在她们可以选择的年龄段,合适的结婚对象比大熊猫还珍稀,因此成为比哥德巴赫还要难解的社会问题。那么从历史上看,她们的去向究竟怎样?今后的出路应该如何? 我是搞语言处理和 ...个人分类: 立委科普 | 575 次阅读 | 2 个评论 分享 【立委科普:基于关键词的舆情分类系统面临挑战】 热度 1 2013-2-15 22:47 Five challenges to keyword-based sentiment classification: (1) domain portability; (2) micro-blogs: sentence/twit classification is a lot tougher than document classification; (3) when big data become small: big data load when sliced and diced based ...个人分类: 立委科普 | 1069 次阅读 | 1 个评论 分享 曙光在眼前,轻松过个年 热度 1 2013-2-9 04:34 QA(Quality Assurance 质量检测)表明,在下领导开发的中文系统质量优良 日期: 02/08/2013 13:38:01 比起我们业已成熟的英文系统,QA 表明: precision (查准率)已经基本达到英文系统的查准率水平; recall (查全率)达到英文查全率的三分之二左右。 要知道,英文系统 ...个人分类: 立委科普 | 363 次阅读 | 3 个评论 分享 围脖提上来:大数据时代的生活策略 热度 2 2013-2-5 07:33 RE: 投票的时候,每个人只有一票,不管是like love crazy 还是 can't live without 都只有一票的用处。 一人一票制就是要排除 passion indensity 作者: 立委 (*) 日期: 02/04/2013 14:12:25 就客户而言,一个苹果饭可能会买n个iPhones,比如作为礼物给家人、朋友等,因此 intensity 加个权也许还 ...个人分类: 立委科普 | 1058 次阅读 | 2 个评论 分享 【立委科普:舆情挖掘的背后】 热度 2 2013-2-4 10:22 中文版 品牌舆情图 设计方案展示后,有不少反馈,其中有朋友认为,四极二维(love/hate,like/dislike)的图示不自然,因为它们实际上是在同一个维度上。今天就这个题目多写几句科普式随笔,看看舆情自动挖掘以及舆情表达(representation)背后的设计思想。 褒贬在客观语言事实上确实是一个连 ...个人分类: 立委科普 | 1466 次阅读 | 3 个评论 【立委科普:《非诚勿扰》中是谁心动谁动心?】 热度 1 2013-1-30 23:01 《非诚勿扰》成为很多海外华人的必看消遣节目,可以了解来自已然陌生了的祖国的社会百态,婚恋观念的演变最能反映时代意识的变迁。 选“心动”女生是《非诚勿扰》男生的第一个环节。幸运的男生的最后一个环节则是与两名“动心”女生和一名“心动”女生互动,他有权利牵手两名动心女生中任一位下场,但是如果他坚持选择那 ...个人分类: 立委科普 | 336 次阅读 | 1 个评论 分享 与老前辈谈 NLP 及其趋势 热度 2 2013-1-26 16:37 【立委按】俗话说, 铁打的营盘流水的兵。在我们 NLP(Natural Language Processing)这个营盘里,流水的兵过去了不知几拨。但也有像我这样赖在营盘就是不走的兵,任凭潮起潮落。比我更加坚韧的是我的导师一辈,他们早该退休,但还是抵制不了这个营盘的诱惑,仍然孜孜以求,让人钦佩不已。最近与前辈导师有交流,三句不离 ...个人分类: 立委科普 | 625 次阅读 | 2 个评论 分享 【立委随笔:NLP 的童子功】 热度 8 2012-11-24 08:51 “NLP 不是魔术,但是,其结果有时几乎就是魔术一般神奇。” 引自: http://www.confidencenow.com/nlp-seduction.htm 作为一个领域,NLP( Natural Language Processing , 自然语言处理 )在过去20年发生了翻天覆地的变化。这种变化伴随着电脑和互联网及其社会媒体的飞速发 展,使得 NLP 从 ...个人分类: 立委科普 | 2002 次阅读 | 8 个评论 分享 【朝华午拾:安娜离职记】 热度 4 2012-11-19 18:29 安娜是个很可爱的俄罗斯上进女青年,从小弹钢琴跳芭蕾,小学没毕业即随父母移民美国。她身材高佻,曲线优美,性情温和,举止得体,善解人意,给人一种古典但不古板,现代却不俗艳,阳光而浪漫的印象。大家知道,虽然 俄罗斯 大嫂大多偏胖粗线条,但 俄罗斯 姑娘却多有迷人的风采,老帮菜耳熟能详念念不忘的就有钢 ...个人分类: 立委科普 | 1030 次阅读 | 4 个评论 分享 【创业故事:技术的力量和技术公司的命运】 热度 5 2012-11-19 16:32 说技术的力量,需要有一个产品的 context,否则技术是无力的、苍白的。技术通过产品而发挥力量。因此,幸运的技术人需要遇到幸运的产品开发环境,才有施展的舞台和实现的可能。核心技术只是技术产品的一个条件,其他各个层面,无论哪个环节不给力,都可能翻船。以软件产品为例,主要的方面有:1. 必须有一支过硬的 工程队 ...个人分类: 立委科普 | 2929 次阅读 | 5 个评论 分享 把酒话桑麻,再泡一壶茶,白头老机译,闲坐说研发 热度 1 2012-11-12 15:44 提上来:把酒话桑麻,再泡一壶茶,白头老机译,闲坐说研发 这两天要写的话题太多,怕断了线。 日期: 11/12/2012 01:41:12 把酒话桑麻,再泡一壶茶,白头老机译,闲坐说研发,说一点儿机器翻译的掌故吧。 曾几何时,机器翻译处于手工业研发时期,每个语言对(language pair)要手工开发两套系统,A 到 ...个人分类: 立委科普 | 471 次阅读 | 1 个评论 分享 【立委随笔:机器翻译万岁】 热度 1 2012-11-11 08:33 机器翻译能走到今天是我们当年做梦也想不到的:技术进步起来真是没边儿 日期: 11/10/2012 12:27:27 30年前,我在社科院硕士报考专业上填写了“机器翻译”四个大字,内心充满了敬畏和神秘感。刚入行的时候做的是外汉机器翻译,一直不大敢碰汉外,原因是汉语语法不好形式化,感觉太难了。 现如今,汉语语法 ...个人分类: 立委科普 | 699 次阅读 | 1 个评论 分享 《OVERVIEW OF NATURAL LANGUAGE PROCESSING (1/5)》 by Wei Li 2012-11-11 00:22 Quote: “ NLP is not magic, but the results you can get sometimes seem almost magical . ” from http://www.confidencenow.com/nlp-seduction.htm From time to time, I am requested to give an overview presentation of the technology area Natural Language Processin ...个人分类: 立委科普 | 1341 次阅读 | 没有评论 分享 《眼睛一眨,来了王子,走了白马》 热度 11 2012-11-9 22:04 科学网编辑MM也有走眼的时候 一定是忙于18大做代表或美国总统大选做报道了,否则编辑MM睁着那双如此动人的眼睛,怎么可能,怎么可能没有看见 白马王子 呢? 居然、居然没有加精,那不是的立委的失败,那是科网的损失。 (为一个专门的科技领域 NLP 就写下了88篇,方方面面,不 ...个人分类: 立委科普 | 823 次阅读 | 13 个评论 分享 【立委科普:NLP 联络图 (之一)】 热度 3 2012-11-6 10:29 “NLP 不是魔术,但是,其结果有时几乎就是魔术一般神奇。” 引自: http://www.confidencenow.com/nlp-seduction.htm 【立委按】 样板戏《智取威虎山》里面, 杨子荣怀揣一张秘密联络图而成为土匪头子座山雕的座上客,因为在山头林立的江湖,谁掌握了联络图,谁就可以一统天下。 马克 ...个人分类: 立委科普 | 1706 次阅读 | 4 个评论 【随记:湾区的年度 NLP BBQ 】 热度 1 2012-11-2 09:39 前两周,斯坦福NLP教授大牛在家举行号称年度的 NLP BBQ 派对。 没想到湾区与这行有关的同仁如此之多:他 发出邀请500+,到场的有小 200 人 大概全世界也找不到一个地儿,有这么多同行如此集中吧。 聊起来,我说我是做 sentiment 的,结果发现有一群人也声称做 sentiments,真地这么热啊 遇到斯坦福出来的一位女士,说 ...个人分类: 立委科普 | 599 次阅读 | 1 个评论 分享 【科研笔记:big data NLP, how big is big?】 热度 1 2012-10-31 19:03 Big data 与 云计算一样,成为当今 IT 的时髦词 (buzzword / fashion word ). 随着社会媒体的深入人心以及移动互联网的普及,人手一机,普罗百姓都在随时随地发送消息,发自民间的信息正在微博、微信和各种论坛上遍地开花,big data 呈爆炸性增长。对于信息受体(人、企业、政府等),信息过载(information overlo ...个人分类: 立委科普 | 667 次阅读 | 1 个评论 分享 【科研笔记:NLP的词海战术】 热度 1 2012-10-30 06:55 女儿在背SAT词典,为美国高考挠心,说这词典太难了,都是偏僻少见的词,平时见不到,考试偏要考。死记硬背效果不好,指望海量阅读来提高词汇量,是远水不解近渴。气得直摔词典。我问:还有多少词汇需要死记?答曰不认识的和半认识的约一千,要在几周内搞定。 深表同情。区区一千词就把孩子折腾得寝食难安。我说见 ...个人分类: 立委科普 | 657 次阅读 | 1 个评论 分享 《NLP White Paper: Overview of Our NLP Core Engine》 2012-10-23 12:20 【立委科普:NLP 白皮书】 Quote: NLP is not magic, but the results you can get sometimes seem almost magical. (“NLP 不是魔术,但是,其结果有时几乎就是魔术一般神奇。”) 引自: http://www.confidencenow.com/nlp-seduction.htm 【立委按】 作为老兵,常常需要做行业 ...个人分类: 立委科普 | 724 次阅读 | 没有评论 分享 【立委科普:自动民调】 热度 3 2012-10-19 02:33 Automatic survey complements and/or replaces manual survey. That is the increasingly apparent direction and trend as social media are getting more popular everyday. 自动民调(or 机器民调: Automatic Survey / Machine Survey)指的是利用电脑从语言数据中自动抽取挖掘有关特定话题的民间舆论,其技术 ...个人分类: 立委科普 | 1158 次阅读 | 3 个评论 分享 【立委随笔:文傻和理呆的世纪悲剧(romance tragedy)】 热度 4 2012-10-15 20:45 不是冤家不碰头 St atisticians vs. Linguists: Deep-seated Antagonists? (Or Protagonists in NLP?) Chemistry? No! (生意归生意,感情归感情) 【一辈子只做一件事,幸也不幸?】 不知道多少次电脑输入 NLP(自然语言处理),出来的都是“你老婆”。难怪 ...个人分类: 立委科普 | 1116 次阅读 | 5 个评论 分享 【立委随笔:中文之心,如在吾庐】 热度 1 2012-10-13 23:51 借用盛传的霸王当年热恋时的妙句(“ 友人之心,如在吾庐”),我要说:二十五年了, 中文之心,如在吾庐,一日不曾忘记!拔高一点说,对于语言学家,中文之心可以说是梦萦魂牵的海外流浪人的中国心。 很多年了,由于工作的原因,一头扎进英语处理的海洋沉浮,直到近两年,英语已经无可再做,该做的差不多都 ...个人分类: 立委科普 | 611 次阅读 | 1 个评论 分享 《科研笔记:中文图灵试题?》 热度 1 2012-10-12 11:23 Chinese Turing Tests?? Challenging my Chinese dependency parser with puns. The real thing is, structural ambiguity is detectable, but not easily decodable. As for puns, forget it! Do you remember the last time you yourself, as an intelligent being designed by almigh ...个人分类: 立委科普 | 591 次阅读 | 2 个评论 分享 【研发笔记:粤语文句的情报挖掘】 热度 4 2012-9-28 07:50 在研发社会媒体舆情挖掘的中文系统过程中,遇到一些粤语的帖子,看上去似懂非懂的。从机器处理角度来看,方言与行业用语类似,算是一种子语言(sublanguage),可以看作是普通话的变体。其中绝大多数的区别在词汇层,句子结构大同小异。于是决定采用先把粤语文句自动翻译成普通话的方法,然后再 feed 到普通话的主体系统 ...个人分类: 立委科普 | 1857 次阅读 | 4 个评论 读书笔记:YT 神功源自 TWSS 2012-9-28 03:50 YT 是黑话,以前论过,不赘。无需深究,乃借题发挥,引入最近的读书笔记一则。 Quote For those who are too polite to know this type of humor, let me explain. When speaking in a non-sexual context, we sometimes say things that are not funny, but which would be funny if the same words were uttered ...个人分类: 立委科普 | 420 次阅读 | 没有评论 分享 科研笔记:究竟好还是不好 2012-7-18 03:09 绕口令:究竟好还是不好 作者: 立委 (*) 日期: 07/16/2012 18:30:31 谁说iPod好。 【不好】 谁说iPod不好? 【好】 谁不说iPod好。 【好】 谁不说iPod不好? 【不好】 没有 ...个人分类: 立委科普 | 594 次阅读 | 没有评论 分享 不是那根萝卜,不做那个葱 热度 1 2012-6-30 15:22 不是那根萝卜,不做那个葱 日期: 06/30/2012 01:58:08 改着系统,一阵犯困就迷糊过去了,n分钟后糊里糊涂说这两句,又醒来了。 醒来前好像某人说我的系统是 canned 系统,我说 can 你个球啊,我这是开放系统,你随便试,任何句子,只要是汉字就成。 那人睁大双眼,说:是么? 我哼了一下,丢下这两句。 此 ...个人分类: 立委科普 | 556 次阅读 | 1 个评论 分享 立委统计发现,汉语既适合吹嘘拍马亦长于恶意构陷 热度 3 2012-5-1 13:59 词汇统计发现,汉语既适合吹嘘拍马亦长于恶意构陷 作者: 立委 (*) 日期: 05/01/2012 00:49:08 日常汉语词汇不但比类似规模的英语日常词汇多出了两倍到三倍的褒义词和贬义词,更有意思的是,这些褒贬词汇中特别针对人的 就多达约1/3(3809/11968)。由于1/3以外的褒贬词汇大多既可以用于 物 ,也可以用 ...个人分类: 立委科普 | 1056 次阅读 | 4 个评论 分享 比起英语,汉语感情更外露还是更炽烈? 2012-4-28 04:29 Chinese is a more sentiment-intensive language than English?? FW: Counts of sentiment words in Chinese and English Interesting finding: that Chinese more than doubles the negative words and more than triples the positive words in comparison with the English vocabulary. This is based on the 5 ...个人分类: 立委科普 | 815 次阅读 | 没有评论 分享 社会媒体比烂,但国骂隐含舆情 热度 3 2012-3-20 03:59 本池有几个是物理出身啊?以后见他们退三舍。都是怎样的炼狱过来的。李剑芒这小子吹嘘小方见他这个师兄躲得远远地,不为别的,就 为他学物理而且敢骂街。 我感兴趣的是其中的社会媒体的国骂变种。前两天写了个regexp,不知道能抓住它多少: 国骂: 1. { ? ? }? /* 你 妈 了 个 逼 的 */ ? 2 ? 3 ...个人分类: 立委科普 | 693 次阅读 | 3 个评论 分享 《立委随笔: 语言学家是怎样炼成的》 热度 5 2012-2-29 23:29 《立委科普: 语言学家是怎样炼成的》 我们知道,钢铁战士保尔柯察金是在残酷的革命斗争中炼成的。我要说:语言学家是在 瞎琢磨中炼成的。下面这个故事就是证明。 《立委说文解字:好,好不?》 语言现象中,有逻辑的成分,也有不逻辑的成分:约定俗成是语言的天则,只要语言共同体认可,逻辑不逻 ...个人分类: 立委科普 | 1155 次阅读 | 11 个评论 分享 【立委科普:及物、不及物 与 动词 subcat 及句型】 2012-2-24 14:57 理呆说法:“只要找到一个及物反例就可以推翻其不及物的说法”。 及物动词、不及物动词、双及物动词等等叫做 subcat, 是动词大类里面的子类标识(subcategory)。 如果只要找到一个及物反例就否 定不及物,那么就不存在 不及物动词 的子类。比如,英语的 walk / go 是典型的不及物动词,但是就有如下反 ...个人分类: 立委科普 | 736 次阅读 | 没有评论 分享 2011 信息产业的两大关键词:社交媒体和云计算 2012-2-1 16:45 我们现在正处在一个难得的历史契机。 去年发生了一连串值得注意的相关事件。其热门关键词是社会媒体(social media) 和云计算(cloud computing),而大数据(big data)情报挖掘正是针对社会媒体内容利用云计算作为支撑的高新技术产业的代表。 社会媒体尤其是微博持续升温,无论是用户还是其产生的内容, ...个人分类: 立委科普 | 903 次阅读 | 没有评论 分享 女怕嫁错郎,男怕入错行,专业怕选错方向 热度 2 2012-1-7 13:11 想起数年前我被华尔街 VC 在 due diligence 阶段请去鉴定一家做WSD的技术公司(名字就不提了),这家公司声称解决WSD (Word Sense Disambiguation)有独到的技术,可以用来支持下一代搜索引擎,超越Google,因此吸引了华尔街投资家的注意。他们在白皮书中说得天花乱坠,WSD 是语言技术的皇冠,谁摘下了这颗皇冠,就掌握 ...个人分类: 立委科普 | 833 次阅读 | 2 个评论 说说科研立项中的大跃进 热度 11 2012-1-7 08:01 说到立项,再多说几句。...... 如果一个大项目选错了方向,才真是糟蹋人民的钱财。历史上这样的案例还是不少的。远的有日本在上个世纪80年代上马的所谓“第五代计算机”的项目,忽悠得昏天黑地,似乎这个大项目的完成,新一代能够理解自然语言的人工智能电脑就会面世,日本就会成为世界电脑技术翘楚。结果呢,无疾而终(当 ...个人分类: 立委科普 | 3085 次阅读 | 12 个评论 分享 NLP 迷思之四:词义消歧(WSD)是NLP应用的瓶颈 热度 4 2012-1-6 10:00 引用老友 : 受教了。谢谢立委。 我同意“成语从来不是问题”。成问题的应该是一词多义,或歧义,对吧? 这个迷思不再局限于中文处理,它在整个NLP领域和NLP爱好者圈子里颇有迷惑性。WSD (Word Sense Disambiguation) 确系 NLP 难点,但在NLP应用上基本不是问题。 泛泛而言,一切歧义( ...个人分类: 立委科普 | 1164 次阅读 | 4 个评论 分享 NLP 是一个力气活:再论成语不是问题 2012-1-5 09:16 NLP是一个力气活,100% agree. 日期: 01/04/2012 15:14:51 有朋友问: Quote 俺对这个领域 是外行,形式语言和自动机理论还是学过的。其实成语数据库建立并不容易。涉及到大规模数据存储和检索的问题。 从应用层面看,成语数据库没有想象地那么大。当然如果你是包括一个语言的所有领域,方方面面,要 ...个人分类: 立委科普 | 904 次阅读 | 没有评论 分享 NLP 历史上最大的媒体误导:成语难倒了电脑 2012-1-4 16:27 NLP 最早的实践是机器翻译,在电脑的神秘光环下,被认为是 模拟或挑战 人类智能活动的机器翻译自然成为媒体报道的热点。其中有这么一个广为流传的机器翻译笑话,为媒体误导之最: 说的是有记者测试机器翻译系统,想到用这么一个出自圣经的成语: The spirit is willing, but the flesh is weak (心有余 ...个人分类: 立委科普 | 960 次阅读 | 1 个评论 分享 NLP 围脖:成语从来不是问题 2011-12-31 22:06 成语的本质是记忆,凡记忆电脑是大拿,人脑是豆腐。 作者: 立委 日期: 12/31/2011 08:04:01 当然要大词库,无论何种方式 建立,只要想做就可以做,因此不是问题。 所谓自然语言“理解”,就是把 open expressions 分解成词典单位(包括成语)的关系组合(术语叫 semantic compositionality)。凡事到了词典层 ...个人分类: 立委科普 | 849 次阅读 | 1 个评论 分享 后生可畏,专业新人对《迷思》争论表面和稀泥,其实门儿清 2011-12-31 05:19 “专业新人” (early stage researcher)也别被我的夸赞冲昏头脑。门道门道,有门有道。门儿清,不等于道儿清。做到门儿情,只要聪颖和悟性即可,而道儿清要的却是耐性、经验、时间,屡战屡败、屡败屡战的磨练,而且还要有运气。是为冰冻之寒也。 On Thu, Dec 29, 2011 Gwrote: As you titled ...个人分类: 立委科普 | 599 次阅读 | 没有评论 分享 专业老友痛批立委《迷思》系列搅乱NLP秩序,立委固执己见 2011-12-29 23:29 G 是资深同行专业老友很多年了,常与立委有专业内外的交流。都是过来人,激烈交锋、碰撞出火是常有的事儿。 昨天给他邮去《迷思》系列三则,他即打电话说:“好家伙,你这是惟恐天下不乱啊。看了《迷思》,我就气不打一处来。你这是对中文NLP全盘否定啊,危言耸听,狂放颠覆性言论。偏激,严重偏激,而且误导。虽然我知 ...个人分类: 立委科普 | 871 次阅读 | 没有评论 分享 中文NLP迷思之三:中文处理的长足进步有待于汉语语法的理论突破 热度 2 2011-12-29 00:27 严格说起来,这不能算是迷思,而应该算是放之四海而皆准的“多余的话”:任何学科的理论突破都可能引起应用层面的长足进步,不说也罢。其所以归类到这个迷思系列,是因为这样的高论在中文处理界常常甚嚣尘上,有严重误导青年学子的危害。其结果是喊了多年理论突破,理论并没有突破,反而造就了一批民科妄想家(只是指出这 ...个人分类: 立委科普 | 1016 次阅读 | 2 个评论 分享 中文处理的迷思之二:词类标注是句法分析的前提 热度 1 2011-12-28 16:59 词类标注(Part-of-speech Tagging: POS)是汉语句法分析的前提么? 没有这回事。 如果说为了模块化开发的方便,中文处理系统先行词类标注,再行句法分析,这种类似于多数英语分析器的架构从工程上看确实有一定的道理,但是词类标注并非句法分析的前提。 点破这一迷思的最直接的例证就是完全可以设计一个跳 ...个人分类: 立委科普 | 862 次阅读 | 1 个评论 分享 中文处理的迷思之一:切词特有论 热度 6 2011-12-28 13:33 电脑的中文处理业界有很多广为流传似是而非的迷思。在今后的随笔系列中,准备提出来分别讨论。 迷思之一:切词(又叫分词,word segmentation)是中文(或东方语言)处理特有的前提,因为中文书写不分词。 切词作为中文处理的一个先行环节,是为了模块化开发的方便,这一点不错。但它根本就不特有。 任何自然 ...个人分类: 立委科普 | 2262 次阅读 | 6 个评论 突然有一种紧迫感:再不上中文NLP,可能就错过时代机遇了 热度 1 2011-12-10 20:29 与业內老友的对话:在‘用’字上狠下功夫 耳边响起了林副主席关于系统开发的谆谆教导: Quote 带着问题做,活做活用,做用结合,急用先做,立竿见影,在‘用’字上狠下功夫。 from: http://blog.sciencenet.cn/home.php?mod=spaceuid=362400do=blogid=510567 这是从与朋友的内部交 ...个人分类: 立委科普 | 788 次阅读 | 1 个评论 分享 坚持四项基本原则,开发鲁棒性NLP系统 热度 3 2011-12-9 07:04 《科研随笔:自然语言处理系统的鲁棒性》 以前说过,一个 real life 自然语言处理系统,其质量和可用度除了传统的 data quality 的衡量指标查准度(precision)和查全度(recall)外,还有更为重要的三大指标:海量处理能力(scalability), 深度(depth)和鲁棒性(robustness)(参见:《 “三好”立委要做“三有” ...个人分类: 立委科普 | 1641 次阅读 | 4 个评论 分享 应该立法禁止分词研究 :=) 热度 1 2011-12-6 05:56 RE: 分词当然是第一关。这个没弄好,其他的免谈 现如今中文自动分析的瓶颈早已不是分词了 日期: 12/05/2011 15:43:43 半个世纪折腾进去无数的人力了。是 overdone,很大程度上是科研财主(sponsors)和科学家共同的失职。应该立法禁止分词(又叫切词,word segmentation)研究(kidding :=)),至少是禁 ...个人分类: 立委科普 | 1496 次阅读 | 1 个评论 分享 再说苹果爱疯的贴身小蜜 死日(Siri) 热度 1 2011-12-6 04:55 话说这苹果真是能折腾,一个技术课题硬是折腾成大众话题,弄得满世界都在谈论苹果爱疯的贴身小蜜 “死日”(Siri,没追踪来源,但瞧这名字起的),说是她无所不能,能听得懂主人的心思,自动打理各项事务,从天气预报,到提供股票信息,甚至做笔记。不服不行,人家就是把这个科幻世界的机器人功能产品化了,挑起了大众的好 ...个人分类: 立委科普 | 1131 次阅读 | 1 个评论 分享 【立委科普:自动分析 《偉大的中文》】 热度 2 2011-12-5 14:28 【立委科普:语法结构树之美(之三)】 自动分析 《偉大的中文》 自从开始着手中文处理的研发以来,我不断遭遇挑战,也不断遇到惊喜。本着报喜不报忧的普世原则,挑战独自吞下,惊喜则可以与友分享。 老友也不断“挑战”我,不过老友的挑战往往是人云亦云,打不着软肋,倒可以拿来与民同乐。 老友转文《伟大的 ...个人分类: 立委科普 | 756 次阅读 | 2 个评论 分享 【立委科普:语法结构树之美(之二)】 2011-11-22 14:44 引用 如果爱因斯坦在时空万物中看到了造物主的美,如果门捷列夫在千姿百态的物质后面看到了元素表的简洁,语言学家则是在千变万化的语言现象中看到了逻辑结构之美。这种美的体验伴随着我们的汗水,鼓励我们为铲平语言壁垒而愚公移山,造福人类。 摘自: 【 立委科普:语法结构树之美 】 nb ...个人分类: 立委科普 | 1098 次阅读 | 没有评论 分享 社会媒体(围脖啦)火了,信息泛滥成灾,技术跟上了么? 热度 1 2011-11-22 14:23 “三好”立委要做“三有”系统 面对呈指数增长的海量信息,人类面对信息获取的困境。唯一的出路是依靠电脑,其核心的技术是语言处理(NLP)。这不是王婆卖瓜,而是客观形势。 就说社会媒体对产品和服务的评价吧,每时每刻,无数用户的抱怨和赞美不断出现在网上,这些客户对产品的评价情报对于企业加强产品功能和研发 ...个人分类: 立委科普 | 1244 次阅读 | 1 个评论 分享 科研笔记:开天辟地的感觉真好 2011-10-30 01:40 刚开始上系统的体验真好,有一点儿开天辟地的感觉。 作者: 立委 日期: 10/29/2011 12:35:42 那么多人在语言混沌中绕不出来,而我自己的感觉每一个挑战都有一条通天的大路,怪了。英语如此,其他欧洲语言(法、德、西、意等)如此,中文更如此。弄潮儿大海冲浪,不过如是吧。 手里有一库的工具,遇到一个问题 ...个人分类: 立委科普 | 996 次阅读 | 没有评论 分享 《立委科普:语言学的基本概念》 热度 1 2011-10-19 18:02 《立委科普:语言学的基本概念》 (5384 bytes) Posted by: 立委 Date: June 26, 2008 12:32AM 语言学是语言的学问,这学问的引人入胜之处,就在于其研究对象语言是一个人人知其然,很少人知其所以然的复杂的系统。复杂到什么程度呢,总之是很容易陷进去出不来。能出来的人不多,立委自以为是出来人,因此, ...个人分类: 立委科普 | 884 次阅读 | 3 个评论 分享 《科普随笔:“他走得风一样地快” 的详细语法结构分析》 2011-10-19 14:21 《立委随笔:“他走得风一样地快” 的详细语法结构分析》 (1564 bytes) Posted by: 立委 Date: June 07, 2008 05:18AM 有老友问如何分析句子“他走得风一样地快”。镜兄回答: 引用: “走/得快”是一个区分,不应该是“走/得/快”。 (157425) Posted by: mirror Date: May 30, 2008 ...个人分类: 立委科普 | 910 次阅读 | 没有评论 从 colorless green ideas sleep furiously 说开去 2011-10-14 17:59 《科普随笔:乔姆斯基》 (4031 bytes) Posted by: 立委 Date: April 22, 2007 10:15AM 周末说点语言学:从 colorless green ideas sleep furiously 说开去 (13928) Posted by: liwei999 Date: June 17, 2006 11:25AM 这句“名言”是大名鼎鼎的乔姆斯基(Chomsky)说的。 Noam Chomsky是MIT顶级教授(In ...个人分类: 立委科普 | 1022 次阅读 | 没有评论 分享 《科普随笔:keep ambiguity untouched》 2011-10-14 17:52 《立委随笔:keep ambiguity untouched》 (788 bytes) Posted by: 立委 Date: April 27, 2007 06:09PM 机器翻译:至美必在其中。 (22347) Posted by: liwei999 Date: September 19, 2006 12:15AM 冰冰说: 馒头的翻译:茶之至美则必在其中矣。 藕修改后的翻译:茶道必有至美匿于其 ...个人分类: 立委科普 | 848 次阅读 | 没有评论 分享 《科普随笔:汉字和语素》 2011-10-14 17:48 实在忍不住,到隔壁插了一句 (16228) Posted by: liwei999 Date: July 26, 2006 05:35AM 前几天看到江老弟在黑暗中摸索,想用汉字表达他琢磨出来的语素的概念,就想好为人师一下。想还是等别的语言学家出来给他点拨一下吧。结果没有。质疑他汉字说的人,逼迫他重新修正概念,提出了近似语素的基本概念。 ...个人分类: 立委科普 | 717 次阅读 | 没有评论 分享 《科普随笔:汉语自动断词 “一次性交500元”》 2011-10-14 17:41 《立委随笔:汉语自动断词 “一次性交500元”》 (2824 bytes) Posted by: 立委 Date: April 27, 2007 10:56PM 请教一下立委,这过滤词的语法能提高吗。 (15409) Posted by: oztiger Date: July 12, 2006 11:03PM 我初看xj这帖子,很不明白 北大法学院 怎么会变成 北 大法 学院,想想又挺 ...个人分类: 立委科普 | 863 次阅读 | 没有评论 分享 《科普随笔:机器八卦》 2011-10-14 17:09 机器八卦:Text Mining and Intelligence Discovery (13219) Posted by: liwei999 Date: June 10, 2006 10:07PM 犀角提议,干脆用机器挖掘吧。我不想吓唬大家,但是,理论上说,除非你不冒泡,言多必失,机器八卦,比人工挖掘,可能揭示出你的更多特征。好在该技术还不成熟。 Text mining 是我这 ...个人分类: 立委科普 | 725 次阅读 | 没有评论 分享 在构筑一个模型时,枚举法是常用的必要的强盗分类。 2011-10-12 18:16 枚举法是“权威”定义的一种。对有限集合(可枚举者)有效。 在构筑一个分类体系中,确实需要用枚举法。可以认为是强盗分类。 作者: 立委 (*) 日期: 10/12/2011 05:11:12 譬如,编制一套形式文法来model语言现 象。首要任务是词的分类。开放类(名形动副)是一种定义法。封闭类(功能词,如介词、连词 ...个人分类: 立委科普 | 638 次阅读 | 没有评论 分享 非常折服苹果的技术转化能力,但就自然语言技术本身来说 ... 热度 1 2011-10-8 08:10 苹果 iPhone 4S 里面的 Siri,跟我们的工作没法比 它面对的是非常狭窄的语言子集,我面对的是全开放的语言现象。 自然语言处理,领域越单纯,应用越好 。可我没有这个便利,我面对的是跨领域。 自然语言处理,语言越规范(譬如正式新闻),应用越好。可我没有这个便利,我面对的是社会网络的用语:充满了错别字、不 ...个人分类: 立委科普 | 1134 次阅读 | 1 个评论 分享 why hybrid? on machine learning vs. hand-coded rules in NLP 热度 1 2011-10-8 04:00 There are two major approaches to NLP, namely machine learning and rule-based approach. Each has its own strengths and limitations, as summarized below. 1. In general, a rule system is good at capturing a specific language phenomenon (trees) whilemachine learning is goo ...个人分类: 立委科普 | 934 次阅读 | 1 个评论 分享 从新版iPhone发布,看苹果和微软技术转化能力的天壤之别 热度 2 2011-10-5 18:29 终于熬夜把苹果昨天发布 iPhone 4S (其实应该叫 iPhone 5) 的现场录像( http://events.apple.com.edgesuite.net/11piuhbvdlbkvoih10/event/index.html )看了。其中的一个最重要的 feature 叫 Siri,你的贴身秘书,可以用自然语言与其对话,执行你的日常指令。里面用到了自然语言技术,语音识别(speech recognition)以及 ...个人分类: 立委科普 | 1715 次阅读 | 2 个评论 分享 言多必露,文本挖掘可以揭示背景信息 热度 1 2011-7-11 01:03 言多必露,挖掘有商用价值的背景信息 文本挖掘(text mining)中,Demographic Profile Extraction 的任务是要给网虫自动分类,揭示其背景信息(年龄,性别,身份,族裔,人生阶段,家庭背景等)。 一些简单的规则,查准率高(high precision),查全率并不高(moderate recall),譬如: I am X -- X (student, t ...个人分类: 立委科普 | 702 次阅读 | 1 个评论 立委围脖:对于用户来说,抓住老鼠就是好猫 热度 1 2011-6-24 18:16 这是从镜子的话想到的。 Re: 对乘客而言,瞬间跑多少速度无关紧要。要的是平均速度。 Quote  mirror 因为距离是不变的,花多少时间才能到达目的地是个关心的问题。 在我们这个信息抽取/搜索这个行当里,学界与业界对于覆盖面(recall)的定义完全不同。学界的定义是以一个信息的出现次数 (mention level) ...个人分类: 立委科普 | 617 次阅读 | 没有评论 分享 今天的Ask.com 热度 1 2011-6-13 14:11 今天的Ask.com: 回归问答系统,常见问题的回答令人印象深刻 今天无事,对AskJeeves十周年推出的 人生十大难题发了一回议论 。我跟甜甜说,你来看看这些人类无法解答的难题,其中有好几个问题也是近一年你反复问我,而我的解答总是无法令你满意的,譬如人生意义的问题,上帝的问题,还有如何才能克服抑郁, ...个人分类: 立委科普 | 720 次阅读 | 没有评论 分享 【 IT风云掌故:金点子起家的 AskJeeves 】 热度 1 2011-6-11 18:42 前两天甜甜突然问道:Dad, is AskJeeves still alive? 这孩子一直对IT业界的事情感兴趣。譬如,当我讲述微软和苹果近二十五年的纠缠,五年河东,十年河西,十年又河东,彼伏此起,此消彼长,她都听得不亦乐乎,特别是说到 IT 传奇巨人 Bill Gates 与 Steve Jobs 迥然不同的性格和理念,她都特别爱听。 ...个人分类: 立委科普 | 1016 次阅读 | 1 个评论 分享 【立委科普:语法结构树之美】 热度 2 2011-6-4 20:04 我们知道,语句呈现的是线性的字符串,而语句 结构却是二维的。我们之所以能够理解语句的意思,是因为我们的大脑语言处理中枢能够把线性语句解构(decode)成二维的结构:语法学家常常用类似下列的上下颠倒的树形图来表达解构的结果(所谓 parsing)。 上面这个树形图叫作依从关系树形图(depende ...个人分类: 立委科普 | 1152 次阅读 | 3 个评论 分享 《立委科普:汉语只有完成体,没有过去时》 热度 1 2011-5-19 10:36 回答:老友关于动词加“了”还是不加“了”的争论:又见师姐 vs 又见了师姐 汉语语言学界比较共识的是,汉语只有完成体,没有过去时 作者: 立委 (*) 日期: 05/18/2011 04:33:11 时 (tense)和 体 (aspect)是两个不同的语法范畴。因为其反映语言时间概念的角 度不同,实际应用中有些纠 ...个人分类: 立委科普 | 947 次阅读 | 1 个评论 分享 立委微博:抄袭否定的是整个语言学 热度 2 2011-5-5 17:06 回答: 对事实的陈述不算抄,不抄怎么表述同样的事实呢? 你一句话否定了整个语言学!!! 作者: 立委 日期: 05/04/2011 10:17:58 如果同一个事实或者思想,只有同一种表达,必须抄袭,语言完蛋了,语言学完蛋了,语言学家都去喂狗吃。 看样子,应该写篇语言学科普《立委科普:逻辑表达式》,说 ...个人分类: 立委科普 | 660 次阅读 | 3 个评论 分享 80年代在国内,社科院的硕士训练使我受益最多 热度 1 2011-5-3 12:54 有老友问社科院80年代的硕士情况。回想了一下是这样的。 引用不规范是常见的,但是综述代替硕士论文是难以想象的 日期: 05/02/2011 23:28:16 我的硕士论文不是文科的代表,不作数。我是先做试验,用 BASIC 编了一个从世 界语到英语和汉语得自动翻译系统,然后才写论文的。答辩前,导师对我说,我们这行好办,答辩容 ...个人分类: 立委科普 | 459 次阅读 | 1 个评论 分享 【立委科普:问答系统的前生今世】 热度 5 2011-4-23 21:43 上周信笔涂鸦写了个不伦不类的科普( 【立委科普:从产业角度说说NLP这个行当】 ),写完自我感觉尚可,于是毛遂自荐要求加精:“ 自顶一哈:不用谦虚,这个应该加精。也不枉我费了大半天的时辰。 ” 本来是玩笑话,没成想科网的编辑MM在两小时内就真地加精上首页了。前几周还在抱怨,怕被编辑打入另册,正琢磨 ...个人分类: 立委科普 | 2075 次阅读 | 11 个评论 分享 【立委科普:从产业角度说说NLP这个行当】 热度 10 2011-4-19 08:25 前面一篇博文 的本意,是想借题发挥,从工业运用的角度说说 NLP(Natural Language Processing:自然语言处理)这个行当。不好意思,我算是这个行当在工业界的老古董了(学界不算,学界有的是NLP师爷和大牛)。跟我同期学习这行的同门学长们有小20位,由于这个行当不能在工业界形成规模,他们无一例外都在不同时期改行了 ...个人分类: 立委科普 | 3992 次阅读 | 14 个评论 分享 据说,神奇的NLP可以增强性吸引力,增加你的信心和幽会成功率 热度 1 2011-4-19 05:28 wow,听上去比伟哥的发明还要伟大,I never knew this side of NLP。 我一辈子就干的自然语言处理这行,即 NLP (Natural Language Processing),最近才知道它还有 seductive 的一面。 不过,我特别喜欢这个广告: Quote NLP is not magic, but the results you can get sometimes seem almost magical. (“NL ...个人分类: 立委科普 | 1366 次阅读 | 1 个评论 与机器人对话 2010-10-26 10:58 这年头,美女帅哥泛滥成灾,尤其在国内的网络上。有几次点击链接看帖子或者图片,常常到一个注册网站,非登记不给看。于是随便注册一个ID,结果填写“性别”信息时遇到了“帅哥”和“美女”的两难。我虽然也爱吹牛,还没有胆子大到自称帅哥的程度,看到满目的芙蓉姐姐那样的美女和芙蓉哥哥那样的帅哥,突然觉得中国不仅国 ...个人分类: 立委科普 | 891 次阅读 | 1 个评论 分享 If it's working, don't change 2010-7-31 23:29 If it's working, don't change. (107276) Posted by: liwei999 Date: September 07, 2007 12:36PM 想起自己经历的故事来。 在水牛城,我作为研发经理,经常要跟工程经理打交道,这位VP的口头禅就是这个。我们这边满怀建功立业的热情,生怕产品不更新,不增加 advanced features, ...个人分类: 立委科普 | 743 次阅读 | 没有评论 分享 《立委随笔:语言这东西,挺好玩de》 2010-7-23 00:38 副词“都”/“也”用到句末,这个现象是怎么发生的? (116009) Posted by: liwei999 Date: November 09, 2007 10:30AM 我一直奇怪。 好像只有口语有这种用法。甚至我到北京上学前也从来没有见过这样用的,也许是北方口语?师姐也许知道怎么回事。 还有两个现象也很 strike m ...个人分类: 立委科普 | 839 次阅读 | 没有评论 分享 《立委随笔:乔姆斯基的“世界语”》 2010-7-23 00:37 《立委随笔:乔姆斯基的“世界语”》 (213 bytes) Posted by: 立委 Date: March 08, 2008 03:59AM 乔姆斯基的出发点:先天的结构,后天的参数调整。因此,元语言而论,“世界语”(universal grammar)必然存在。 当然这只是个假说。然而这个假说,半个世纪以来成为西方语言学流派的主流。 nb ...个人分类: 立委科普 | 814 次阅读 | 没有评论 分享 《立委随笔:语言自动分析的两个路子》 2010-4-17 12:42 以前断续写过一些随笔。 (899 bytes) Posted by: 立委 Date: September 22, 2008 12:18AM 不外是两个路子,基于语法规则的路子,基于统计的机器学习(ML)路子,或者是二者的某种结合。不过,语法的路子并不大用乔姆斯基的转换生成语法。除了教授在实验室做玩具系统外,应用系统中最多用最熟练的 ...个人分类: 立委科普 | 1554 次阅读 | 2 个评论 分享 《朝华午拾:在美国写基金申请的酸甜苦辣》 2010-2-18 10:43 作者:立委 立委按:有朋友私下聊天提到,科网都是一帮工愚理呆,你个文傻,只能敲边鼓,你那些人生故事,《朝华》什么的,小资怀旧情调,低吟浅唱,写得再好,再真切,也是注定寂寞的,因为你远离热门话题。我说,是么?好,那我就“朝华”一篇热门话题,看看能不能把小资打到科网的头条去!毕此一役,不 ...个人分类: 立委科普 | 7030 次阅读 | 27 个评论 分享 《立委随笔:机器学习和自然语言处理》 热度 1 2010-2-13 07:39 有脚客介绍人工智能(AI)现状 ( http://rl.rockiestech.com/node/636 ),认为由于机器学习(ML)技术的长足进步,人工智能正进入繁荣期,并且开始成功用于自然语言处理(NLP). 除了调子过分乐观了一些,这是个不错的介绍。下面的随笔是根据我自己的经验和体会而来。 AI, ML and NLP NLP 中过分 ...个人分类: 立委科普 | 4471 次阅读 | 3 个评论 分享 《立委随笔:通天塔不是一日建成的》 2010-2-12 04:35 Date: October 27, 2008 03:37AM 立委 新技术先锋苹果公司最近推出了新款的笔记本电脑 Mac Pro,最大的卖点是 unibody 的设计制作工艺 (Precision aluminum unibody enclosure: http://www.apple.com/macbook/ )。苹果开发副总介绍说,他们开始了一个开发过程的革命性转变。以前的电脑是组件安装,因此 ...个人分类: 立委科普 | 1348 次阅读 | 1 个评论 分享 《立委科普:现代汉语语法随笔》 2010-2-11 02:47 立委按:本随笔属心得,信马由缰,不在全,不求稳,不引经据典,欢迎讨论批评。 现代汉语语法随笔 语法表达组词造句的规律。Native speakers 心中都有一套语法,尽管由于地域、出身、教育程度等等的差异,每个人心中的语法和其他 native speakers 并不完全重合,但是其核心部分是相同的,否则语言交流就不可思议 ...个人分类: 立委科普 | 1500 次阅读 | 1 个评论 分享 《立委随笔:自然语言是递归的么?》 热度 1 2010-2-11 02:47 mirror 说: 括号可以用几重?立委作为计算机的半拉专家,应该知道是有限的。问题是限在几重上。 比如{[最(伟光正的)党]领导的}是一个深度的例子。 没有抽象化,也就没有学问了。问题不在于可不可以。问题是出自一个什么样的考虑、取舍,定下的如此规矩。 由镜子所说 ...个人分类: 立委科普 | 1399 次阅读 | 1 个评论 【立委科普:语言学的基本概念】 2010-2-10 07:11 语言学是语言的学问,这学问的引人入胜之处,就在于其研究对象语言是一个人人知其然,很少人知其所以然的复杂的系统。复杂到什么程度呢,总之是很容易陷进去出不来。能出来的人不多,立委自以为是出来人,因此,斗胆开讲语言学学理讲座。外行看热闹,内行看奥妙,陪伴各位做一次语言学揽胜之旅。 谈语 ...个人分类: 立委科普 | 1492 次阅读 | 没有评论 分享 【立委科普:教机器识英文】 2010-2-10 07:10 2008-09-20 我们教机器理解语言(Natural Language Understanding),基本的一条就是通过句法分析 (parsing) 解析出句子的意义。什么是一个句子的意义呢?举个例子: John loves Mary. 上述句子有三个构句成分:约翰,玛丽,爱。认识这些词不难,一部词典就成,但这不等于能听懂这个句子,因为句子的意义不是 ...个人分类: 立委科普 | 1325 次阅读 | 没有评论 分享 “自由”的语言学至少有三种理论 2010-2-2 06:02 自由的语言学至少有三种理论 (1880 bytes) Posted by: 立委 Date: July 10, 2008 01:11AM 对于(逻辑)形容词譬如自由,至少有三种理论,试图概括形容词的常用语言现象: 资产阶级自由派理论(简称右派理论):自由是形容词、动词和名词的兼类词,词无定类,入句而后 ...个人分类: 立委科普 | 1207 次阅读 | 没有评论 分享 《立委科普:机器八卦》 2009-12-23 06:45 机器八卦:Text Mining and Intelligence Discovery (13219) Posted by: liwei999 Date: June 10, 2006 10:07PM 犀角提议,干脆用机器挖掘吧。我不想吓唬大家,但是,理论上说,除非你不冒泡,言多必失,机器八卦,比人工挖掘,可能揭示出你的更多特征。好在该技术还不成熟。 文本挖掘(text mining) 是我这几年 ...个人分类: 立委科普 | 4879 次阅读 | 没有评论 分享 《朝华午拾:今天是个好日子》 热度 1 2009-12-22 18:45 今天是个好日子 – 立委研发笔记之二 作者:立委 今天是个好日子。 今天真是个好日子。 什么日子呢?这么说吧,就好比陈景润证出1+1=2的那天,算不算个好日子。 写完上面几句话,兴奋了一天,终于轰然到下,难得地一觉睡到自然醒。所以,确切地说,标题应该是:昨天是个好日子。 我们搞研发的工匠, ...个人分类: 立委科普 | 1489 次阅读 | 2 个评论 分享 《朝华午拾:欧洲之行》 2009-12-16 10:09 1989年夏天,我和导师去德国慕尼黑应参加第二次国际机器翻译最高级会议。此前,我跟荷兰BSO(Buro voor Systeemontwikkeling BV)公司的机器翻译研究组一直有联络,应约为他们的以世界语作为媒介语的多语机器翻译系统 DLT,编写了一部 现代汉语依从关系的形式句法 。他们听说我们要来欧洲,就邀请我和我的导师,还有中 ...个人分类: 立委科普 | 1073 次阅读 | 没有评论 分享 《朝华午拾:世界语之恋》 2009-12-15 18:20 朝华午拾 - 我的世界语国(二):世界语之恋 世界语之父柴门霍夫博士 柴门霍夫(Zamenhof)博士创造完世界语后,并没有马上发布,而是用世界语自己跟自己说话和著述了好多年,烂熟于心。 我刚开始接触世界语,就一见钟情,堕入爱河,有诗为证: Al Nia Kara Lingvo La lingvo gracia, kara mia, Ghis k ...个人分类: 立委科普 | 1126 次阅读 | 没有评论 分享 《朝华午拾:一夜成为万元户》 2009-12-13 18:11 我1986年硕士研究生毕业留语言研究所,受到导师器重,春风得意。除了组里的日常研究开发外,每个周末都泡在所里,干些自己感兴趣的项目,都与世界语(Esperanto)的研究和应用有关。第一个项目是把自己的硕士毕业设计从封闭系统转为开放系统。这是我用BASIC编写的一款从世界语自动翻译成汉语和英语的系统 ...个人分类: 立委科普 | 1536 次阅读 | 1 个评论 分享 《朝华午拾:“数小鸡”的日子》 热度 1 2009-12-13 18:06 这是一个很久远的动人故事,只是结局有些让人扫兴。说是一位爱幻想的村姑,左手一只老母鸡,右手一篮子鸡蛋,走在冰天雪地里。她开始幻想这些鸡蛋都孵出小鸡,小鸡长大又下更多的蛋,这些蛋再孵出更多的小鸡,直到她拥有了全世界。她正数小鸡数不过来,一不小心滑倒在地,鸡飞蛋打。 太太最近问我:“我们上次数小鸡 ...个人分类: 立委科普 | 1448 次阅读 | 4 个评论 分享 《朝华午拾:我的考研经历》 2009-12-13 06:14 立委按:这是我《朝华午拾》怀旧系列的第一篇,从此一发不可收。回想起来,人的一生,高考和考研的“跳龙门” 确实是命运的根本转机。最近探亲,老哥和师姐都跟我说,同辈人后来的生活道路,大多在冲刺龙门的那一刻就注定了。这很不公平,因为很多同学所具有的才干和潜力,应试教育是不能全面衡量的。但是,社会就是这样 ...个人分类: 立委科普 | 4665 次阅读 | 10 个评论 【立委科普:机器翻译】 2009-12-13 04:09 MACHINE TRANSLATION By Wei Li liwei999 AT gmail.com (In GB code) 本文是作者应约为科技辞书写的辞条, 现略加修改, 力求深入浅出, 既反映本学 科的最新发展水平, 又能让一般读者容易理解。 立委 一九九六年六月二十五日 于 加拿大温哥华 -------------------------------------------------- ...个人分类: 立委科普 | 1982 次阅读 | 没有评论 分享 【立委科普:信息抽取】 热度 1 2009-12-12 08:35 【立委科普:信息抽取】 (13618 bytes) Posted by: 立委 Date: August 10, 2007 10:31AM 作者:立委 前言 信息这个词对大家都不陌生,因为我们处在一个信息爆炸时代。事实上,如今internet上信息是如此的泛滥,鱼龙混杂,以至于当我们搜寻资讯的时候,常常有大海捞针的感觉 ...个人分类: 立委科普 | 2681 次阅读 | 4 个评论 分享 《朝华午拾:信息抽取笔记》 热度 1 2009-12-12 08:33 《朝华午拾:信息抽取笔记 — Julian Hill Entity Profile 的形成》 作者:立委 在我的科研生涯中,有些插曲很有意思。关于 Julian Hill 的故事就是其一,这段故事成为我们研究组推介所谓实体概览(Entity Profile)的概念和功能的经典例证。 那是七八年前,我涉入信息抽取领域不到两年,同时主持两个信息抽取 ...个人分类: 立委科普 | 1721 次阅读 | 1 个评论 分享 《朝华午拾 - 水牛风云》 2009-12-11 17:33 朝华午拾 - 我的世界语国(五): 水牛风云 作者:立委 纽约州水牛城是我来美奋斗挣扎了八年的地方,我的世界语国也经历了许多的风雨起伏。 我是在美国网络热潮中来到这家创业公司的(见 《朝华午拾-创业之路》 )。在世纪末网络泡沫破灭之前,我协助老板获得了1000万美元的风险投资。钱一下多得好像永远用不完 ...个人分类: 立委科普 | 1983 次阅读 | 没有评论 分享 《朝华午拾:用人之道》 2009-12-11 17:20 朝华午拾-水牛风云(二):用人之道 作者:立委 上次说到,上个世纪末美国也来了一场大跃进,网络狂热促使我们这样的小公司疯狂扩招。我的研发组一下子多了十几个兵,再加上七八个实习生,从未当过经理的我,一时有点手足失措。我于是抓紧培养 team leaders, 好帮助我管理这个团队。研发研发,研究开发,研究主 ...个人分类: 立委科普 | 961 次阅读 | 没有评论 分享 《朝华午拾:创业之路》 热度 1 2009-12-11 04:23 1996年11月来到B城,发现自己是公司的第二号员工。第一号是一位富有经验的瑞典籍的软件工程师,为人朴实,是很好的合作伙伴。印度女老板是大学教授,很有修养和风度,待人热情和气。当时正赶上美国网络热潮,股市狂涨,高科技项目成为宠儿。网络泡沫最盛的时候,总使我想起国内的大跃进。不怕做不到,就怕想不到。各种概念型 ...个人分类: 立委科普 | 3298 次阅读 | 4 个评论 关于李维 豆油里面到底有没有转基因?Yes or No? 李维先生: 我不得不说你几句了。 在转基因食品的大数据输入问题上, 不少网友指出了你输入的数据是伪数据, 我没有进来说什么。 现在你又来说什么转基因大豆油的问题了。 尽管你是Simon Fraser University的信息科学博士,我也确信你是那个领域有水平的学者。 但不得不说,在分子生物学和遗传工程领域, 你的知识与一般的大学本科的学生没有什么区别。你要在这个领域里指教别人, 其结果就步崔永元的表演,现在崔永元已经下不了台了。 所以我奉劝你不要不在不是自己专业的领域内指教别人(我没有在大数据里多发表自己的看法, 因为这不是我的专业), 还是找这个专业的专家多请教一下比较好(我决没有指责你的意思, 完全是好言相劝)。 现在就转基因大豆油给你说几句吧。 1. 所有的食用油都要经过一个精炼去除杂质的程序, 其中一个精炼程序就是用水来萃取所有的水溶性杂质, 转基因所产生的BT蛋白(对玉米油和菜籽油-conola)以及大豆里的转抗除草剂草甘膦的蛋白,是水溶性的, 都被水带走了, 在油相里是没有转基因的BT蛋白和除草剂草甘膦的蛋白, 在用PCR扩增技术(我没时间给你解释PCR了), 也基本检测不出BT基因和和除草剂草甘膦的基因和它们的片段碎片(武汉的油料作物研究所采样上百批, 只在个别样品中检测到痕量的转BT基因的残片)。 所以你的标题“豆油里面到底有没有转基因”,让内行人看了很搞笑的 2. 你说的“玉米的问题 ,主要用途也是榨油和提取淀粉、造酒精,不是作为主要食品”也是很搞笑的。 我可以告诉你转基因玉米的淀粉和高果糖糖浆里都含有BT蛋白的, 甚至你在美国经常吃的corn chip里也含有BT蛋白的, EPA有检测Corn chip 里面BT蛋白的含量报告。 你吃的很多玉米食品, 如Corn Muffin等等都有BT蛋白在里面的。 美国的甜玉米, 50%是转基因的, 在groccery 和路边小摊(农贸市场)上卖的甜玉米都是转基因的。 美国90%以上的速冻甜玉米粒(我想你经常在吃吧)和罐装玉米粒基本都是转基因甜玉米做的。 美国的软性饮料可乐, 雪碧, 7-up,雀巢/麦氏咖啡里面的甜味都是加转基因玉米糖浆来的(这就是可口可乐,pepssi,雀巢咖啡等公司在加州是否要做GMO标识时, 给了很多钱来反对反转分子的主要原因0, 否则所有的软性饮料和咖啡的包装上都要印上GMO可乐或GMO雪碧, 或GMO雀巢的标识了。 如果有人说我不吃加了转基因玉米糖浆的可乐, 我只吃diet 可乐或雪碧, 那么我告诉你, diet可乐里面加的甜味素阿斯巴也是转基因的产品, 比转基因玉米还要“可怕”, 是从大肠杆菌里提炼出来的 。 麦当劳,Berger Kin(估计你吃了不少)的Big Mac 和whopper 来说, 把肉末黏在一起的淀粉就是转基因玉米的淀粉(里面 含有BT蛋白)。 美国人每天都要吃蔬菜沙拉, 上面浇的Drressing(就是中国人说的浇头)都是用转基因的豆油,或玉米油,或canola(菜籽油)配制的。。 所以你说美国人不吃转基因玉米食品,可能是你自己不了解事实, 无怪乎人家说你的大数据输入是伪数据, 结论没有意义。 我告诉你吧, 美国的玉米总产量中有21%的玉米是生产食品的, 大部分都是美国人吃掉了。 我讲的上面情况,还没有包括转基因大豆和玉米做饲料喂出来的几十万亿头的家畜家禽。 抱歉, 没有指责你的意思, 就是提供一些信息供你参考。 祝你元旦快乐 博主回复(2014-1-1 03:07) : 有谁不匿名指责伪数据么?跟匿名我怎么玩呢。 伪数据?笑话嘛,那个数据根本不是我掌控的,怎么伪? 那是我们的客户情报系统所要求的社会媒体index,顺便拿来测一下社会媒体的转基因形象。你倒跟我说说,我怎么“伪”它。 博主回复(2014-1-1 03:02) : 镜子呢?大新年的。 你的所有问题,都是镜子惹起的。他的名字叫横扫。 而我不懂转,只懂大数据和语言学。
个人分类: 科网群英烩|4 次阅读|0 个评论
曙光在眼前,轻松过个年
热度 1 liwei999 2013-2-9 04:34
曙光在眼前,轻松过个年
QA(Quality Assurance 质量检测)表明,在下领导开发的中文系统质量优良 日期: 02/08/2013 13:38:01 比起我们业已成熟的英文系统,QA 表明: precision (查准率)已经基本达到英文系统的查准率水平; recall (查全率)达到英文查全率的三分之二左右。 要知道,英文系统开发了n年,英文本身处理难度比起博大繁难的中文也低一些,much more tractable. 我们做多语言,本来就是基于下列的 field feedback / assumption: 英文的系统及其data quality 是一个已经 sold 的 concept/product,无需再论证,因为客户已经接受,而且市场上找不到更好质量的。有别的方面暂时强于我们的,比如,content sources,比如应对网络垃圾,比如与结构数据或meta data整合,比如与企业解决方案的无缝连接,比如在某个特定 domain 里面的优化,等等,但是 data quality,老子天下第二(第一自然是上帝)。多语言项目上马就是要重复英语的成功。 而中文,我们遵循实用主义原则奋战快一年,已然接近英文质量了。照目前的研发速度, 保守的估计,到今年年底,中文系统质量会全面达到英文系统的水准。 中文社会媒体深度舆情挖掘不再是遥远的梦。 饮水思源,这一切首先归功于林彪元帅的教导。林元帅说的是: 要带着问题学,活学活用,急用先学,立竿见影,在用字上狠下功夫 。毕竟是不世出的天才元帅,说出来的话就是不同凡响。 再有就是 邓大人的影响。邓大人是实用主义大师,其猫论是一切实际工作的指南,是反对理论洁癖的利器。 遵循林元帅邓大人的教诲,就是胜利。 急用先做,立竿见影。一分耕耘,十分收获,实用主义万万岁。 过年罗,过大年罗。 立委名言:曙光就在前面,同志可以过年。 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 立委科普|4533 次阅读|4 个评论
【立委科普:自动民调】
热度 3 liwei999 2012-10-19 02:33
【立委科普:自动民调】
Automatic survey complements and/or replaces manual survey. That is the increasingly apparent direction and trend as social media are getting more popular everyday. 自动民调(or 机器民调: Automatic Survey / Machine Survey)指的是利用电脑从语言数据中自动抽取挖掘有关特定话题的民间舆论,其技术领域即所谓舆情挖掘(sentiment mining),通常需要自然语言(NLP)和机器学习(Machine Learning)等技术作为支持。自动民调是对传统的问卷调查一个补充或替代。在社会媒体日益普及的今天,民间情绪和舆论通过微博、博客或论坛等社会媒体管道铺天盖地而来,为了检测、采集和吸收这些舆论,自动民调势在必行,因为手工挖掘面对大数据(big data)已经完全不堪负荷。 民意调查(poll)可以为政府、企业以及民众的决策提供量化情报,应用范围极其广泛。总统大选是一个突出的例子,对于总统候选人本人及其竞选团队,对于选民,民调的结果可以帮助他们调整策略或作出选择。产品发布是企业的例子,譬如 iPhone 5 发布以后,民调的反馈可以帮助苹果及时发现问题。对于有意愿的消费者,民调的结果也有助于他们在购买、等待还是转向别家的决策时,不至于陷入盲目。 相对于传统的以问卷( questionnaire )调查为基础的民调,自动民调有以下几个突出特点。 及时性 。传统民调需要经过一系列过程,设计问卷、派发问卷(通过电话采访、街头采访、有奖刺激等手段)、回收问卷,直到整合归纳,所有程序都须手工进行,因此难以做到及时响应。一个认真的客户产品调查常常需要几天甚至几周时间方可完成。自动民调可以做到立等可取。对于任意话题,使用自动民调系统就像利用搜索引擎一样方便,因为背后的处理机在不分昼夜地自动分析和索引有关的语言资料(通常来自社会媒体)。 高性价 。传统民调的手工性质使得只有舍得不菲的花费,才可以做一项有足够规模的民调(样本小误差就大,难以达到民调的目的)。自动民调是由系统自动完成,同一个系统可以服务不同客户不同话题的各种民调,因此可以做到非常廉价,花费只需传统民调的零头。样本数可以高出手工调查回收数量的n个量级,是传统民调无法企及的。至于话费,通常的商业模式有两种,客户可以订阅(license)这样的系统的使用权,然后可以随时随地对任意多话题做任意多民调。零散客户也可以要求记件使用,每个话题民调一次缴纳多少钱。 客观性 。传统民调需要设计问卷,这就可能有意无意引入主观因素,因此不能完全排除模糊歧义乃至误导的可能。自动民调是自底而上的自动数据分析,用的是归纳整合的方法,因此更加具有客观性。为了达成调查,调查者有时不得不施行物质刺激,这也产生了部分客户纯粹为了奖励而应付调查、返回低质问卷的弊端。自动民调的对象是民意的自然流露(水军和恶意操纵另论),基数大,也有利于降噪,这就保障了情报的客观性。 对比性 。这一点特别重要,因为几乎任何话题的民调,都需要竞争对手或行业的背景。正面反面的舆论,问题的严重性等等,只有通过对比才能适当体现。譬如民调奥巴马的总统竞选效益,离不开对比其对手罗梅尼。客户调查 ATT 手机网络的服务,离不开比较其竞争者 Verizon,等。很多品牌实际上需要与一系列同类品牌做对比,才好确定其在市场的地位(如上图所示)。这种对比民调,虽然在理论上也可以手工进行,但是由于手工民调耗时耗力耗钱,很多时候调查者不得不减少或者牺牲对于竞争对手的调查,利用有限的资源只做对本企业的品牌调查。可自动调查就不同了,多话题的调查和对比是这类产品设计的题中应有之义,可以轻易完成。 自动民调也有挑战,主要挑战在于人为噪音:面对混乱的社会媒体现实,五毛、水军以及恶意舆论的泛滥,一个有效的舆情系统必须不断与垃圾作战。好在这方面,搜索引擎领域已经积攒了丰富的经验可以借鉴。另一个挑战是需要对网络世界做两类媒体的分类(所谓push/pull的媒体分野)。民意调查切忌混入“长官意志”,客户情报一定要与商家宣传分开:同是好话,商家是王婆卖瓜,客户才是上帝下旨。这种媒体分类可以结合来源(sources)、语气(宣传类材料常常是新闻官方语气,而客户评价则多用口语和网络语)来决定,是有迹可寻的。 总之,在互联网的时代,随着社会媒体的深入民间,民间情绪和舆论的表达越来越多地诉诸于社会媒体。因此,民调自动化势必成为未来民调的方向和主流。其支持技术也基本成熟,大规模多语言的应用指日可待。 【相关篇什】 奥巴马赢了昨晚辩论吗?舆情自动检测告诉你 社会媒体舆情自动分析:马英九 vs 陈水扁 舆情自动分析表明,谷歌的社会评价度高出百度一倍 方韩大战的舆情自动分析 【置顶:立委科学网博客NLP博文一览(定期更新版)】 立委名言:技术改变世界,甚至总统......乃至你我。
个人分类: 立委科普|8268 次阅读|5 个评论
研究发现,国人爱说反话:夸奖的背后藏着嘲讽
热度 1 liwei999 2012-9-8 19:45
研究发现,国人爱说反话:夸奖的背后藏着嘲讽
国人爱说反话:夸奖的背后藏着冷笑,社会媒体尤其如此 作者: 立委 (*) 日期: 09/07/2012 15:42:32 大陆政客属于敏感词,这里不表。以台湾政客为例, 譬如说陈水扁是“中国最清廉的总统”,就明显是反话。 It is interesting to find that many positive comments about A Bian are sarcastic. In this test, the positive comments (likes) of Ma Yingjiu seem to be indeed positive. BUT 下面这段文字骂马英九,可是却以赞美的假言。 机器处理起来,很烦人。 define a topic for馬英九, most negatives are correct, but positives and neutrals are bad. Here are some sample sentences: • 馬總統干的好! 明天油價95一次漲3.1元,5月漲電費,那6月就改換漲水費吧~最好是行、衣、住、行全來給他大漲,這樣他的荷包才能賺的飽飽的,趁這四年好好大賺一筆,四年做滿後就能安心的退休去了~ • 不好意思我家連張機票錢都買不起,請問哪個國家接受偷渡過去打工的啊?? 馬總統介紹一下好咩? 還參加救國團? • 喜歡聼好話是人性,不是馬英九特別,問題出在奉承拍馬的人,而這種人會越來越多,官位越來越大,馬英九用人和作風要負責任。 • 廢物 ! 一次漲足又變成漲三次 ? 徵證所稅又變成三前提 ? 馬英九這麼喜歡當小三是怎樣 ? 政策到底搞定了嗎? 沒搞定就到處亂放話, 就是最標準的隨地便溺污染國家, 也是廢物政府的最大特徵 • 馬英九是該好好的從H5N2 美牛瘦肉精 都更案法條到現在的油電雙漲 解釋一番 最好是在就職言說時,公開對全國人民說清楚 • 一點都不覺得王建民救了馬英九一命。 馬英九又沒有任何危險,他一個月後才要開始第二個四年,想到這裡他應該又爽到做起伏地挺身來了。 • 那馬英九選前應該講清楚啊 選後汽油每公升漲30元也ok啊.. 重點是選前都凍漲 選後拼命漲... • 馬英九幹得好 漲吧 反正台灣人就是奴才命啦 沒路用的卡小 才在按回報封鎖別人 • 她馬的愛台灣的馬英九 原來是這樣愛台灣喔 國營企業一直提高薪水 卻在哭夭虧錢 真是的送你一個字 按 • 看到臉書上部份人的留言,真的覺得,嗯,原來真的有人相信馬英九是很有能力,只是有人在扯後腿之類的,喔幹,我好想在他面前大吼「你是哪隻眼睛看到的啊?」 • RT @4F 馬英九說,美牛通過後,國人不想吃,可以不吃,不必買,不會有事。 那麻煩一下,大麻也請來開放進口一下謝謝 • 馬總統用了一些蛋頭學者(博士) 蛋頭=豬頭. 因為沒事找事且弄到天怒人怨,怨聲載道! • 呵,戈巴契夫頭髮最多,海珊最愛和平,賓拉登不愛打仗,陳水扁最清廉,馬英九最有GUTS... • @octw 若說馬英九是有勇氣遠見的改革者,那真是天大的笑話。 1992年一群人台北火車站前靜坐五天,要求總統直選。 當時的總統,憑藉這股力道直接改成總統直選,而當時的法務部長,反對總統直選,要求維持現狀由國大選出。 那屆總統是李登輝,任法務部長是馬英九。 (via @aoi) • 王聖人:要馬英九『對的事』就勇敢做,不管別人罵! 台灣人:認同,『目前馬英九最對的事就是下台』。 马英九和陈水扁在社会媒体上的高频情绪性词的词频分析展示了二者截然不同的 民间形象: more 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 社媒挖掘|6476 次阅读|1 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-6-3 13:19

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部