科学网

 找回密码
  注册
科学网 标签 语言 相关日志

tag 标签: 语言

相关日志

[转载]语言决定论+语言相对论(语言决定思维+语言影响思维)??
carldy 2013-4-9 17:30
个人分类: 语言学探讨 Linguistics|22994 次阅读|0 个评论
基于互联网的多语言交流
gzchengzhi 2013-4-7 08:59
  利用互联网可以进行多种语言的交流。这种多语言交流是面对面的方式难以实现的。原因在于对于一些人士来说,要同时掌握多种语言存在一定的困难。   比如说在中国很多的学生从小学就开始学习英语,令人遗憾的是,到了大学毕业以后,仍然不能够正常使用英语进行面对面的交流。   随着机器翻译技术的发展,现在使用诸如谷歌在线翻译软件之类的工具已经能够大致了解其他语言呈现的网页的内容。这为在网络上进行多语言的交流提供了方便。   当然由于自然语言的复杂性,并不是所有的内容都可以通过这种方式来进行理解的。尤其值得注意的是,利用这种在线翻译的技术,很可能会出现一些关键性的错误,从而导致产生完全相反的理解。   不过就目前的技术来说,利用谷歌翻译进行日常问候类型的信息交流还是可行的。对于一般的网民来说,也可以利用这种机器翻译的功能来浏览一些自己不熟悉语言的网页,可以起到大致了解的作用。记得过去科学网上有博主声称自己的博客被某个不熟悉中文的人士所关注。我估计这些外籍人士借助的就是机器翻译的功能来浏览科学网博主的网页,获知博文的大致意思。   由于机器翻译的准确性的问题,利用这种功能进行非常有效的交流还是比较困难的。故这种功能在网络教学中的应用受到一定的限制。比如至少在目前来看,还不能够完全依赖机器翻译功能实现对不懂中文的学生进行中文课程教学。   然而如果学生懂一点中文,只是中文水平不够好,借助机器翻译,可以有效的地弥补这些学生中文能力的不足,从而满足这些学生通过网络学习中文课程的需求。   另外机器翻译也可以作为一些自然科学,比如数学、物理学等更主要依赖数学方式来进行表达的课程的教学。这也同样适用于音乐、舞蹈等需要通过其他的符号系统来进行表达的学科。对于这些课程来说,可以完全借助于数学或其他符号系统的方式来表达内容,辅助以少量的学科常用语言。最终依靠机器翻译功能,即便在学生完全不懂教师使用语言的基础上,也可以实现有效学习。   当然需要对现有的教学用语进行适当的规范,以适合机器准确翻译的需求。
个人分类: 《远程教育学教程》|3137 次阅读|0 个评论
R语言做"heatmap"
suwenxia 2013-4-4 09:31
用法和参数说明: http://stat.ethz.ch/R-manual/R-patched/library/stats/html/heatmap.html 做热图的几个具体实例: http://www2.warwick.ac.uk/fac/sci/moac/people/students/peter_cock/r/heatmap/ http://flowingdata.com/2010/01/21/how-to-make-a-heatmap-a-quick-and-easy-solution/
13526 次阅读|0 个评论
[转载]一个大脑,两种语言
clhaaa 2013-4-1 10:21
会说两种语言并不是什么稀奇的事情,不同民族的交往总会产生一些土生土长的双语者;而历史上,中国北方游牧民族进入中原,欧洲知识阶层学习拉丁语,俄国彼得大帝改革学习法语,都是一些更主动学习双语的例子。然而二十世纪末可能来了一次双语者人口比例的爆发,学校教育逐步把外语当作必修课。对于我们中国人,有着近二十年持续不断的英语热。外语是“二十一世纪的通行证”,这句话对于不少八零后都耳熟详。而大规模的人口迁徙造就了更多双语者。根据2007年美国社区研究(American Community Survey)的一项报告,美国有20% 的人口在家中说非英语语言,较之1980年,这个数字增长了140% 。 大概也正是这种世界范围内的双语现象爆发,让科学家对于我们如何说两种语言产生了浓厚的兴趣。显而易见,儿童时期就接触两种语言的人,不论是生活在多民族地区,还是父母双方就说不同语言,掌握第二语言似乎自然而然。而对于大多数人就没那么好运了。很多人小学甚至更晚才开始学习外语。他们不仅感到学习很吃力,最后掌握的程度往往也没有那些早期双语者好。外语学习可能存在一个语言学习的关键期,而这种关键期暗示我们,研究双语问题,能帮我们揭示人类认知的很多秘密。 我该教我的孩子说英语吗? “我该教我的孩子说英语吗?”搜索一下,在各种育儿、教育类论坛,这个问题可不少见。当然,要不要学英语这样的问题家长们并不困扰,他们困扰的是要不要教自己还在咿呀学语的孩子说外语。 如今,不仅很多家长已经是双语者,很多人也有条件聘请外语教师,在孩子非常小的时候就给与双语教育。与其说是教育,不如说是创造双语环境。小孩在这种环境中长大,如同那些民族地区的孩子,自然而然地学会了第二语言。 但是等等,正如家长疑惑的,这么早就教会孩子第二外语,真的没有不良影响吗?这种担忧其实早已存在,甚至一开始有些学者干脆怀疑双语儿童不如单语儿童。首先去验证这种怀疑的是加拿大学者:全国大量的英语、法语双语者,促使一些学者担忧,两种语言的学习会阻碍儿童的语言能力,甚至影响到他们其他非语言的认知能力。早在六十年代佩尔和兰伯特(Peal and Lambert)两位学者就在蒙特利尔开展了调查。他们预计,双语儿童不仅在语言上不如单语者,而且各项基本认知任务的得分也会比较差。结果让他们很是惊讶,双语儿童几乎所有测试的成绩都更好。之后几十年后续的研究也发现,双语儿童对于逻辑推理、图形识别等非语言任务都有优势,尤其是注意力等能力表现更好。毫无疑问,儿童时期学习第二语言,不会对孩子各项认知能力有负面的影响。考虑到这时学习双语的优势,不少家长也许可以稍稍放心了。 并非只有益处 这是否是说,学习双语对我们完全有益无害?如果真是这样,那么造成这种现象的原因又是什么?这是两个问题,答案却紧密相关。但让我们稍等一下,先来看看双语者可能遇到的问题。研究发现,双语者语言能力确实有所降低。这种降低表现在多个方面:词汇量、语言流畅性、口语产生等。 测试中,双语者的两种语言的词汇量更小,可能因为他们要学习两套完全不同的词表;他们说话会稍许不流畅;而看图命名实验,就是出示一个图片时说出图上物品的名称,双语者的错误率和速度也稍稍差一些。更有意思的是,这种变化和我们的语言环境也是相关的,林克等人(Linck, Kroll, and Sunderman)在2009年发现,英语、西班牙语双语者尽管主要说英语,在西班牙语环境中生活一年后,英语流畅程度显著降低;而回到英语环境后,流程程度又回升到原来的水平了。对这种现象,兰斯代尔和菲舍勒(Ransdell Fischler)认为,两种语言,尤其是第二语言对于双语者毕竟使用频率更低,所以表现就差了。但是科斯塔等学者(Costa et al.)则认为这是因为两种语言互相干扰所致,切换语言需要努力,哪怕这种努力是无意识的。2007年,英国学者希雷(Thierry)和来自中国的学者吴彦京(音)通过研究在英国的中国留学生,发现即便是使用英语时,只要相应的英语单词对应的中文存在读音相近,就存在干扰。也就是说,一个双语者即便使用第二语言,他的第一语言并不是“关闭”了,而可能以其他方式影响第二语言的加工。这些研究为揭示双语的秘密提供了窗口。 切换代价 图片来自:tagiji2 既然会存在两种语言的互相干扰,那么两种语言在大脑中是什么状态呢?核磁共振成像技术为揭示大脑如何处理语言问题提供了方法。其实早在上世纪九十年代,学者就发现对于双语者,不管处理哪一种语言,大脑中活动的区域是非常相似的。两种语言共享着相同的语言区域,却在一个时间只需要处理一种语言,这种矛盾造成了新的问题。学者们提出了抑制控制模型等理论,解释我们的大脑如何产生目标语言,而抑制产生非目标语言。另一些学者则解释,我们的大脑是在两种语言中进行选择。不论这些假说哪个更接近真实,都意味着双语者的语言过程可能多了一些步骤。 这些步骤是需要代价的。相对于单语者,双语者在语言方面的劣势很可能就来自于这种抑制。近年来,对于双语者如何抑制非目标语言的研究出现了很多。研究这种机制不仅可能帮助学习第二语言,还有可能揭示一些新的问题。格林、阿布塔来比(Abutalebi)等学者通过脑成像的方法,发现了一系列与之相关的脑区:他们发现前额叶皮层、前部扣带回、顶下小叶和基底神经节都和在进行语言切换任务时激活。而且,这些脑区本来就是我们处理各种执行功能任务(注意、选择、抑制干扰等)时需要动用的脑区。在两种语言中切换,就如同在做那些需要注意集中,抑制干扰的工作一样。而很可能因为这种切换需要付出代价,让双语者在语言任务中表现比单语者要差一些。 意外的馈赠 可是,双语者不是在各项认知测试里成就都更好吗?如前所述,学习双语的好处和坏处,都来自于大脑处理双语的机制。在两种语言之间切换让双语者出现一些语言上的劣势(尽管小到需要专业测试才能显示出差异),却让双语者获得了意外的馈赠。比阿莱思托(Bialystok)等学者追踪了几十年,从儿童到老年人,从一出生就在双语环境,到成年后才学习第二语言,各种双语者的状况。他们发现和大家一致,双语者的语言能力确实被削弱了。但是正式因为长期双语经验对这些执行功能脑区的塑造,双语者的执行功能却增强了。 不管是抑制干扰,还是同时处理两件事情,种种需要注意力等执行功能的认知任务中,双语者表现都更好。而且,执行功能更好意味着更集中,更高效,构成了我们认知能力的很大一部分。双语者的这种优势,让他们在语言之外也更容易脱颖而出。 不仅如此,比阿莱思托的一系列研究引起了很多媒体的报道。早在2004年,她的研究团队就发现,对于双语者来说,老龄化造成的认知能力减退比单语者轻,平时经常使用两种语言的老年人,在Simon任务重表现更好。而2007年他们统计了老年人中痴呆综合征的病例,2011年统计了很多阿兹海默氏综合征的病例。结果发现,双语老年人对于这些严重的退行性种疾病有着更好的抵抗能力。在400余个阿兹海默氏综合征病人中,双语者患病的时间拖后了5 到6 年。对于这些痛苦的疾病,双语者的这种优势足以引发大家的重视了。 也许有家长还要继续追问,双语有哪些好处?自然,显而易见的好处是更好的社会适应能力,甚至“国际视野”。而心理学和神经科学的研究向我们揭示,双语者掌握两种语言并非没有代价。但这种代价却是值得的——更好的认知能力,甚至对退行性疾病的抵抗力。也许你已经成年,但是学习新东西,永远都不太晚。我们不妨把这些能力提升之类的事情先放一放,一门语言,同时也是一扇通向其他文化的门。多一扇门,何乐而不为? Tip: Simon任务: 屏幕的左右两侧出现色块,要求被示根据色块的颜色按键,例如黄色按左键,蓝色按右键。但有时色块出现在被示的同侧手,如黄色按左键,色块出现在屏幕左方;有时却是异侧手,如按左键,却出现在右方。当出现在异侧时,方向会对被示造成干扰,让他的准确率下降,反应速度降低。通过统计准确率和反应速度,就可以发现实验者抑制干扰,注意集中的能力。 发表于2013年2月新发现杂志
1534 次阅读|0 个评论
用R语言作图
suwenxia 2013-3-29 17:19
R语言作图的几个实例: http://www.harding.edu/fmccown/R/#autosdatafile R语言学习的一个网站(Quick-R): http://www.statmethods.net/index.html
7215 次阅读|0 个评论
乔姆斯基的一个语言游戏
热度 2 老李 2013-3-26 17:43
这两日一直在缓慢地修改一篇关于语言的小文章,突然想到美国语言学家与认知科学家乔姆斯基(NoamChomsky,1928—)曾说过的一个语言游戏: Colorlessgreenideassleepfuriously( 可以粗略翻译为:苍白的绿色观念热烈地睡觉)。这句话之所以有意思,是因为它完全符合句法结构,但却是没有意义的。做文学青年的那会曾把崔健老哥的一首歌改为:红旗下的蛋是咸的。不知是否有异曲同工之妙?学习语言哲学的人总想知道:意义在哪里丢失的呢?如果完美的形式不能保证意义的存在,那么意义又是怎样产生的呢?意义与思想是什么关系呢?思想可以不依赖于语言,这是我十年来一直坚信的东西,这些年也积累了一些资料,以后找时间写一篇这样的文章。最后说一点八卦:据说乔姆斯基是在世的学者中被引用最高的一位学者,在前十名中,排名那是相当地靠前。老乔一生都在MIT工作。所以工科大学也是可以做出好的哲学工作的。 2013-3-26傍晚于南方临屏涂鸦 说明:文中图片来自网络,没有任何商业目的,仅供欣赏,特此致谢!
4162 次阅读|6 个评论
[转载]FORTRAN语言
chnfirst 2013-3-25 12:58
http://bbs.sciencenet.cn/thread-531624-1-1.html 学习fortran语言用什么书好? 彭国伦 关于本书的一篇书评: http://blog.sciencenet.cn/home.php?mod=spaceuid=71139do=blogid=233728 《Fortran 95 程序设计》彭国伦 已有 4064 次阅读2009-5-23 17:18|个人分类: 好书分享 |系统分类: 科研笔记 学习使用Fortran近10年以来,自认为是已经拥有并阅读了国内的大多数关于Fortran的书籍,回头看看猛然发现自己居然是在跌跌撞撞的摸爬滚打中走过,非常想借此平台分享一些读书心得。并且希望能抛砖引玉,有更多的朋友能来推荐更好的书籍。 首先无论作为一个初次接触Fortran 语言的新手还是一个经验丰富的老程序员,中国台湾的彭国伦先生所著的《Fortran 95 程序设计》一书都可以作为一本指南或者工具书。本书详细的从计算机和计算技术出发,介绍了Fortran语言的发展过程;中规中矩的介绍了Fortran 90/95标准下Fortran程序的编写方法。本书尤其值得一提的是,在每个知识点中都附有详细的程序实例,并且有非常详细的算法分析,相信在阅读完本书之后,编程思路和编程技巧都有非常大的提升。 本书还关注了一个大多数书籍都没有关注的问题:编译器和编译、调试环境的使用,尤其是在多模块大规模程序的调试方面非常详细 。 事实上本书,这本书还详细讨论了fortran95的一些高级编写和编译技巧,全面介绍了Fortran语言面向对象编程的基本思路,并且对计算机绘图、数值方法、数据结构和算法等内容都进行比较深入的探讨。通过阅读本书,新手完全可以在本书的指导下完成基本的程序设计工作,而对于经常使用Fortran语言工作的学友也有非常重要的参考价值。 综上,该书的确是值得一读的一本好书,建议学习和使用Fortran语言的朋友购置一本为宜,实在是参考阅读,深入学习, 休闲娱乐,杀人越货 必备佳品。(越写越象广告。。) 该书原版定价59.0元。近期,笔者发现该书在 当当网 打75折销售,售价仅为44.1,能节省14.9。有了网络之后购买这些非常偏的专业书也不是什么难事,建议大家从当当购买。(另外: 记得索要发票,以便于报销或者督促当当及时纳税 ):) 该书在当当网的地址为: http://product.dangdang.com/product.aspx?product_id=679310 http://ty.cquc.edu.cn/show.aspx?id=301cid=17 FORTRAN语言简介 来源: 作者: 麟子 FORTRAN 运算程序语言 FORTRAN ( Formula Translation System ) FORTRAN 可谓目前计算机运算中的程序语言之父,它是第一个能将数学公式转换成计算机程序的语言。在 1957 年 IBM 成功地将其商业化后, FORTRAN 正式展开协助无数工程应用软件的开发工作。 FORTRAN 擅长于数学函数运算,主要应用于数值分析、系统仿真及自动控制等领域。程序内容架构包含变量定义、函数、副程序、主程序等部分。 由于 FORTRAN 的出现,使得工程师与科学家首次能以较自然的语言写程序,因此在工程用软件设计的程序导向语言领域具有举足轻重的地位。 FORTRAN是世界上最早出现的高级编程语言,是工程界最常用的编程语言,它在科学计算中(如航空航天、地质勘探、天气预报和建筑工程等领域)发挥着极其重要的作用。经过40多年的发展,伴随着FORTRAN语言多次版本的更新及相应开发系统的出现,其功能不断完善,最新版本的开发系统几乎具备了VC、VB的所有特点,如图形界面编程、数据库等。目前,工科院校开设的计算机编程语言课首选仍然是FORTRAN。 我校土建相关专业基本都涉及这个语言的学习。 http://baike.baidu.com/view/36402.htm FORTRAN,亦译为福传,是英文“FORmula TRANslator”的缩写,译为“ 公式翻译器 ”,它是世界上最早出现的 计算机 高级 程序设计语言 ,广泛应用于科学和 工程计算 领域。 FORTRAN语言 以其特有的功能在数值、科学和 工程计算 领域发挥着重要作用。 特性 Fortran语言的最大特性是接近数学公式的自然描述,在 计算机 里具有很高的执行效率。 易学,语法严谨。 可以直接对 矩阵 和复数进行运算,这一点类似matlab。 自诞生以来广泛地应用于 数值计算 领域,积累了大量高效而可靠的源程序。 很多专用的大型数值运算 计算机 针对Fortran做了优化。 广泛地应用于并行计算和高性能计算领域。 Fortran90,Fortran95,Fortran2003的相继推出使Fortran语言具备了现代高级 编程语言 的一些特性。 简单程序 下面是一个在标准输出设备上使用Fortran90输出Hello World的简单程序,这种程序通常作为开始学习编程语言时的第一个程序: program main print *,'hello world' end 将来 Fortran语言是一种极具发展潜力的语言,在全球范围内流行过程中,Fortran语言的标准化不断吸收现代化编程语言的新特性,并且在 工程计算 领域仍然占有重要地位。 不可否认,Fortran语言与目前流行的JAVA,C#等 高级语言 相比,它缺乏创造力。但是,工科学生必须注意到,由于Fortran在 工程计算 领域长期处于统治地位,很多优秀的工程计算 软件 都是运用 fortran语言 编写,例如ANSYS,Marc,为了能够使用这些 商业软件 的高级功能,必须先学会fortran语言,才能编写 应用程序接口 。 在数值计算中,Fortran语言仍然不可替代。Fortran90标准引入了 数组 计算等非常利于矩阵运算的功能。在 数组 运算时,Fortran能够自动进行并行运算,这是很多编程语言不具备的。运用 fortran语言 ,你能够运用很多现成的函数 软件包 ,所以非常便利。(目前流行的Matlab的早期版本,主要就是为两个著名的Fortran函数包提供 程序接口 ) http://emuch.net/html/201005/2033094.html 【讨论】Fortran语言和MATLAB在矩阵计算方面的比较 作者: kuangrenabc (站内联系TA) 收录: 2010-05-18 发布: 2010-05-08 MATLAB很擅长MATLAB矩阵计算 FORTRAN又以数值计算速度快著称,而且FORTRAN也有很多矩阵计算的函数。 那么两者语言的计算效率有什么差异呢? FORTRAN有没可能达到接近MATLAB的计算效率?如果可以,请给种方法? yalefield (站内联系TA) Fortran是战斗机 MatLab是运输机 xiaojun376 (站内联系TA) FORTRAN是高级语言,执行效率高,MATLAB是C语言编的,效率上稍逊 tjyl (站内联系TA) 说的简单点,Matlab就是把很多非常好的Fortran和C的函数库自己封装了一下,运行在自己的解释器里面。 这个和Perl之类的脚本语言一样,文本处理非常强悍,不过其实是用C写的。你要按照它实现的方法那样去写也能那么快的。 我觉得Matlab的价值在于给你提供了更多现成的东西,方便使用吧。 Originally posted by kuangrenabc at 2010-05-08 2243: MATLAB很擅长MATLAB矩阵计算 FORTRAN又以数值计算速度快著称,而且FORTRAN也有很多矩阵计算的函数。 那么两者语言的计算效率有什么差异呢? FORTRAN有没可能达到接近MATLAB的计算效率?如果可以,请给种方法? sxlion811 (站内联系TA) Matlab初期是用fortran写的,毕竟fortran是彪悍的计算语言。 后来Matlab才用C编写,毕竟Fortran总是需要麻烦的编程,matlab将很多函数库封装被用户当傻瓜相机用。 纯计算速度的话,我想Fortran肯定比matlab快(fortran优化的情况下),当时编程也很耗时的,所以根据楼主需要了,如果关注高速的计算的话,就用fortran,付出的代价是需要大量的时间编程调试。 matlab的话,编程照help就可以了,相当快上手,速度一般是固定的(有可能是有限个多选项)。 还有一点的话,对于matlab里面没有收集到的算法函数,有人可能已经给出了现成的fortran程序。 把Fortran学好的话,计算效率应该高于matlab的。 liyi3344520 (站内联系TA) 学习目的是:矩阵理论,选用matlab!!! 学习目的是:计算速度,做程序,选用Fortran!!! freqent (站内联系TA) 效率肯定是 fortran 快,但是考虑到matlab的强势发展和 巨大的学习书籍, 所以还是有很多人学matlab 的, 都学也可以啊
个人分类: 电脑、办公|9 次阅读|0 个评论
【研发笔记:没有语言结构可以解析语义么?浅论 LSA】
liwei999 2013-3-24 15:10
what are your views on Latent Semantic Analysis (LSA)? LSA is a cool machine learning technique based on lexical evidence of co-occurrence in order to decode the underlying semantic categories (clustering or classification) of the given text (Deerwester et al. 1990). Typically, the first step of LSA is to construct word-vs.-document co-occurrence matrix. Then singular value decomposition (SVD) is performed on this co-occurring matrix. The key idea of LSA is to reduce noise or insignificant association patterns by filtering the insignificant components uncovered by SVD. Given that there is no parsing, no structures, hence no understanding involved in LSA, it is amazingly successful in some areas which are supposed to require Natural Language Understanding (NLU) or Artificial Intelligence (AI). For example, it is a dominant approach in the area of automatic grading of high school reading comprehension tests, at least it was dominant 8 years ago when I was collaborating with education researchers in proposing a new parsing based approach to this task to compete with the popular LSA approach. The reason for its (partial) success in uncovering some natural language semantics lies in the fact that sentences have two sides: structures (trees) and words (nodes). Putting structures aside, the words used in a natural language document (discourse) are not random collection, they have inherent lexical coherence holding them together to make sense. In addition. the lexical coherence evidence and the structural evidence are often overlapping in terms of reflecting underlying semantics to certain extent. Therefore, for some coarse-grained semantic tasks, there is a possibility of maximizing the use of the lexical side of evidence to do the job, ignoring the structure part of language. But there is a fundamental defect in LSA that limits how far it can go in decoding semantics, due to the lack of structures. In my past research, we have used LSA in our Word Sense Disambiguation (WSD) research project, as an auxiliary method to help perform synonym expansion in order to generalize our parsing evidence from literal node to cluster node. It seems to be effective to certain extent, but cannot be claimed better than using synonym lexicon encoded by linguists if we had human resources. It does have the benefit of automatically clustering synonyms based on the data, hence automatically adapting to the domain we are interested in. The weakness of LSA is the same as most other so-called bag of words (BOW) learning approaches based on keyword density or co-occurrence. Since LSA does not involve structures or understanding, it is at best an approximation to the effect of parsing-based (or understanding-based) approaches for almost all the tasks involving natural language text. In other words, the quality in theory (and in practice as well, as long as the parser is not built by inexperienced linguists) can hardly beat a parsing-based rule system. Another weakness of LSA is that it is much more difficult to debug a learned system for a given error or error type in results. Either you tolerate it all or you re-train LSA with new or expanded data, in which case there is no guarantee that the bulk results will get that error corrected. In a rule based system of multiple levels, it is much easier to localize the error source and fix it. My own experience with using LSA for synonyms clustering is that when I examine the results, I sort of feel that it seems to make sense, but there are numerous cases which are beyond comprehension: it was difficult to determine whether that incomprehensible part of the results is due to the noise of imperfect data and/or bugs in the algorithm, hence difficult in coming up with effective corrective methods. When we talk about rule-based semantic approach, we do not mean that the approach only relies on parsing structure in decoding semantics. When we do semantics, whether extracting sentiments, or factual events, we always bring lexical evidence and structural evidence together in accomplishing the task. For example, in order to extract the emotional sentiment of an agent expressed towards an object or brand, our sentiment rule will involve trigger words like love/like/favor/prefer and then check its logical/grammatical subject and object of certain lexical type (e.g. human type versus non-human type) to ensure we decode the semantics of the underlying text precisely. As you see, the rule approach thus used has the advantage of having two types of evidence support than LSA that has only one type of evidence. This is a fundamental difference when we compare rules with BOW class of techniques, no matter what new approaches or techniques are hot in the community. Admittedly, BOW learning in general and LSA in particular do have the benefit of being robust in handling noisy data and it can also be quickly built up once data are available. The automatic adaptation to a domain based on the training data is also a strength as it narrows down the semantic space to start with. The approximation in treating language as a black box rather than analyzing language as a de-composable hierarchy of structures is sometimes good enough in certain use cases of semantics. LSA is often cited as an alternative to grammar approach partially because it got a good, eye-catching name, I guess. It suddenly shortens the distance between sentence meaning and the building blocks words, without the trouble of having to use structures as a bridge. (But language is structured! As true as the earth is revolving.) 【相关篇什】 【科普笔记:没有语言结构可以解析语义么?(之二)】 泥沙龙笔记:儿童语言没有文法的问题 2015-07-01 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 立委科普|5676 次阅读|0 个评论
[转载]R and Analysis of Variance ( Mixed design)
ljxue 2013-3-22 21:40
http://personality-project.org/r/r.anova.html Mixed (between and Within) designs Now it's time to get serious. Appendix V contains the data of an experiment with 18 subjects, 9 males and 9 females. Each subject is given one of three possible dosages of a drug. All subjects are then tested on recall of three types of words (positive, negative and neutral) using two types of memory tasks (cued and free recall). There are thus 2 between-subjects variables: Gender (2 levels) and Dosage (3 levels); and 2 within-subjects variables: Task (2 levels) and Valence (3 levels). Get the data from the file and run the following analysis: aov.ex5 _ aov(Recall~(Task*Valence*Gender*Dosage)+Error(Subject/(Task*Valence))+(Gender*Dosage),ex5) Notice that you must segregate between- and within-subjects variables in your command. In the above example, I have put the within-subjects factors first with the within-subjects error term, followed by the between-subjects factors. datafilename=http://personality-project.org/r/datasets/R.appendix5.data data.ex5=read.table(datafilename,header=T) #read the data into a table data.ex5 #show the data aov.ex5 = aov(Recall~(Task*Valence*Gender*Dosage)+Error(Subject/(Task*Valence))+(Gender*Dosage),data.ex5 ) summary(aov.ex5) print(model.tables(aov.ex5,means),digits=3) #report the means and the number of subjects/cell boxplot(Recall~Task*Valence*Gender*Dosage,data=data.ex5) #graphical summary of means of the 36 cells boxplot(Recall~Task*Valence*Dosage,data=data.ex5) #graphical summary of means of 18 cells Should result in the following (extensive) output: datafilename=http://personality-project.org/r/datasets/R.appendix5.data data.example5=read.table(datafilename,header=T) #read the data into a table data.example5 #show the data Obs Subject Gender Dosage Task Valence Recall 1 1 A M A F Neg 8 2 2 A M A F Neu 9 3 3 A M A F Pos 5 4 4 A M A C Neg 7 5 5 A M A C Neu 9 6 6 A M A C Pos 10 7 7 B M A F Neg 12 8 8 B M A F Neu 13 9 9 B M A F Pos 14 10 10 B M A C Neg 16 ... SNIP .... 100 100 Q F C C Neg 17 101 101 Q F C C Neu 19 102 102 Q F C C Pos 19 103 103 R F C F Neg 19 104 104 R F C F Neu 17 105 105 R F C F Pos 19 106 106 R F C C Neg 22 107 107 R F C C Neu 21 108 108 R F C C Pos 20 aov.ex5=aov.ex5 = aov(Recall~(Task*Valence*Gender*Dosage)+Error(Subject/(Task*Valence))+(Gender*Dosage),data.example5 ) summary(aov.ex5) Error: Subject Df Sum Sq Mean Sq F value Pr(F) Gender 1 542.26 542.26 5.6853 0.03449 * Dosage 2 694.91 347.45 3.6429 0.05803 . Gender:Dosage 2 70.80 35.40 0.3711 0.69760 Residuals 12 1144.56 95.38 --- Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1 Error: Subject:Task Df Sum Sq Mean Sq F value Pr(F) Task 1 96.333 96.333 39.8621 3.868e-05 *** Task:Gender 1 1.333 1.333 0.5517 0.4719 Task:Dosage 2 8.167 4.083 1.6897 0.2257 Task:Gender:Dosage 2 3.167 1.583 0.6552 0.5370 Residuals 12 29.000 2.417 --- Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1 Error: Subject:Valence Df Sum Sq Mean Sq F value Pr(F) Valence 2 14.685 7.343 2.9981 0.06882 . Valence:Gender 2 3.907 1.954 0.7977 0.46193 Valence:Dosage 4 20.259 5.065 2.0681 0.11663 Valence:Gender:Dosage 4 1.037 0.259 0.1059 0.97935 Residuals 24 58.778 2.449 --- Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1 Error: Subject:Task:Valence Df Sum Sq Mean Sq F value Pr(F) Task:Valence 2 5.389 2.694 1.3197 0.2859 Task:Valence:Gender 2 2.167 1.083 0.5306 0.5950 Task:Valence:Dosage 4 2.778 0.694 0.3401 0.8482 Task:Valence:Gender:Dosage 4 2.667 0.667 0.3265 0.8574 Residuals 24 49.000 2.042 print(model.tables(aov.ex5,means),digits=3) #report the means and the number of subjects/cell Tables of means Grand mean 15.62963 Task C F 16.6 14.7 rep 54.0 54.0 Valence Neg Neu Pos 15.3 15.5 16.1 rep 36.0 36.0 36.0 Gender F M 17.9 13.4 rep 54.0 54.0 Dosage A B C 14.2 13.5 19.2 rep 36.0 36.0 36.0 Task:Valence Valence Task Neg Neu Pos C 16.00 16.72 17.00 rep 18.00 18.00 18.00 F 14.56 14.22 15.28 rep 18.00 18.00 18.00 Task:Gender Gender Task F M C 18.93 14.22 rep 27.00 27.00 F 16.81 12.56 rep 27.00 27.00 Valence:Gender Gender Valence F M Neg 17.67 12.89 rep 18.00 18.00 Neu 17.44 13.50 rep 18.00 18.00 Pos 18.50 13.78 rep 18.00 18.00 ... snip .... , , Gender = M, Dosage = B Valence Task Neg Neu Pos C 10.00 11.67 12.33 rep 3.00 3.00 3.00 F 8.33 8.67 11.00 rep 3.00 3.00 3.00 , , Gender = F, Dosage = C Valence Task Neg Neu Pos C 20.67 21.67 21.33 rep 3.00 3.00 3.00 F 19.67 18.67 20.33 rep 3.00 3.00 3.00 , , Gender = M, Dosage = C Valence Task Neg Neu Pos C 18.00 19.00 19.00 rep 3.00 3.00 3.00 F 17.33 17.33 17.33 rep 3.00 3.00 3.00
2090 次阅读|0 个评论
[转载]R and Analysis of Variance ( within subjects)
ljxue 2013-3-22 21:38
http://personality-project.org/r/r.anova.html (Repeated measures ANOVA) One way ANOVA - within subjects Example 3. One-Way Within-Subjects ANOVA Five subjects are asked to memorize a list of words. The words on this list are of three types: positive words, negative words and neutral words. Their recall data by word type is displayed in Appendix III. Note that there is a single factor (Valence ) with three levels (negative, neutral and positive). In addition, there is also a random factor Subject . Create a data file ex3 that contains this data. Again it is important that each observation appears on an individual line! Note that this is not the standard way of thinking about data. Example 6 will show how to transform data from the standard data table into this form. #Run the analysis: datafilename=http://personality-project.org/r/datasets/R.appendix3.data data.ex3=read.table(datafilename,header=T) #read the data into a table data.ex3 #show the data aov.ex3 = aov(Recall~Valence+Error(Subject/Valence),data.ex3) summary(aov.ex3) print(model.tables(aov.ex3,means),digits=3) #report the means and the number of subjects/cell boxplot(Recall~Valence,data=data.ex3) #graphical output Because Valence is crossed with the random factor Subject (i.e., every subject sees all three types of words), you must specify the error term for Valence , which in this case is Subject by Valence . Do this by adding the termError(Subject/Valence) to the factor Valence , as shown above. The output will look like: datafilename=http://personality-project.org/r/datasets/R.appendix3.data data.ex3=read.table(datafilename,header=T) #read the data into a table data.ex3 #show the data Observation Subject Valence Recall 1 1 Jim Neg 32 2 2 Jim Neu 15 3 3 Jim Pos 45 4 4 Victor Neg 30 5 5 Victor Neu 13 6 6 Victor Pos 40 7 7 Faye Neg 26 8 8 Faye Neu 12 9 9 Faye Pos 42 10 10 Ron Neg 22 11 11 Ron Neu 10 12 12 Ron Pos 38 13 13 Jason Neg 29 14 14 Jason Neu 8 15 15 Jason Pos 35 aov.ex3 = aov(Recall~Valence+Error(Subject/Valence),data.ex3) summary(aov.ex3) Error: Subject Df Sum Sq Mean Sq F value Pr(F) Residuals 4 105.067 26.267 Error: Subject:Valence Df Sum Sq Mean Sq F value Pr(F) Valence 2 2029.73 1014.87 189.11 1.841e-07 *** Residuals 8 42.93 5.37 --- Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1 print(model.tables(aov.ex3,means),digits=3) #report the means and the number of subjects/cell Tables of means Grand mean 26.46667 Valence Valence Neg Neu Pos 27.8 11.6 40.0 The analysis of between-subjects factors will appear first (there are none in this case), followed by the within-subjects factors. Note that the p value for Valence is displayed in exponential notation; this occurs when the p value is extremely low, as it is in this case (approximately .00000018). Two-way Within Subjects ANOVA Example 4. Two-Way Within-Subjects ANOVA Appendix IV contains the data from an experiment where five subjects were tested on their recall of words of differing valences. There were two different memory tasks: free or cued recall. Thus, there were 2 independent factors: Valence (3 levels) and Task (2 levels). Again, Subject serves as a random factor. Enter the data into a file entitled ex4 and run the following analysis: In this example, Subject is crossed with both Task and Valence , so you must specify three different error terms: one forTask , one for Valence and one for the interaction between the two. Fortunately, R is smart enough to divide up the within-subjects error term properly as long as you specify it in your command. The commands are: datafilename=http://personality-project.org/r/datasets/R.appendix4.data data.ex4=read.table(datafilename,header=T) #read the data into a table data.ex4 #show the data aov.ex4=aov(Recall~(Task*Valence)+Error(Subject/(Task*Valence)),data.ex4 ) summary(aov.ex4) print(model.tables(aov.ex4,means),digits=3) #report the means and the number of subjects/cell boxplot(Recall~Task*Valence,data=data.ex4) #graphical summary of means of the 6 cells results in the following output datafilename=http://personality-project.org/r/datasets/R.appendix4.data data.example4=read.table(datafilename,header=T) #read the data into a table data.example4 #show the data Observation Subject Task Valence Recall 1 1 Jim Free Neg 8 2 2 Jim Free Neu 9 3 3 Jim Free Pos 5 4 4 Jim Cued Neg 7 5 5 Jim Cued Neu 9 6 6 Jim Cued Pos 10 7 7 Victor Free Neg 12 8 8 Victor Free Neu 13 9 9 Victor Free Pos 14 10 10 Victor Cued Neg 16 11 11 Victor Cued Neu 13 12 12 Victor Cued Pos 14 13 13 Faye Free Neg 13 14 14 Faye Free Neu 13 15 15 Faye Free Pos 12 16 16 Faye Cued Neg 15 17 17 Faye Cued Neu 16 18 18 Faye Cued Pos 14 19 19 Ron Free Neg 12 20 20 Ron Free Neu 14 21 21 Ron Free Pos 15 22 22 Ron Cued Neg 17 23 23 Ron Cued Neu 18 24 24 Ron Cued Pos 20 25 25 Jason Free Neg 6 26 26 Jason Free Neu 7 27 27 Jason Free Pos 9 28 28 Jason Cued Neg 4 29 29 Jason Cued Neu 9 30 30 Jason Cued Pos 10 aov.ex4=aov(Recall~(Task*Valence)+Error(Subject/(Task*Valence)),data.example4 ) summary(aov.ex4) Error: Subject Df Sum Sq Mean Sq F value Pr(F) Residuals 4 349.13 87.28 Error: Subject:Task Df Sum Sq Mean Sq F value Pr(F) Task 1 30.0000 30.0000 7.3469 0.05351 . Residuals 4 16.3333 4.0833 --- Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1 Error: Subject:Valence Df Sum Sq Mean Sq F value Pr(F) Valence 2 9.8000 4.9000 1.4591 0.2883 Residuals 8 26.8667 3.3583 Error: Subject:Task:Valence Df Sum Sq Mean Sq F value Pr(F) Task:Valence 2 1.4000 0.7000 0.2907 0.7553 Residuals 8 19.2667 2.4083 print(model.tables(aov.ex4,means),digits=3) #report the means and the number of subjects/cell Tables of means Grand mean 11.8 Task Cued Free 12.8 10.8 rep 15.0 15.0 Valence Neg Neu Pos 11 12.1 12.3 rep 10 10.0 10.0 Task:Valence Valence Task Neg Neu Pos Cued 11.8 13.0 13.6 rep 5.0 5.0 5.0 Free 10.2 11.2 11.0 rep 5.0 5.0 5.0 ------------------------------------------------------------- # Note 这里用的模型是: aov.ex4=aov(Recall~(Task*Valence)+Error(Subject/(Task*Valence)),data.example4 ) 而上篇博文中用的是: aov.out = aov(SSS ~ diet * test + Error(subject/test), data=hill) http://blog.sciencenet.cn/home.php?mod=spaceuid=285393do=blogid=672361 区别在与第一个模型中,两个变量都基于重复测量。即每个个体都经历过各种组合的处理。 而第二个模型中,一部分个体经过diet中的 chicken ,而另一部分个体经过diet中的 chicken 的 pasta , 所以diet不是within变量。
2484 次阅读|0 个评论
[转载]R and Analysis of Variance (One-way and Two-way)
ljxue 2013-3-22 21:34
R and Analysis of Variance A special case of the linear model is the situation where the predictor variables are categorical. In psychological research this usually reflects experimental design where the independent variables are multiple levels of some experimental manipulation (e.g., drug administration, recall instructions, etc.) The first 5 examples are adapted from the guide to S+ developed by TAs for Roger Ratcliff. For more detail on data entry consult that guide. The last three examples discuss how to reorganize the data from a standard data frame into one appropriate for within subject analyses. For this discussion, I assume that appropriate data files have been created in a text editor and saved in a subjects x variables table. One Way Analysis of Variance Example 1: Three levels of drug were administered to 18 subjects. Do descriptive statistics on the groups, and then do a one way analysis of variance. The ANOVA command is aov: aov.ex1= aov(Alertness~Dosage,data=ex1) It is important to note the order of the arguments. The first argument is always the dependent variable (Alertness ). It is followed by the tilde symbol (~) and the independent variable(s). The final argument for aov is the name of the data structure that is being analyzed. aov.ex1 is the name of the structure you want the analysis to store. This general format will hold true for all ANOVAs you will conduct. The results of the ANOVA can be seen with the summary command: #tell where the data come from datafilename=http://personality-project.org/R/datasets/R.appendix1.data data.ex1=read.table(datafilename,header=T) #read the data into a table aov.ex1 = aov(Alertness~Dosage,data=data.ex1) #do the analysis of variance summary(aov.ex1) #show the summary table print(model.tables(aov.ex1,means),digits=3) #report the means and the number of subjects/cell boxplot(Alertness~Dosage,data=data.ex1) #graphical summary produces this output datafilename=http://personality-project.org/r/datasets/R.appendix1.data data.ex1=read.table(datafilename,header=T) #read the data into a table aov.ex1 = aov(Alertness~Dosage,data=data.ex1) #do the analysis of variance summary(aov.ex1) #show the summary table Df Sum Sq Mean Sq F value Pr(F) Dosage 2 426.25 213.12 8.7887 0.002977 ** Residuals 15 363.75 24.25 --- Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1 print(model.tables(aov.ex1,means),digits=3) #report the means and the number of subjects/cell Tables of means Grand mean 27.66667 Dosage a b c 32.5 28.2 19.2 rep 6.0 8.0 4.0 Two way - between subject analysis of variance Data are from an experiment in which alertness level of male and female subjects was measured after they had been given one of two possible dosages of a drug. Thus, this is a 2X2 design with the factors being Gender and Dosage. Read the data file containing this data. Notice that there are two independent variables in this example, separated by an asterisk *. The asterisk indicates to R that the interaction between the two factors is interesting and should be analyzed. If interactions are not important, replace the asterisk with a plus sign (+). Run the analysis: datafilename=http://personality-project.org/r/datasets/R.appendix2.data data.ex2=read.table(datafilename,header=T) #read the data into a table data.ex2 #show the data aov.ex2 = aov(Alertness~Gender*Dosage,data=data.ex2) #do the analysis of variance summary(aov.ex2) #show the summary table print(model.tables(aov.ex2,means),digits=3) #report the means and the number of subjects/cell boxplot(Alertness~Dosage*Gender,data=data.ex2) #graphical summary of means of the 4 cells The output should look like the following: datafilename=http://personality-project.org/r/datasets/R.appendix2.data data.example2=read.table(datafilename,header=T) #read the data into a table data.example2 #show the data Observation Gender Dosage Alertness 1 1 m a 8 2 2 m a 12 3 3 m a 13 4 4 m a 12 5 5 m b 6 6 6 m b 7 7 7 m b 23 8 8 m b 14 9 9 f a 15 10 10 f a 12 11 11 f a 22 12 12 f a 14 13 13 f b 15 14 14 f b 12 15 15 f b 18 16 16 f b 22 aov.ex2 = aov(Alertness~Gender*Dosage,data=data.example2) #do the analysis of variance summary(aov.ex2) #show the summary table Df Sum Sq Mean Sq F value Pr(F) Gender 1 76.562 76.562 2.9518 0.1115 Dosage 1 5.062 5.062 0.1952 0.6665 Gender:Dosage 1 0.063 0.063 0.0024 0.9617 Residuals 12 311.250 25.938 print(model.tables(aov.ex2,means),digits=3) #report the means and the number of subjects/cell Tables of means Grand mean 14.0625 Gender f m 16.2 11.9 rep 8.0 8.0 Dosage a b 13.5 14.6 rep 8.0 8.0 Gender:Dosage Dosage Gender a b f 15.75 16.75 rep 4.00 4.00 m 11.25 12.50 rep 4.00 4.00 The generalization to n way ANOVA is straightforward.
2758 次阅读|0 个评论
语言可以提升人的知识素养和自身修养。
胡业生 2013-3-21 19:49
语言是基础和原点。
个人分类: 技术哲学|2349 次阅读|0 个评论
[转载]主流语言C++入门并不难
chnfirst 2013-3-21 19:17
http://www.csdn.net/article/2012-12-17/2812914 专访李民录:主流语言C++入门并不难 发表于 2012-12-1713:01 | 52751次阅读 |来源 CSDN | 196 条评论 |作者 张祺 GDAL C++ 社区之星 摘要: 社区之星第7期采访的嘉宾是从事五年遥感图像处理相关算法的李民录。他表示C++在很长一段时间中仍为主流语言,对C++入门难的说法给出了自己的观点和学习方式。此外,他还致力原创GDAL源码剖析系列文章,旨在跟大家分享,秉承独乐乐不如众乐乐之观念。 李民录:学习技术,独乐乐不如众乐乐 CSDN:请先介绍下自己学习和工作经历,曾开发过什么产品?之前的工作经验对你现在的工作有何帮助? 李民录: 我于2008年毕业于中国矿业大学地理信息系统专业,毕业后一直从事遥感图像处理相关的算法研究和软件研发。主要编写的算法有,正射校正,图像配准,影像融合,影像镶嵌,影像裁切以及DEM相关的算法等。之前的工作经验是我现在的基石,我工作四年多一直从事遥感图像处理的相关工作,很少涉及到其他行业。这对我来说既是优点也是缺点:优点是我对遥感图像处理的流程及其原理有了深入的理解;缺点是知识面窄。前者是纵向伸展,后者是横向拓展。学科交叉往往容易创新,多了解一下其他行业的动态对自己的思维容易有启发。 2008年7月,毕业于中国矿业大学地理信息系统专业 2008年-2009年底,任职于北京东方泰坦科技股份有限公司 2010年-2010年10月,任职于北京数字空间科技有限公司 2010年10月至今,任职于二十一世纪空间技术股份有限公司 CSDN:你何时开始接触计算机?是什么原因促使你走上编程的道路?最先使用的语言是哪个? 李民录: 我第一次接触计算机是2001年在同学家,第一眼觉得很好奇,这就是传说中的电脑。之后高考填报志愿失误,调配到地理信息系统(GIS)专业,这个专业在当时(2004年)算是一个新兴的专业。简单的说,就是用计算机来处理和管理地理信息的一种技术。这也就促使我走上了编程的道路。 最先使用的语言是VB,是大一的时候通过学校开设的公共基础课接触到的。后来专业课中有C++,此后我写程序就全部使用C++语言。2010年我接触了Python,这是一门解释性语言,语法简捷而清晰,而且不需要编译,只要安装一个Python的运行环境即可,相比C++来说,用来写一些小的工具还是很方便的。 主流语言C++入门并不难 CSDN:你目工作主要以C++为主,从长期的使用经验来看,是你如何看待C++语言的未来,以及C++与C#的关系? 李民录: 我个人觉得 C++在未来很长的时间中还会是主流的开发语言 ,尤其是对于算法要求较高的行业,比如我从事的遥感图像处理。随着卫星数据的分辨率越来越高,数据量也越来越大,单纯靠提升硬件配置来增强数据处理能力是不够的,,还要从算法等角度来进行优化。从语言的执行效率来讲,C++比C#要高很多。但C#对于界面的开发有着很大的优势,这点对于C++来说是一个短板。 所以,我觉得C++和C#的关系应该是互存互惠的一个关系,各司其职, C++适合开发一些对算法要求比较高的系统,而C#应该是朝着快速的方向来发展 。 CSDN:C++入门难”你怎么看待这个问题? 李民录: C++入门难,个人感觉不存在这个问题。造成这种认识的一方面的原因是现在网络上很多文章都在说C++难学,给想学习C++的人灌输了这样的概念——C++难学。如果事先没有这个概念,那么学习C++和学习其他的语言是一样难度。 另外一个方面的原因就是C++本身只是提供了一套语法规则,没有像C#、Java等其他语言自带的库。比如正则表达式,如果用C++来实现类似功能,确实很复杂。但是比较幸运的是,目前有很多开源的C++库提供了这些功能,比如被称为C++的准标库的Boost库,里面提供了一百多个涵盖了各个方面的库。 任何语言的学习都离不开一个过程,那就是亲自写代码、调试程序,在调试过程中理解语法的意义和概念。 此外,对于C++学习,建议大家经常去看一些科技网站,关注一些C++的开源库,这样很多时候就避免了重复发明轮子的过程。而且很多的开源库都有很多商业软件在使用,在效率和可靠性上都是比较好的。所以多了解一些C++的开源库对自己的工作肯定有很大的帮助。 独乐乐不如众乐乐—— GDAL源码剖析系列分享 CSDN:从博客中看到,你正在写关于GDAL源码剖析的系列文章。你最初想法是什么?未来一个月你将写哪些内容? 李民录: 当初我学习GDAL的时候(2008年左右),关于GDAL的学习资料很少,除了官方的API帮助文档之外,就很少有其他的参考资料了。入门之后,我慢慢发现积累的东西越来越多,但没有记录,忘的也很快,为了以后用到的时候方便查阅,就开始写关于GDAL的博客。之后创建了一个GDAL的交流群,不到一月的时间,群就满了。很多人在我的博客下面留言,说博客帮助他们解决了问题,或者问我一些类似的问题。所以我觉得有必要把我学习到的关于GDAL的一些知识跟大家分享一下,独乐乐不如众乐乐,于是就整理了一下,形成现在的GDAL源码剖析的系列的文章。 接下来就是继续更新《GDAL源码剖析》这个系列的内容,之前写的主要是关于GDAL的使用方面的内容,接下来想把GDAL的内部机制和实现原理进行系统地说明,真正对得起这个系列的名字,好让广大的GDAL使用者能够知其然并且知其所以然。 CSDN:GDAL在读取不同的数据时,会发生什么常见问题?有何方法能快速的解决问题? 李民录: GDAL在读取不同的数据时,最常见的问题有下面三个: GDAL关于中文路径的问题,以及矢量数据属性中文乱码的问题 对于C#语言调用会出现程序崩溃的问题 关于RasterIO读写图像的问题 第一个问题,主要是由于GDAL在1.8之后的版本增加了对于多字节的处理,默认的路径编码改成UTF-8的编码导致的。由于C++中文中默认的编码是GBK或者其他的,一般有两种方式解决:第一是将中文路径编码专为UTF-8,第二是设置GDAL默认编码不为UTF-8。 第二个问题,主要的原因有两个,一是GDAL的dll没有拷贝到程序的目录下,二是由于编译GDAL的平台和C#的平台版本不一致导致。比如,GDAL编译的是32位系统,C#在编译的时候必须选择X86平台,否则就会出现这个问题。 第三个问题,主要是对于RasterIO这个函数的参数没有理解清楚导致的。 上述三个问题,我分别写了几篇 博客 对其进行了详细说明。 CSDN:现在你从事的工作主要以C++和GDAL库为主,两者搭配的优势和弊端分别是什么? 李民录: GDAL库本身就是用C/C++语言编写,所以对于C++的使用,本身没有语言的差异,使用起来也非常的方便。通过最基本的包含头文件,引用库文件就可以使用。 C++和GDAL搭配的弊端主要是C++语法的一些限制 ,比如,读取数据的时候内存的申请和释放等。对于这个问题只能靠使用人员本身来进行避免。 另外GDAL使用SWIG来提供其他语言的API接口,比如C#、Java、Python和PHP等。所以在使用GDAL的时候,对于搭配的语言来说,可以根据个人的习惯来决定。 CSDN:分享下你学习C++和GDAL的一些经验,有何好书籍或方法可以推荐给初学者? 李民录: 学习C++的经验就是自己亲手写代码、调试,这样才能真正提高自己的能力,光看书是不行的,那就成了纸上谈兵,到真正用的时候就发现写不出来了。当然了,书还是必须要看的。我觉得学习任何语言都脱离不了这个规则。关于C++的书籍,《C++Primer》是一本好书,不管是学习,还是用来当作参考书都是很不错的选择。另外还有一本就是《深入理解计算机系统》(APROGRAMMER'SPERSPECTIVE),这本书对于学习C/C++的人来说是一本非常好的书,尤其是想理解C/C++程序是如何映射到系统上,以及程序是如何执行的。读者能够更好地理解程序的行为的原理,以及效率低下是如何造成的。这本书从程序员的视角让读者可以深深地体会到学习计算机系统的内部工作原理会对他们今后的工作有进一步的帮助。 对于学习GDAL的方法,第一是看GDAL的官方文档。我曾经把GDAL的官方文档全部看完,当时还准备翻译一份中文的文档,后来由于种种原因没有完成。通过官方文档和官方提供的入门Demo,逐个理解每个类,每个函数的意义。或者先熟悉一下每个类里面的接口,有个印象,等用到的时候可以大致知道,然后再去文档里面找说明。 此外,学习GDAL之前首先要对遥感图像数据的基本信息有大致的了解,然后才能更好地使用GDAL库。比如,遥感图像相对于普通的图像而言多了空间信息,这些空间信息主要就是投影信息和分辨率。有了这些概念,就可以很容易理解GDAL的API,比如GDALDataset类中的GetProjectionRef这个函数就是获取的遥感图像的投影信息。 由于GDAL是在2007年左右才开始广泛的应用,目前还没有出版的参考书,只能去参考它的官方帮助文档。此外我整理了一个GDAL专栏,基本上也可以作为中文的一个参考文档。 我非常喜欢CSDN论坛和博客 CSDN:你在学习或工作中,是怎么接触到CSDN?CSDN对于你的工作或学习有什么影响,起到过什么帮助?有什么故事可以分享? 李民录:第一次接触CSDN是在大学时期的C++的课堂上 ,老师推荐有问题可以去CSDN。之后再遇到问题,首先就是去看CSDN上,有没有别人遇到同样或者类似的问题(基本上80%的问题都可以找到解决的方式)。 很感谢CSDN提供的这样一个平台,可以把大家集合起来。尤其是对于CSDN的论坛和博客,这两个板块我个人非常喜欢。在论坛可以得到别人的帮助和帮助别人,博客可以和大家分享自己的一些学习经验等。 CSDN:你对CSDN有什么建议,以及你对CSDN的未来有什么期待? 李民录: 对于CSDN,我希望可以提供客户端的工具来发布博客,之前可以使用LiveWriter来发布。有时候发布一些图片比较多的博客使用在线的编辑工具确实不太方便。 李民录博客ID: liminlu0314 博客地址: http://blog.csdn.net/liminlu0314
个人分类: 电脑、办公|3 次阅读|0 个评论
语言学家用新的数字工具保存语言
slsql2013 2013-3-7 16:38
语言学家用新的数字工具保存语言 塞拉利昂,泰城 ( Tei ,塞拉利昂南部的一个城市)——“ Jogue ”、“ yipe ”和“ simoi ”在金姆语中是三个表示食物的短字。金姆语是塞拉利昂的一种语言,在过去的三年里,塔克·柴尔兹( Tucker Childs )一直在设法努力地写下、用机器录下并理解这种语言。 金姆语是一种濒临灭绝的语言,而柴尔兹博士是一位实地语言学家( field linguist )。他在泰城( Tei )的研究基地就设在万杰河( Waanje River )边的一个小渔村里。他经常乘独木舟向上通过狭窄的水道,这样可以抄近路穿过万杰河的洪泛区,还要在陆路步行几英里,最后就到了现存的最后一个金姆语聚集区。柴尔兹博士根据在那里取得的录音资料,已设计了一个字母表并编撰了一本词典,另外,他写的关于金姆语语法的一本书也即将完成。 全世界有 6,000 多种语言,非洲大约有 2,000 种。许多语言仍停留在口头阶段,没有记录下来。一些语言还没有命名,不少语言将可能消失。几个世纪以来,社会的、经济的刺激因素一直对金姆语不利,而有利于这一地区广泛使用的门德语( Mende )。最后,柴尔兹博士推测,金姆语已被推向灭绝的边缘。 对像柴尔兹博士这样的实地语言学家来说,要抢救世界上的濒危语言(至少超过 3,000 种),过去的情形是:一个组织分散的团队争分夺秒地工作,在涂擦模糊的笔记本上潦草地记下资料,把声音保存在盒式磁带上,这放在箱子里很容易腐烂。但是,现在语言学已经迎来了数字化。柴尔兹博士目前使用的是固态记录器( solid-state recorder ),借助这台仪器,他将能在几秒钟内分析元音的成分,或者比较不同语言间的声音。 使用地理信息系统( GIS )这一能将数据翻译成地图的软件,柴尔兹博士和他的研究助手汉娜·萨维斯( Hannah Sarvasy )及阿里·图雷( Ali Turay ),精确地找到了在任何官方地图上都不能发现的一些村庄。“语言学家们为何要保护这些语言?可以讲出一大堆原因。”他说,“但是对我而言,这更是一件感情上的事情。这些村子里的人们完全处于社会的边缘。” 现在凭借新的数字形式,这种研究更容易进行。它允许大的研究项目和更广泛的教师、学者来分享世界的语言遗产,在可能的时候,甚至包括讲这些语言的人。 柴尔兹 博士的目标不仅仅是拯救濒危语言,而是要让它们复兴。他的研究曾一度停止,他又回到在俄勒冈州的波特兰州立大学( Portland State University ),继续当教授。在汉斯·劳辛濒危语言项目( Hans Rausing Endangered Languages Project )和美国人文基金会( National Endowment for the Humanities )的资助下,柴尔兹博士的语言录音活动有了出路,计划在伦敦大学东方和非洲研究学院( School of Oriental and African Studies ,缩写为 S.O.A.S. )建一个巨大的数据库。 伦敦大学东方和非洲研究学院濒危语言档案馆主任戴维·内森( David Nathan )说,档案馆的网站( elar.soas.ac.uk )准备在今年夏末开始共享数据。“我们正在用语言文献做的事情,是一种无需任何出版渠道的新东西。”他说。 不管怎样,直到现在,这个新事物真正是包括了谈话及民间故事的音频录音、歌曲及舞蹈的视频和原文抄本的一个大杂烩。但是与大多数新事物一样,它带着出生时的阵痛即将来到这个世界。 要得到不错的录音资料也是很困难的。例如,“尼安德文”( Nyandehun )和“摩森顿”( Mosenten )这两个村庄,连路都没有,非常落后。如果使用精密设备时,电池意外不能用了,那要到几英里外才能找到插座!湿气和灰尘也经常钻进机器里。 而且,一些语言学家在掌握使用这些新的机器设备上有困难。“目前对大多数语言学家来说,在他们根据录音抄写时,音频装置用起来很不方便。”内森先生说。过去,“仪器设备的质量太差,得到的抄本质量也低,只能说明他们去过那里,他们进行了实地考察。”他补充说。 如今,语言学和技术之间的关系要比把声音记录成什么格式更深奥。柴尔兹博士记得,当他读博士时,所用的计算机和一个房间一样大。他说,语言理论常常把自身都塑造成像手边的工具一样。 柴尔兹 博士说,开始时,语言学家想象大脑要用许多规则和很少的存储材料来处理语言。“随着时间的推移,发生的情况是,越来越多的材料被移到了辞典里,在那里列出来,而与此平行发展的计算机存储技术日益变得便宜。”他说。 伦敦大学东方和非洲研究学院( S.O.A.S. )在设法记载、拯救濒危语言方面并不孤单。位于荷兰奈美根市( Nijmegen )的马克斯普朗克研究所( The Max Planck Institute )一直在运营一个濒危语言档案馆,已达 10 年之久。达格玛·杨格( Dagmar Jung )是德国科隆( Cologne )的一位语言学家,她现正在加拿大艾伯塔省( Alberta )和卑斯省( British Columbia )实地考察,与当地一个说“比威尔语”( Beaver )的部落中的年长者接触、交流,以收集材料,使材料更容易通过社区门户网站。杨格博士说:“对后人来说,这些材料无法回避。但是目前,它还不太好用。” 说“比威尔语”( Beaver )的人现在的确可以使用一些他们的歌曲和故事的在线录音资料。该部落的前任首领、现年 49 岁的加里·奥克( Gary Oker )说,把年长者的录音资料放在网上,只是一项计划的一部分,该计划旨在了解传统世界观、并让它们成为现在世界观的一部分。该部落的年轻人自始至终参与了这个过程,从制作在线的年长者的录音资料,到后来在学校里把它们用作参考文献。 加里·奥克说,尽管他看到“比威尔语”正在慢慢远去,但是因为年轻人已经“了解了一个口头传统,并以多种形式把它记载下来”,这种接触已经让他们“为他们的历史和他们是谁而倍感骄傲”。他说,这些故事已帮助他们记住了他们的身份,以及他们是怎样与这片土地相联系的。 奥克( Oker )先生说,由于该部落所在地石油和天然气资源的开发,“我们生活的环境正在急剧地改变,我们需要抓住尽可能多的东西。”他说,即便“比威尔语”最终消失了,“这门语言中的智慧也能被传承下去”。 当然,在线的资源只对有互联网接入的社区才是有用的。没有互联网的社区,像金姆语,仍旧需要印刷的书籍,以及被拷贝到 CD 盘或磁带上的录音。 当前,承载更多希望的是把电子词典放在手机上的计划。悉尼大学的语言学家詹姆斯·麦克尔文尼( James McElvenny )在发展帮助复兴濒危语言的软件上已起到引领作用。他一直在与澳洲的土著人群打交道,如悉尼的讲“达若戈语”( Dharug )的土著居民。他给学说“达若戈语”的人(很多人不到 16 岁)一本便携式参考书,上面有单词的定义,如果这个词现在已没人讲了,上面还提供这个词的发音。因为,“达若戈语”是一种濒临灭绝的语言。 “许多老年人都讨厌新技术,”麦克尔文尼先生说,“但是孩子们都真正融入进来了。” 就金姆语来说,现在所做的努力可能是太晚了。一种语言,就像一个人一样,在死前通常会变老。自从柴尔兹博士开始他的拯救计划到现在,已有 4 个说金姆语的人死去了,而目前 20 个能流利地讲金姆语的人都 60 多岁了。 “今天人们不会说金姆语,是因为他们的父母不曾对他们讲这门语言。”法萨·柯莲( Fasia Kohlia )说,她是讲金姆语( Kim )最好的人之一。她说:“父母过去叫他们的孩子吃奶,用金姆语说就是‘ kun moga , kun moga , kun moga ’。”但是,当她有了孩子后,她用门德语( Mende )喊他们吃奶了。
3486 次阅读|0 个评论
使用R语言自动生成图例
Bearjazz 2013-3-1 16:26
使用R语言自动生成图例
熊荣川 xiong rongchuan 六盘水师范学院生物信息学实验室 xiongrongchuan@126.com http://blog.sciencenet.cn/u/Bearjazz R 语言是个优秀的作图工具。在绘图中往往要对图上标记做注释,如果使用 PS 等技术的话,工作相当繁冗,下面介绍一段 R 语言代码,以实现自动生成图例。 代码如下 Pdata = read.csv(' 图例 .csv') plot(x=Pdata , y=Pdata , pch= Pdata , cex = 2, col = matchar(Pdata )) text(x=Pdata ,y=Pdata ,labels =Pdata ,pos = 4,adj = c(0,0),font = 3) 效果 值得注意的是 font 变量设置字体格式: font = 1 # 无格式 font = 2 # 黑体加粗 font = 3 # 斜体 font = 4 # 斜体加粗 pos 变量用于设置图例文字与图标的相对位置 附件 图例.csv
个人分类: 我的研究|8555 次阅读|0 个评论
从吸引子角度再论语言的危害性
热度 1 wangdehua11 2013-2-26 16:35
语言表达的是思想,思想就是一种思维运动。思维时刻都在运动的,问题的关键就在于思维如何运动(有序或无序)。所以,我们所看到或听到的语言表达就是一种思维运动,它必然对一个十分迷茫或空虚(无序)的大脑有着极强的吸引力,因为它可以引到混乱的思维走向有序,使我们的思维进步。这类似于非线性动态系统的演化,在非线性动态系统中引导系统演化(使系统演化到某种定态)的有三种吸引子: 1 不动点吸引子(不稳定的平衡态); 2 极限环吸引子(周期或准周期运动); 3 混沌吸引子(更高级的有序运动,混沌运动)。 思维运动就是一种非线性动态系统演化过程。所以,能看到和听到的语言表达对于思维运动就是吸引子,可以使我们的思维达到某种状态。那么,我们的思维到底处于那种状态才是真正的进步啊,马克思说过“人的自由而全面的发展”,这是一种什么状态就是一种混沌状态,思想指导实践,没有思想的自由而全面的发展就不可能有行动的自由而全面。所以,语言对思维的的吸引作用就有三种情况,显而易见,只有第三种情况才是代表着思维的真正进步。 所以,对于理论研究(纯粹的语言表达)。我们不再需要集中于某一狭小领域的不动点以及模糊不清 、 模棱两可的周期运动,而是要以历史发展为逻辑的语言本身及各学科的形成 、 分化和发展的整个过程,使各学科走向综合的混沌运动!语言表达(文章)并没有对 、 错与好 、 坏之分,它们只是起着不同吸引子的作用。只是现在的绝大多数语言表达都是不动点和极限环吸引子,这两种吸引力过多的被使用,使语言环境变得极其复杂而不利于从中筛选出混沌吸引子,这就是语言危害性的表现也就是语言被乱用了! 参考文献 苗东升 《 系统科学精要 》 . 北京:中国人民大学出版社 2006.
3662 次阅读|5 个评论
对我们所熟知的语言(文字)的全面批判-论语言的危害性
热度 16 wangdehua11 2013-2-22 16:42
这里的语言是指文字出现以后的书面语言和口头语言,是作为整体意义的语言,也就是人类文明的开始,包括各个不同民族的语言。 语言文字是一个民族的灵魂,语言文字是一个民族内部在时间上和空间上交流的工具一切思想表达的载体,它决定了这个民族整体的思维习惯,所以它对这个民族的发展起着决定性的作用。 一 对语言(文字)的非语言解读 怀疑与批判是一切进步的起点,任何伟大的创新与创造都是对前辈的否定,否定的前提是怀疑。所以就从怀疑开始,从对语言(文字)本身开始,在我看来,日常生活中常见的一些词语,如幸福 、 腐败 、 好 、 坏 、 优点和缺点等等,越发地对它们进行深入地思考就越发地觉得无法理解,觉得这些词语有问题,越发的琢磨不定,就越发地促使我不断的深入思考。熟知未必真知,所以要对记忆 、 思考 、 学习 、 性格等等我们认为很熟悉很了解的概念进行科学剖析。这些概念还不是实在的东西,还可以继续追问直到我们无法追问为止,那就是回到我们的直接感受包括:视觉 、 听觉 、 味觉 、 嗅觉 、 触觉及身体内的一切感受。因为我们只可能对感受到的存在产生怀疑,对于这篇文章不能只从语言上去理解,而要用你的所有感受去体会。 语言文字不能只从观念上去理解,因为它们的存在必须依赖某一物质载体,视觉上的特殊图形和听觉上的特殊声音,是一种新的物质或运动形式,我们要从视觉和听觉上去理解,语言文字是被我们视觉和听觉感知的只是视听感知的一种特殊形式,它们把视觉和听觉这两种不同的感觉联系起来了,它们还能对应一个很复杂的视觉和听觉过程,因为我们的视觉和听觉受到时间空间的限制,无法感受到大范围的存在和不能同时感受到感受物的各个方面。语言文字的真正含义是与相应的相互作用也就是大脑感受建立起了对应关系,如视觉的,听觉的,触觉的等等,因为我们的大脑被我们的躯体束缚住了,只能与现实的大宇宙发生相互作用,也就是我们可以在任何地方感受任何存在,但由于我们本身的存在只能直接感受有限的存在。语言文字就是将这些直接的感受联系起来了(建立起对应关系),就是将不同的直接感受转化为间接感受,就是我们所使用的语言文字。如“桌子”这个特殊图形及相应的发音,就代表了我们从视觉上 、 听觉上及触觉上直接感受到的某个相应的存在。如从不同角度看,用手摸,用整个身体去感受,以及躯体触摸所产生的听觉感受等。“桌子”的意义就是这些感受的总和。从视觉上感受到的具有相似性,但又有差别的存在就在前面加不同的文字加以区别也就是形成不同的声音和图像形式。 二 语言的负面作用 语言对“人”无害即对生理无直接作用,但对思维即对心理有反作用,是双刃剑,语言对于思维(心理)如同技术对于人的身体(生理)是一把双刃剑。所以,技术对于人的危害与语言对思维(心理)的危害是无法分割的,语言可以影响思维。人类发展到现在,语言已经被过度使用了,很多语言(文字)的表达是没有意义的,有很多的语言概念,就是语言形式本身是不一样的,但它所对应的是视觉,听觉,触觉等感受过程是一样的,也就是说本质上是没有区别的,其实是同一个意思。 还有哲学上的唯物,唯心,认识论,价值论,本体论等概念都是语言给我们思维带来的误导。语言是视觉和听觉共同作用的产物,在直接的视觉和听觉共同作用下,小宇宙与我们脑部机体相互作用的产物,也就是对脑部机体改造的结果,然后这种改造逐步延伸到对嘴和手的改造而是嘴和手能过产生复杂的运动,从而创造出新的视觉和听觉感受物,这种改造会扩展到整个躯体。 语言就是一种技术,它是人之所以会思考的原因,就是一种思维技术,是人类区别于其它动物的根本所在,是人类思维的载体,是我们认识和改造自然的动力之源泉。语言的出现是宇宙发展的必然,是宇宙进化的表现。但随着人类的进步也就是语言的发展,语言逐渐脱离了其本来面目也就是走向异化,已经被模式化乱用就象某种学说脱离了其时代背景,而被神化之后就走向了反面,禁锢了人们的思维。现在出现的很多所谓的新的词组句子所代表的新概念,新理论只是文字的新的排列组合,表面上是新的但其所代表的内涵与很多旧词组旧概念是一样的。可以说是多余的 、 无用的只会误导我们从而禁锢了我们的思维。如道德 、 仁义 、 服务等等概念具有很大的模糊性,弹性很大,其实是不具有现实意义的,因为现实是很具体的,涉及到具体的时间地点具体的人和场景,这些都是通过人的各种感觉感知的,语言文字本身也是来源与人的具体感知。现实是没有语言的只有具体的感知 : 视觉 、 听觉 、 触觉 、 嗅觉 、 味觉还有身体内的感受。所有的这些感受才是实在的,现实的。语言文字本身也只是一种特殊的视听感受,它来自于我们的各种感受,所以我们要真正理解语言文字所代表的含义就是要是将它们还原为我们的直接感受,因为语言文字来自于我们的感受必定回归于我们的感受。 语言如同我们技术是一把双刃剑,它使我们进步,却也带来了负面作用,以前表现的不明显,但随着人类的发展到现在已经不能忽视了,其危害如下: 一、语言助长了我们的思维惰性,前面已经论述过语言本身就是一种思维,是人类其它一切理论的最基础的背景理论,而直到现在对于语言解释只停留在用语言解释语言,一遇到不断的追问就用语言作为挡箭牌,如“这是人的本能”、“人性的善恶”还有“这是自然规律”等等。看似有道理能作为问题的回答,只要再进一步思考就会发现这是典型的废话是没有多大意义的。还有很多我们喜欢提的问题也是语言的误导是没有意义的,如生命的意义是什么等等。 二 、误导人们的思维,语言来至于我们的感觉,是各种感觉感受的产物,它是以物质为载体的只要被我们感受到就肯定会对我们的大脑产生影响,一个无知的大脑(具有相对性,如小孩)是很容易被任何相关语言所误导的,因为无知的大脑对任何信息都没有排斥性,是照单全部吸收的,只要是吸收的就会对以后相关信息具有排斥性,这种排斥与同一个时空不能同时存在两个以上的物质是一样的,如不同的电磁波相遇会互相干扰,因为语言也是一种实在。 三 、被变向的重复使用,导致我们的大脑出现混乱,从而影响我们对事实的分辨和判断。很多文字,词组,词语概念看似不一样,其实其实质是一样的,把简单的问题复杂化,使我们无法弄清其意义到底是什么,这就是洗脑能过实现的原因,我们所谓的人的能动性是具有一定的被动性的。 四、语言是现实的很小一部分,但往往被作为现实,也就是将现实观念化或理想化。所有的事件,环境等其它一切实在都是有语言进行描述和论述的,但语言是无法真实的反映这些实在的,因为它们涉及到各种感觉,所以这就会使我们把问题看的过于简单而使我们的思维僵化,不能促使我们进一步思考,也就是阻碍大脑的进化或使进化出现偏差。
5747 次阅读|25 个评论
[转载]'Language gene' speeds learning‘语言基因’让你学的更快
carldy 2013-2-17 22:28
'Languagegene'speedslearning ‘ 语言基因 ’ 让你学的更快 Mouse study suggests that mutation to FOXP2 gene may have helped humans learn the muscle movements for speech. 对老鼠的研究表明: FOXP2 基因变异可能会对人们掌握说话时的肌肉运动有帮助。 A mutation t hat appeared more than half a million years ago may have helped humans learn the complex muscle movements that are critical to speech and language. 50 万年前出现的变异可能一直在帮助人们掌握复杂的肌肉运动,这种肌肉运动对说话和语言至关重要。 The claim stems from the finding that mice genetically engineered to produce the human form of the gene, called FOXP2 , learn more quickly than their normal counterparts. 这一说法源自这样的发现:通过基因改良的老鼠产生了人类具有的基因,这种基因叫 FOXP2 ,这些老鼠比他们的同伙(没有基因改良的老鼠)学的更快。 The work was presented by Christiane Schreiweis, a neuroscientist at the Max Planck Institute (MPI) for Evolutionary Anthropology in Leipzig, Germany, at the Society for Neuroscience meeting this week in Washington DC this week. 德国莱比锡的马科斯普朗克人类进化研究院 (MPI) 的一位神经学家,叫做克里斯汀 - 施瑞斯,在本周出席在华盛顿召开的神经科学协会会议上提交了上述发现。 Scientists discovered FOXP2 in the 1990s by studying a British family known as 'KE' in which three generations suffered from severe speech and language problems 1 . Those with language problems were found to share an inherited mutation that inactivates one copy of FOXP2 . 科学家发现 FOXP2 基因是上世纪 90 年代的事,当时科学家对英国一家代号为 ‘KE’ 的家庭进行研究,这家三代人都有严重的说话和语言障碍。这三代人都遗传了一个变异,这个变异阻止了 FOXP2 基因的复制。 Most vertebrates have nearly identical versions of the gene, which is involved in the development of brain circuits important for the learning of movement. The human version of FOXP2, the protein encoded by the gene, differs from that of chimpanzees at two amino acids, hinting that changes to the human form may have had a hand in the evolution of language. 多数脊椎动物都有几乎一样的 FOXP2 基因形式,这种基因涉及到对掌握运动至关重要的脑部的发育。人类的 FOXP2 基因(该基因编码的蛋白质)与黑猩猩的相比有两个氨基酸不同,这表明人类的这种基因变化可能对语言的进化发挥了作用。 A team led by Schreiweis’ colleague Svante Pääbo discovered that the gene is identical in modern humans ( Homo sapiens ) and Neanderthals ( Homo neanderthalensis ), suggesting that the mutation appeared before these two human lineages diverged around 500,000 years ago. 施瑞斯的一个同事叫做塞万提 - 帕博,他领导的一个小组发现了现代人(智人)和穴居人(尼安德特人)的 FOXP2 基因是一样的。这表明在 50 万年前这两支人类先祖分道扬镳之前变异就出现了。 Altered squeaks 变了的叫声 A few years ago, researchers at the MPI Leipzig engineered mice to make the human FOXP2 protein. The ‘humanized’ mice were less intrepid explorers and, when separated from their mothers, pups produced altered ultrasonic squeaks compared to pups with the mouse version of FOXP2. 几年前,德国莱比锡的马科斯普朗克人类进化研究院 (MPI) 的研究人员对老鼠进行了基因改造,让老鼠具有人类的 FOXP2 基因蛋白。这种 ‘ 人类化的 ’ 老鼠变成了胆小的探险者,并且当把它们和它们的妈妈分开时,与带有老鼠原版 FOXP2 基因的小老鼠相比,这些基因改良后的小老鼠会发出变化了的超声波叫声。 Their brains, compared with those of normal mice, contained neurons with more and longer dendrites — the tendrils that help neurons communicate with each other. Another difference was that cells in a brain region called the basal ganglia were quicker to become unresponsive after repeated electrical stimulation, a trait called ‘long-term depression’ that is implicated in learning and memory. 改造后老鼠的大脑与正常老鼠的大脑相比较,含有更多的神经元而且神经元的树突更长。神经元树突是一种须状物,可以帮助神经元相互之间进行通讯交流。另外一个不同是,改造后的老鼠大脑底部神经中枢的脑细胞经过反复的电刺激后,更快进入冷漠状态,这一特征叫 ‘ 长期压抑 ’ ,这种 ‘ 长期压抑 ’ 涉及到学习和记忆。 At the neuroscience meeting, Schreiweis reported that mice with the human form of FOXP2 learn more quickly than ordinary mice. She challenged mice to solve a maze that involved turning either left or right to find a water reward. A visual clue, such as a star, along with the texture of the maze's surface, showed the correct direction to turn. 在神经科学大会上,施瑞斯报告说:具有人类 FOXP2 基因的老鼠比普通老鼠学习的更快。他让老鼠走迷宫,左转或者右转,走对了就奖给老鼠水喝。在迷宫里有诸如星状的可视标记,加上通道的表面的质感,可以指明正确的方向。 After eight days of practice, mice with the human form of FOXP2 learnt to follow the clues to the water 70% of the time. Normal mice took an additional four days to reach this level. Schreiweis says that the human form of the gene allowed mice to more quickly integrate the visual and tactile clues when learning to solve the maze. 经过 8 天练习后,带有人类 FOXP2 基因的老鼠在 70% 的情况下可以根据线索找到水喝。普通老鼠需要另外化四天时间练习才能达到这样的水平。施瑞斯说:在老鼠走迷宫时,人类的 FOXP2 基因让老鼠更快的把可视线索和触觉线索联系在一起。 In humans, she says, the mutation to FOXP2 might have helped our species learn the complex muscle movements needed to form basic sounds and then combine these sounds into words and sentences. 对人类而言,他说,向 FOXP2 基因的变异可能帮助了我们这一物种掌握复杂的肌肉运动,要形成基本声音然后把基本声音合成为字然后再合成为句子,复杂的肌肉运动是必须的。 Another MPI team member, Ulrich Bornschein, presented work at the neuroscience meeting showing that the changes to brain circuitry that lead to quicker learning come about with just one of the two amino-acid changes in the human form of FOXP2 . The second mutation may do nothing. 另一个 MPI 小组成员,叫做乌里奇 - 本斯新,在神经科学大会上提出了他的研究结果,他的结果表明:导致学习更快的脑部变化的只是人类 FOXP2 基因里两个变化了氨基酸中的一个,另一个变化了的氨基酸毫无作用。 “That makes sense,” says Genevieve Konopka, a neuroscientist at the University of Texas Southwestern Medical Center in Dallas, who also studies FOXP2 . Carnivores, including dogs and wolves, independently evolved the other human FOXP2 mutation, with no obvious effect on their brains. 位于达拉斯的得克萨斯大学西南医学中心的一位神经学家,叫做吉纳维夫 - 科诺普柯,也在研究 FOXP2 基因。他说: ‘ 是那样 ’ 。食肉动物,包括狗和狼,独立的进化成了其他的人类 FOXP2 基因变种,对它们的大脑没有明显影响。 Faraneh Vargha-Khadem, a neuroscientist at University College London who has studied the KE family in which FOXP2 is mutated, thinks that the new findings could help explain the gene's role in perfecting the facial movements involved in speech. 法拉尼 - 乌迦 - 科登是伦敦大学分院的神经学家,她研究了 KE 家族 FOXP2 基因变异,她认为新的发现可以帮助我们解释在说话时形成的脸部运动中 FOXP2 基因所起的作用。 But she does not see how changes in basic learning circuitry could explain how FOXP2 helps humans to automatically and effortlessly translate their thoughts into spoken language. “You are not deciding how you are going to move your muscles to form these sounds,” she says. 但是她没有找到如何用(负责学习的)脑部变化来解释 FOXP2 基因是如何帮助人类自觉地而且毫不费力地把想法转换成口头语言的。她说: “ 人们不用刻意去想如何使用你的肌肉来发出声音 ” 。 http://blog.sina.com.cn/s/blog_70f7edbc0100ydq3.html Scientists Identify a Language Gene Bijal P. Trivedi for National Geographic Today October 4, 2001 Researchers in England have identified the first gene to be linked to language and speech, suggesting that our human urge to babble and chat is innate, and that our linguistic abilities are at least partially hardwired. "It is important to realize that this is a gene associated with language, not the gene," said Anthony Monaco of the University of Oxford, England, who led the genetic aspects of the study. The gene is required during early embryonic development for formation of brain regions associated with speech and language. The gene, called FOXP2, was identified through studies of a severe speech and language disorder that affects almost half the members of a large family, identified only as "KE." Individuals with the disorder are unable to select and produce the fine movements with the tongue and lips that are necessary to speak clearly. "The most obvious feature is that they are unintelligible both to naive listeners and to other KE family members without the disorder," said neurologist Faraneh Vargha-Khadem of London's Institute for Child Health, who studied the family. The members of the family also have dyslexic tendencies, difficulty processing sentences, and poor spelling and grammar. FOXP2 is responsible for the rare disorder seen in the KE family that is a unique mixture of motor and language impediments, said Monaco. But, Monaco cautioned, "FOXP2 is unlikely to be the cause of less severe language deficits that affect approximately 4 percent of schoolchildren. FOXP2 will not be the major gene involved in most of these cases." Their findings are published in the October 4 issue of the journal Nature. Using data from the KE family, researchers narrowed the location of the FOXP2 gene to a region of chromosome 7 that contained about 70 genes. Analyzing these genes one by one is a task that could easily have taken more than a year. But Monaco's team made a breakthrough when researcher Jane Hurst of Oxford Radcliffe Hospital identified a British boy, unrelated to the KE family, who had an almost identical language deficit. The boy, known as "CS," had a visible defect in chromosome 7 that specifically affected the FOXP2 gene. "The defect was like a signpost, precisely highlighting the gene responsible for the speech disorder," said Monaco. The FOXP2 gene produces a protein called a transcription factor, which attaches itself to other regions of DNA and switches genes on and off. In the KE family, one of 2,500 units of DNA that make up the FOXP2 gene is mutated. Monaco suggested that this mutation prevents FOXP2 from activating the normal sequence of genes required for early brain development. "It is extraordinary that such a minute change in the gene is sufficient to disrupt a faculty as vital as language," he said. Although humans have two copies of every gene, just one mutated copy of FOXP2—as in the case of both CS and the KE family—can have devastating effects on brain development, said Vargha-Khadem. Brain imaging studies of the KE family revealed that affected members have abnormal basal ganglia—a region in the brain involved with movement—which could explain difficulty in moving the lips and tongue. Regions of the cortex involved in speech and language also appear aberrant. The discovery of FOXP2 offers Monaco and other geneticists a probe to fish for other genes involved in development—specifically those directly controlled by FOXP2. Also in progress is a collaborative project to study the evolution of the human FOXP2 gene by comparing it with versions in chimps and other primates. Monaco speculates that differences between the FOXP2 gene in humans and chimps may reveal a genetic basis for differing abilities to communicate. http://news.nationalgeographic.com/news/2001/10/1004_TVlanguagegene_2.html
个人分类: 身边的科学 Science around you|2435 次阅读|0 个评论
引力场以光速传播一文作者匿名谩骂、诽谤、攻击质疑者语言实录
热度 2 seaocean 2013-2-17 13:58
这些匿名谩骂、诽谤、攻击对引力场以光速传播质疑者的语言全部摘自关于引力场以光速传播的帖子后面的跟帖。这一方面能说明引力场以光速传播一文作者的人品,另一方面也可旁证其作者明知造假,却故意欺骗——如果没有造假,你对别人的质疑为什么要谩骂呢? 语言从跟帖上 COPY 下来,后面附有网址。 kamsana 2013-1-7 12:56 觉我考证,下面这个 waterzhu 是 6 号在新浪仓促注册后马上回应那个妄想狂 zxt 的, waterzhu 这个名字很耐人寻味,第一,明眼人一看就知此人懂点英文,这个名字是来灌水的水军,第二,如果对几年前嵇与陈的那场恩怨历史了解的话,就明白了此名字是在辱骂陈。。。由此可以肯定此名字为某某的马甲无疑。。。 (注:这里说的是“风信博雅”博主) http://blog.sciencenet.cn/blog-51597-649993.html 毛委员指引我斗腰魔 2013-01-07 13:35:51 语无伦次,是博主的一贯风格,再看博主的其它臭豆腐,实为一妄想狂患者。难道说现在的疯人院里也可以上网了吗? (注:这里说的是“风信博雅”博主) http://blog.sina.com.cn/s/blog_a6aa6cba0101byhu.html 毛委员指引前进方向 2013-01-28 18:46:53 臭不要脸的你心虚了吧!半夜都等不及了来删我的评语。 你敢删我就敢贴。。。你就是一个心里极其阴暗的小人。 别以为穿上一张画皮就不知道你小子是谁了。。。 毛委员指引前进方向 2013-01-28 18:48:32 知道不,朱茵是你老祖宗,你竟敢冒用你老祖宗的名字真不要脸啊。小心你老祖宗半夜找你算账。。。 新浪网友 2013-02-04 12:36:31 好一个大言不惭的“我对引力速度和引力方向有比较系统的研究”!!! 只凭一篇自费 5000 元发表的语无伦次的 e 文,就敢如此夸口。大跃进时代也没有你雷人。 中国民科的声誉就是被你这等搞臭的。 http://blog.sina.com.cn/u/2590194624 再来看看这个 starwind 是什么人: starwind 2013-2-16 22:08 再说一遍,那么多国内外相关领域专家对该成果的关注和讨论热点都和你不一样,他们都看不到你提出的这个问题? http://bbs.sciencenet.cn/blog-264922-662221.html starwind 2013-2-7 22:39 为什么国内外其他科研团队、精英学者和引力速度测量团队的科学交流那么积极、热烈? http://bbs.sciencenet.cn/blog-264922-660298.html starwind 2013-1-2 19:41 To zxtgm001 : 如果对中国人不投国际主流刊物就会产生质疑,那作为中国人愤怒是正常的,不过请注意,这个愤怒不是针对你,而是针对社会现状。各国主流刊物在台下对优秀论文的争夺,你应该不会不了解,在有能力回馈祖国的情况下,为什么不投国内刊物?我想除了这个问题有些愤怒,如果你看了感到不适,那我表示道歉,而其它问题的交流我想都是对等的,根本牵涉不到情绪方面吧。 http://blog.sciencenet.cn/blog-51667-646834.html 从常识来讲,对一个科学问题,如果不是正在研究的人,正常需要 3 个月左右可以搞清楚。这也是一般的审稿期限。而我之所以能迅速作出判断,是正巧我在研究这个问题。 starwind 所谓的国外科研人员的反应,是对科学论文的理解无知的说法,其目的,只能是拉虎皮作大旗。而这位先生却对不投中内刊物表示了“愤怒”。这是一种什么“愤怒”呢? 要求科学网编辑将此文精选。让大家看看,汤克云等作者究竟是什么样的人。
1837 次阅读|7 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-23 14:52

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部