科学网

 找回密码
  注册

tag 标签: 句子

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

Python提取句子
xyzg198891 2016-11-10 21:35
将一段话中的句子分离出来不是一件容易的事。因为句子的开头和结尾并不是很规则,而且句子内部会出现句号。这使得通过单一的正则表达式分离句子是不可能的。有时你能成功,但大多数时候你会出错。这里我们用nltk模块来做。 第一部分:使用正则表达式 import re paragraph = Mr. Smith bought cheapsite.com for 1.5 million dollars, i.e. he paid a lot for it. Did he mind? Adam Jones Jr. thinks he didn't. In any case, this isn't true... Well, with a probability of .9 it isn't. I say. What's wrong with you? I am confused by your activity. #匹配句尾的那个特殊空格,所有后面只能用依据空格用split分割 rule = re.compile(r(?!\w\.\w.)(?! \.)(?=\.|\?|\!|\)\s) result = re.split(rule, paragraph) for sentence in result: print sentence #如果段落中含有双引号就报错。此时我们应该改用三双引号或三单引号,亲测有效。当然,正则表达式也需要变化。下面是利用正则表达式提取文本文件中的句子的代码。 import re #open the txt file which must be in ANSI format #TXT file in unicode format doesn't work. I don't why. input = open('test.txt') input_result = input.read() rule = re.compile(r(?!\w\.\w.)(?! \.)(?=\.|\?|\!|\)\s) result = re.split(rule, input_result) #for sentence in result: #print sentence input.close() #This command will create the ouput.txt file for you. output = open(ouput.txt,a+) for sentence in result: output.write(sentence) output.write(\n) output.close() 第二部分:提取字符串中的句子 from nltk import tokenize paragraph = Good morning Dr. Adams. The patient is waiting for you in room number 3. print tokenize.sent_tokenize(paragraph) 第三部分:提取文本文件中的句子 import nltk.data tokenizer = nltk.data.load('tokenizers/punkt/english.pickle') fp = open(test.txt) data = fp.read() print '\n-----\n'.join(tokenizer.tokenize(data)) 备注:暂时无法成功安装nltk模块,提示缺少某dll文件! 参考资料 http://stackoverflow.com/questions/9474395/how-to-break-up-a-paragraph-by-sentences-in-python http://stackoverflow.com/questions/4576077/python-split-text-on-sentences
个人分类: Python|9962 次阅读|0 个评论
[转载]老外最常说的二十个钻石级句子
lcj2212916 2014-9-12 22:40
【名稱】: 老外最常说的二十个钻石级句子 【作者】:--- 【大小】:--- 【格式】:doc 【語言】:簡體中文 【內容簡介】: 老外最常说的二十个钻石级句子 【下載載點】: http://www.400gb.com/file/73099543
1234 次阅读|0 个评论
如何写好英文摘要(2)
热度 8 fs007 2014-6-12 08:27
寻正 摘要的功能是简短地向读者陈述你的研究工作、相关发现、以及结果的意义。前面我已经连篇累牍地强调了结构的重要性。你掌握了八股精粹,就起码在相关写作上立于不败之地,别人可以说你写得差,但不会说无可救药地差。 在你充分拥抱八股应用写作原则之后,我们这里进一步地锤炼文字。 关于锤炼文字我在此前已有提及,在 《无用的唐诗》 一文中我主要关注于复杂句式,指出化繁为简乃是文字训练的基础。为了强调一基础的重要性,我把写作使用白话夸张成为“讲人话”,讲普通人日常交流的话。 讲白话之所以重要,就在于交流的准确性与有效性。我们来看一个唐诗与白话的例子: 李白: 飞流直下三千尺,疑似银河落九天。 白话: 庐山瀑布从上倾泄而下,崖高34米,宽10米,每小时流量约70立方米。 李白的说法美则美矣,但其中不包括任何关于庐山瀑布的信息,同样的句子用于同样的结构,放之四海而皆准——也可以说放之四海而皆不准。这是文学而不是科学,是文字游戏而不是应用语言。后面的白话描述,则准确而有效地交待出了作者的观察侧面,读者缺了对描述对象加工的空间,使得作者与读者之间获得了准确而有效的交流。 如果说李白本就是写的文学作品,我们再来看被喻为忠臣楷模的诸葛亮向蜀汉皇帝写的请战书《出师表》。选入语文课本的《出师表》是古往今来最差劲的请战书,全文共700多字,而涉及请战内容不到10%: “今天下三分,益州疲弊,此诚危急存亡之秋也。”“今南方已定,兵甲已足,当奖率三军,北定中原。”“愿陛下托臣以讨贼兴复之效,不效则治臣之罪,以告先帝之灵。” 天下一分为三,我们益州民困军乏,稍不注意就要灭亡了。现在南方已经被平定,我们有足量的兵器甲胄,应该是鼓励三军,向北平定中原的时候了。请陛下把征讨曹魏兴复汉室的任务给我吧,如果不成功就定我的罪,来告慰先帝之灵。 从《出师表》的交流效率而言,全文就出师北征而言,完全是扯七杂八,不知所云。诸葛亮临结尾时说,“临表涕零,不知所言。”完全不是自谦。在夸张三国国力对比、危言耸听之后,诸葛亮毫无困难地转到蜀国兵精粮足,有了北伐基础,于是乎,请皇帝放权北伐,不成功就下狱。军国大事如同儿戏。 支撑传统忠臣楷模的就是糊涂思维,用文学的创意来解决交流的缺陷,用夸张的言语来代替内容的缺乏,当然,最根本的是当时还没有八股文,臣佐上表尽可以胡说八道,而不用担心上官或皇帝看出虚实。 我们在八股的限制下,在结构上失去了天马行空自由散漫的机会。然而,如果文字上不改正喜欢概念堆砌、无病呻吟的毛病,我们仍然可能写得很差。在翻译一国文字到另一国文字时,造成挑战的往往是语意的不确定性,而文字的文学价值,则往往取决于这种语意的不确定性,所以翻译过程中丧失的,就往往是文字原有的文学价值。对于咱们写应用文的来说,这其实是一种福音,在传达有效信息时,我们要防范杜绝文字的文学艺术效果。 如果要杜绝文字的文学艺术效果,我们就要回到语言的基本文法上来,万变不离其宗,所有国家的语言文字,都离不了一个主谓宾(Who do what)的模式。在这个模式的基础上,我们有附加词,比如“虽然”、“但是”、“因此”之类来转换句意,增加表达的灵活性。我们在简化的过程中首先要去掉它们,获得相对独立的句意群,在我们思路清晰之后再把它们请回来。我们回到以前的例子来看如何在写作中避免文学效果。 我们来看论文摘要的第四个例子针对目的描述: 目的分析9例妊娠合并恶性肿瘤的诊治经过及妊娠结局。探讨妊娠合并恶性肿瘤的孕期监护与治疗的最佳方法,减少误诊率及漏诊,改善母婴预后。 如果我们理解摘要的框架结构,就会自动忽略“分析…经过及…结局”一句话,因为这是方法学的内容。我们需要关注并修改的是第二句。我们不妨把原文分解为最基本的语意单位: 1)【我们要】探讨妊娠合并恶性肿瘤的孕期监护的最佳方法。 2)【我们要】探讨妊娠合并恶性肿瘤的治疗的最佳方法。 3)【我们要】减少误诊率。 4)【我们要】减少漏诊【率】。 5)【我们要】改善母婴预后。 用区区九个病例,设立这么一大堆的目标,的确有些大跃进的精神,然而,读者要一道跟我一样地容忍,我们这里的目的不是批评,而是学习,所以我们姑且认可原文的价值。现在的挑战是把框架摘要中内容写得中规中矩。 论文的目的一般只有一个,而博士论文才涉及多个研究目的。我们初学写作,需要把这当成定规。那么,这五个目的可能都存在,在论文中可能都被涉及,我们如何来合并它们呢?我们需要寻找上级概念,即包含这些小目标的更大的概念。在医学上,涉及从诊断、到监护、治疗、与预后的,统称为医学管理(Medicalmanagement或者Management)。好,合并所有目标: 【我们要】探讨妊娠合并恶性肿瘤的最佳医学管理。 在确定我们的文字简单得不能再简单了之后,我们要考察概念的准确性。这里“妊娠合并恶性肿瘤”与“医学管理”都是医学术语,剩下的概念就两个:“探讨”与“最佳”。前者听起来像医生无事找事,坐茶房中磕牙来了,我倾向于用“探查”、“寻找”、“验证”之类语意不含混的动词。这里估计是探查性的研究(Exploratory study),故而选用“探查”。讨论是论文的必备成分,就不必要在此重复语义了。“最佳”与九个样本不相称,有掺文学艺术之水之嫌,改为“适当”。 【我们要】探查妊娠合并恶性肿瘤的适当医学管理。 这句话准确地表明了论文的研究目的,它应当构成英文摘要的骨架。我们的工作当然没有完,因为这句话听上去不是那么地符合中文习惯,有适当阅读基础,不难判断它的最终形式: 【我们要】探查妊娠合并恶性肿瘤的适当医学管理策略【或模式】。 在此基础上,实际上很容易包括原作者的小目标: 【我们要】探查妊娠合并恶性肿瘤的适当医学管理策略,包括减少漏诊误诊、孕期监护、肿瘤治疗、与母婴预后等。 有了前面的语言调整过程,我们的思路就被清晰化了,译出相应的英文就不费吹灰之力。 To explore the appropriate management strategies ofmalignancy in pregnancy, in diagnosis, monitoring of fetal status, cancertreatment, and prognosis for the mother and the baby. 我们可以用同样的方法处理结论: 对妊娠合并恶性肿瘤认识不足、缺乏全面的围生期监护,缺乏对病史、症状、体征的全面分析及顾虑检查与治疗对胎儿的不利影响是延迟诊断的主要原因;恶性肿瘤合并妊娠患者预后极差;恶性肿瘤不影响胎儿发育。 结论: 1)【医生】对妊娠合并恶生肿瘤认识不足 2)【病人】缺乏全面的围生期监护 3)【病人】常常被延迟诊断 4)延迟断诊的主要原因是A.医生没有针对病史、症状、体征全面分析;B.顾虑检查与治疗对胎儿的影响【而不做】 5)妊娠合并恶生肿瘤预后极差 6)妊娠合并恶生肿瘤并不影响胎儿发育 这些句意群在适当分析后可发现逻辑关系混乱,比如顾忌治疗怎么会造成延迟诊断?顾忌治疗只能延误治疗。我们把上述结论可替换为适当的主谓宾(Who do what)句群: 1)妊娠合并恶生肿瘤预后极差 2)恶生肿瘤并不影响胎儿发育 3)【病人】缺乏全面的围生期监护 4)恶性肿瘤诊断常常延迟 a. 【医生】对妊娠合并恶生肿瘤认识不足 b. 医生没有针对病史、症状、体征全面分析 c. 顾虑检查对胎儿的影响【而不做】 那么结论就可以写成: 妊娠合并恶生肿瘤预后极差,但恶性肿瘤并不影响胎儿发育。病人往往缺乏全面的围生期监护。对恶性肿瘤的诊断常常延迟,主要是因为医生对这种情况认识不足,没有针对病史、症状、与体征全面分析,以及顾忌相关检查对胎儿的不利影响而放弃之。 Patients with malignancy in pregnancy were associated withvery bad outcome, however, the malignancy had limited impact on the developmentof the fetus. The patients were not comprehensively monitored during perinatalperiod. The diagnosis of malignancies was often delayed, mainly because thephysicians were not expecting such a diagnosis, failing to analyze patients’history, symptoms, and signs comprehensively, and giving up diagnosing testsfor fearing their negative impact on the developing fetus. 在这里我省略了把简单英文句式整理成了复杂句式的过程。这个过程将在另章讨论。 在这一章中我带领读者在简化句式的基础上精准化概念,把原本复杂的句子拆成独立成句的句意群,在独立的句子的基础上我们考察表述的准确性与逻辑关系。在完成了这一过程后,我们再把精准后的独立句子合并成符合中文习惯的表达方式。由于我们有了独立的句子作为译文的基础,把合格的中文摘要译为英文就是举手之劳,往往掌握基本的英语文法后抱着汉英词典就可以完成。
个人分类: 科学普及|18821 次阅读|8 个评论
与“这个周可真忙啊”有异曲同工之妙的句子
热度 11 cutefay 2012-9-2 09:44
昨天我在网上看到这样一个句子,觉得这句和“这个周可真忙啊”有异曲同工之妙。这句话是:“一定要当上海贼王!”是一位上海小偷被捕时高喊着自己的理想。 先科普一下,《海贼王》是一部著名的日本动画篇,“一定要当上海贼王”是里面主人公路飞的口头禅。如果这样理解的话,就理解不通为何一个陆地上的小偷要高喊着“当上/海贼王”呢。但如果换一种断句方法,就明白了,人家说的是:“一定要当/上海/贼王”。 还有一个笑话,也是有这样的效果。这个笑话我稍微改编一点: A:你看我的头像牛吗? B:牛。 A:你看我的头像牛吗? B:像。
个人分类: 菲常可乐|4163 次阅读|10 个评论
我的论文很快被IEEE TKDE 拒了
热度 2 wangleboro 2011-6-28 11:21
一个月以前提交了一篇论文,感觉被中的可能性比较大,就是不中,也会有很多建议,没想到很快,一个月主编就给我拒回来了。 被拒的原因:我的论文中有很多句子和已有论文重复。 是的,我在写论文的时候,尽量想把论文意思表达好,我就参考了别人的,特别是引言和相关工作这部分,我以前也没有意识到这部分内容也不能和抄别人的。 但是这篇论文中提出的方法是我自己的,参考对比的方法也和该杂志上的发表论文上的方法,并且实验结果也很好。当我把写好的论文给导师看时,导师都很怀疑我做的实验结果(我的方法比已有的比较好的方法好很多,可能是因为很少看到那篇论文中的实验比较会相差这么远)。 我把引言和相关工作这部分又重新写了,我很想还继续投这个杂志。 投这个杂志目前最大的收获:论文中引言和相关工作也要自己写。
26727 次阅读|5 个评论
Ocean mass from GRACE and glacial isostatic adjustment
ppthelion 2011-5-27 22:29
个人分类: Study_little_thing|0 个评论
《科技汉语语法纲要》——科技汉语句子的时态
gzchengzhi 2011-5-22 20:13
第三部分 科技汉语句子的时态   科技汉语中应该明确反映出句子的时态变化,这是语法严密性的基本要求。   对汉语时态的研究目前已经积累了相当多的成果。这也反映出现代汉语的一个重要的特征。   对于什么是时态,陈立民给出的定义认为汉语时态的变化反映的是在不同的时域变化中,事件的存在方式 。另外早在上个世纪八、九十年代,陈平、张敬仪、王松茂、龚千炎等也专门对汉语的时态进行了专门的研究 。在他们的研究成果中,探讨了汉语时态助词的语法范畴等问题,张敬仪的研究还涉及到了汉语和维吾尔语在动词时态的比较问题。近十年来,随着与英语使用者的交流日渐频繁,一些学者也开始注意汉语时态的问题。一些学者建议设立专门的时态短语来反映汉语句子的时态 。   另外分析汉语句子的时态问题,另一个非常重要的领域是机器翻译中的汉语时态的处理。对于汉语本身而言,自己已经有一套表示时态的规则,但是这种规则是与英语等语言不同的。如何成功地实现汉语到英语之间的时态转换,这似乎已经成为了机器翻译领域的一个热点。   例如一些研究者探讨了在汉语到英语机器翻译过程中涉及的规则问题 。另一些学者针对采用规则的方式来确定汉语时态的困难性,提出了采用模式分类的方法来确定汉语句子的时态 。针对汉语句子时态变化的复杂性,一些学者也尝试着利用机器来确定汉语篇章的时态信息等 。   与英语句子不同,科技汉语的动词没有时态的变化,因此句子中的时态变化可以通过相应的虚词来进行指定。   单字时态虚词包括:了、已、着、过、当、曾、近、将、正、前、后   双字时态虚词包括:曾经、过去、过往、当时、已经、将要、正在、继续、以来、直到    一般现在时态: 不需要使用时态虚词。    一般过去时态: 可以使用“前”、“曾”、“曾经”、“过去”、“过往”、“当时”等。    现在完成时态: 可以使用“已”、“已经”、“过”(放在动词后面)、“自从”、“以来”    一般将来时态: 可以使用“将”    正在进行时态: 可以使用“着”、“正”、“正在”、“继续”    过去完成时态: 可以使用“了”    虚词的省略方法:   在汉语中,最直接的方式是使用虚词来表示句子的时态。一般情况下,不使用虚词来表示时态的句子是一般现在时态,但是在其他时态使用的时候经常也会出现省略虚词的情况。   1)一般现在时态可以省略虚词   2)过去时态虚词和将来时态虚词的省略依赖于时间状语。如果包含了明确的时间状语,则可能会出现省略这两种时态虚词的情况。   3)在二字时态虚词中,包含了其他的虚词,则有时可以省略其中的一个。如“将要”可以省略为“要”。   4)汉语的时态变化还可以放在一个段落中来分析。如果在一段文字中包含了时间状语,其中的过去或将来时态虚词可能会被省略。不过在科技汉语中,应该尽量避免这种情况。为了避免歧义,如果一个段落中同时包含了现在时态、过去时态、将来时态,则不应该省略时态虚词。   对于时态的组合,则不宜省略虚词,否则难以准确地表达出句子的时态。   7 现在时态   8 过去时态   9 将来时态   10 进行时态   11 完成时态   12 时态的组合 第四部分 计算机技术在科技汉语语法中的应用   13 汉语统计模型   14 N-gram模型   15 汉语的语法检查   16 拼音输入法 参考文献: 陈立民. 汉语的时态和时态成分 . 语言研究, 2002(003): 14–31. 张敬仪. 汉维动词时态的比较 . 西北民族大学学报 (哲学社会科学版), 1981, 4. 王松茂. 汉语时体范畴论 . 齐齐哈尔师范学院学报 (哲学社会科学版), 1981. 龚千炎. 汉语的时相, 时制, 时态 . 商务印书馆, 1995. 龚千炎. 谈现代汉语的时制表示和时态表达系统 . 中国语文, 1991, 4: 251–261. 陈平. 论现代汉语时间系统的三元结构 . 中国语文, 1988, 6: 401–422. 李梅. 从现代汉语角度考察功能语类–时态的设立 . 现代外语, 2003, 26(001): 22–27. 程节华, 戴新宇, 陈家骏, 等. 汉英机器翻译中时体态处理 . 计算机应用研究, 2004, 21(3): 79–80. 林达真, 李绍滋. 基于模式分类的汉语时态确定方法研究 . 中文信息学报, 2006, 20(001): 67–75. 马红妹, 齐璇, 王挺, 等. 汉英机器翻译中汉语篇章时间信息系统模型 . 计算机工程与科学, 2002, 24(004): 85–88.
6289 次阅读|0 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-6-11 16:43

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部