科学网

 找回密码
  注册

tag 标签: 搜索引擎

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

请推荐google的代用学术搜索引擎
entomology 2010-1-15 21:37
说起搜寻学术资料,了解国外同行的研究进展,真的没有比google更好用的。 但,未雨绸缪,各位君子请推荐一个可以替代的学术搜索引擎,以免鄙人成为井底之蛙而不自知。 此外gmail会受到影响么?这是我的主力信箱。 p.s. 战争中的死伤真不是炸药的错,也不是诺贝尔的错,而是把炸药当武器的人的错。
个人分类: 扯闲皮儿 Babble Chat|5043 次阅读|7 个评论
【转载】科研常用的九个搜索引擎
icstu1 2009-12-14 14:45
1、 http://scholar.google.com/ 2、 http://www.scirus.com/srsapp/ 3、 http://www.ojose.com/ 4、 http://www.goole.com/ 5、 http://citeseer.ist.psu.edu/ 6、 http://yagoohoogle.com/ 7、 http://www.search4science.as/ 8、 http://www.sciseek.com/Sample Text 9、 http://www.chmoogle.com
个人分类: F 描述场景与回溯某个实例|1342 次阅读|0 个评论
【转摘】如何把网站sitemap提交给搜索引擎(Google/Yahoo/Live/Ask)
icstu1 2009-11-23 14:19
(转)如何把网站sitemap提交给搜索引擎(Google/Yahoo/Live/Ask) Google,Yahoo 和 MSN(后来改名为 Live Search) 的搜索引擎达成协议,一起支持相同的sitemap 标准,后来 Ask.com 也加入,由于主要的三大搜索引擎都支持,对于制作网站的人来说,提供符合规格的 Sitemap 给搜索引擎,有助于自己的网页被正确的索引。 详细的中文 Sitemap 规格可参考 Sitemap Protocol 。基本上只要写出 XML 档案,将所有希望被索引的网址依规格放入重要性和更新频率及最后修改时间即可。 当网站以程序或人工的方式产生 sitemap.xml 后,告知搜索引擎 sitemap.xml 网址的方法有以下三种; 1.专用 Sitemap 管理接口 由于也过了两年多,Yahoo 和 Microsoft 的 Sitemap 支持网站也分别完成了,这篇文章就来整理各家之间的 Sitemap 支持网站。三家主流搜索引擎都需要登入,才能进入管理接口,我自己建议采用此方式来管理。 Google Sitemaps http://www.google.com/webmasters/sitemaps Yahoo Site Explorer http://siteexplorer.search.yahoo.com/ Live Webmaster http://webmaster.live.com/ MSN 经过验证后,就可以把 sitemap 提交给搜索引擎。这些网站管理工具通常可以回报用户,目前被索引到的网址和数据,也可以提醒是否档案有错误。 2.直接透过网址提交 是完整的网址 ,如 http://cgs.iblogger.org/sitemap.xml (两种都可以) http://www.google.com/ping?sitemap= http://www.google.com/webmasters/tools/ping?sitemap= (我测试时都发生 Limit exceed ,不知是否仍可用) http://search.yahooapis.com/SiteExplorerService/V1/ping?sitemap= Live http://webmaster.live.com/ping.aspx?sitemap= http://submissions.ask.com/ping?sitemap= http://api.moreover.com/ping?u= .修改 robots.txt Google Yahoo MSN Ask.com Moreover 3 sitemapurl 需要是完整的网址如 http://cgs.iblogger.org/sitemap.xml 在 robots.txt 加入一行或多行 Sitemap: 支持的搜索引擎抓到这个档案会自动解译。
个人分类: L 讲故事产生的启迪和激励|838 次阅读|0 个评论
(转)如何把网站sitemap提交给搜索引擎(Google/Yahoo/Live/Ask)
tengyi1960 2009-10-28 15:12
(转)如何把网站sitemap提交给搜索引擎(Google/Yahoo/Live/Ask) Google,Yahoo 和 MSN(后来改名为 Live Search) 的搜索引擎达成协议,一起支持相同的sitemap 标准,后来 Ask.com 也加入,由于主要的三大搜索引擎都支持,对于制作网站的人来说,提供符合规格的 Sitemap 给搜索引擎,有助于自己的网页被正确的索引。 详细的中文 Sitemap 规格可参考 Sitemap Protocol 。基本上只要写出 XML 档案,将所有希望被索引的网址依规格放入重要性和更新频率及最后修改时间即可。 当网站以程序或人工的方式产生 sitemap.xml 后,告知搜索引擎 sitemap.xml 网址的方法有以下三种; 1.专用 Sitemap 管理接口 由于也过了两年多,Yahoo 和 Microsoft 的 Sitemap 支持网站也分别完成了,这篇文章就来整理各家之间的 Sitemap 支持网站。三家主流搜索引擎都需要登入,才能进入管理接口,我自己建议采用此方式来管理。 Google Sitemaps http://www.google.com/webmasters/sitemaps Yahoo Site Explorer http://siteexplorer.search.yahoo.com/ Live Webmaster http://webmaster.live.com/ MSN 经过验证后,就可以把 sitemap 提交给搜索引擎。这些网站管理工具通常可以回报用户,目前被索引到的网址和数据,也可以提醒是否档案有错误。 2.直接透过网址提交 是完整的网址 ,如 http://cgs.iblogger.org/sitemap.xml (两种都可以) http://www.google.com/ping?sitemap= http://www.google.com/webmasters/tools/ping?sitemap= (我测试时都发生 Limit exceed ,不知是否仍可用) http://search.yahooapis.com/SiteExplorerService/V1/ping?sitemap= Live http://webmaster.live.com/ping.aspx?sitemap= http://submissions.ask.com/ping?sitemap= http://api.moreover.com/ping?u= .修改 robots.txt Google Yahoo MSN Ask.com Moreover 3 sitemapurl 需要是完整的网址如 http://cgs.iblogger.org/sitemap.xml 在 robots.txt 加入一行或多行 Sitemap: 支持的搜索引擎抓到这个档案会自动解译。
个人分类: 思想盆|3683 次阅读|0 个评论
常用的十七大学术搜索引擎
wangfq 2009-10-8 11:02
常用的十七大学术搜索引擎 1、 http://scholar.google.com/ 虽然还是Beta版,但个人已觉得现在已经是很好很强大了,Google学术搜索滤掉了普通搜索结果中大量的垃圾信息,排列出文章的不同版本以及被其它文章的引用次数。略显不足的是,它搜索出来的结果没有按照权威度(譬如影响因子、引用次数)依次排列,在中国搜索出来的,前几页可能大部分为中文的一些期刊的文章。 2、 http://www.scirus.com Scirus是目前互联网上最全面、综合性最强的科技文献搜索引擎之一,由Elsevier科学出版社开发,用于搜索期刊和专利,效果很不错!Scirus覆盖的学科范围包括:农业与生物学,天文学,生物科学,化学与化工,计算机科学,地球与行星科学,经济、金融与管理科学,工程、能源与技术,环境科学,语言学,法学,生命科学,材料科学,数学,医学,神经系统科学,药理学,物理学,心理学,社会与行为科学,社会学等。 3、 http://www.base-search.net/ BASE是德国比勒费尔德(Bielefeld)大学图书馆开发的一个多学科的学术搜索引擎,提供对全球异构学术资源的集成检索服务。它整合了德国比勒费尔德大学图书馆的图书馆目录和大约160 个开放资源(超过200 万个文档)的数据。 4、 http://www.vascoda.de/ Vascoda是一个交叉学科门户网站的原型,它注重特定主题的聚合,集成了图书馆的收藏、文献数据库和附加的学术内容。 5、 http://www.goole.com/ 与google比较了一下发现,能搜索到一些google搜索不到的好东东 。它界面简洁,功能强大,速度快,YAHOO、网易都采用了它的搜索技术。各位可以一试。 6、 http://www.a9.com Google在同一水平的搜索引擎。是Amazon.com推出的,Web result部分是基于Google的,所以保证和Google在同一水平,另外增加了Amazon的在书本内搜索的功能和个性化功能:主要是可以记录你的搜索历史。现在还是Beta,不过试用后感觉很好,向大家推荐一试 ,不过缺憾是现在书本内搜索没有中文内容。 7、 http://www.ixquick.com 严格意义上讲不是搜索引擎,是连接搜索引擎和网络用户的信息立交桥。新一代的搜索引擎应运而生,Ixquick meta-search正是目前最具光芒的新星。但是对于大多数国内用户来说,Ixquick还很陌生。Ixquick众多独特的功能我不一一介绍了,只介绍我们最关心的,搜索数据库密码。 使用方法:先进入Ixquick,以Proquest数据库为例。填入Proquest Username Password History Online后点击search,看看出来的结果,第一页中第6个,proquest的username和password赫然在目,别急,再看第4个结果HB Thompson Subscription Online Databases,即 http://homework.syosset.k12.ny.us/onlinedbs/HBTDatabases/ ,进入后发现这是一个密码页,选择Magazines Journals栏,就有 EBSCO、Electric Library Elementary、Electric Library Elementary、ProQuest Platinum (in school)、ProQuest Platinum (remote)等众多数据库的密码,都有uesrname和password,随便试一下EBSCO,OK,成功登陆。 8、 http://vivisimo.com/ cmu的作品,对搜索的内容进行分类,这样可以有效地做出选择,比较有特色。可实现分类检索,检索速度也很好,如EBSCO 密码几分钟就可找一大堆 .    http://search.epnet.com/    User ID: mountain    Password: ridge   这个密码可以试试。 9、 http://www.findarticles.com/ 一个检索免费paper的好工具。 进入网页以后,可以看到他有三个功能,driectory web article ,其中article对我们很有帮助,你可以尝试输入你要找的文章,会有很多发现的! 10、 http://www.sciseek.com/Sample 感觉不是很好用,内容也不是太多,主要靠用户添加网址,提供信息的搜索引擎,搜索功能也比较差,输入常见的关键词,往往找不到相匹配的内容。 11、 http://www.chmoogle.com 现点击后或跳转到 http://www.emolecules.com ,在此搜索引擎里可以搜索到超过千万种化学品信息或相应的供应商,与Chemblink有点相似,但提供的化学品理化信息没有Chemblink详细,与其不同的是该搜索引擎可提供化学品结构式搜索(主页上有在线绘制化学结构式的搜索框)。 12、 http://www.ojose.com/ OJOSE (Online JournalSearch Engine,在线期刊搜索引擎)是一个强大的免费科学搜索引擎,通过OJOSE,你能查找、下载或购买到近60个数据库的资源。但是感觉操作比较复杂。 13、 http://citeseer.ist.psu.edu/ 一个关于计算机和信息科学的搜索引擎。 14、 http://hpsearch.uni-trier.de/ 专家个人主页搜索引擎 15、 http://cnplinker.cnpeak.com/ 为了给读者用户提供一个方便快捷的查阅国外各类期刊文献的综合网络平台,中图公司组织开发了cnpLINKer(cnpiec LINK service)在线数据库检索系统,并正式开通运行。cnpLINKer即中图链接服务,目前主要提供约3600种国外期刊的目次和文摘的查询检索、电子全文链接及期刊国内馆藏查询功能.并时时与国外出版社保持数据内容的一致性和最新性. 点评:只提供了外文检索的功能,但是无法得到全文。个人认为不是很理想。 16、 http://guoxue.baidu.com/ 百度国学目前能提供上起先秦、下至清末历代文化典籍的检索和阅读。内容涉及经、史、子、集各部。 17、 http://infomine.ucr.edu/ NFOMIN是由加州大学、维克森林大学、加州国立大学、底特律大学等大学图书管理员建立的学术搜索引擎。它主要为大学职员、学生和研究人员提供在线学术资源
个人分类: 科研隨筆|3470 次阅读|0 个评论
被“百度”了?
entomology 2009-9-29 23:05
今天晚上有段时间浏览网页居然出现了下面的问题: 有人说hosts被劫持了,但360安全卫士查了没有问题,用记事本打开hosts也没问题。而且不是访问所有网站都会被转到百度。
个人分类: 扯闲皮儿 Babble Chat|3607 次阅读|2 个评论
互联网搜索二次革命 Bing自封的?
pkuzeal 2009-9-16 15:18
微软已经开始了其搜索引擎一系列的升级的序幕,似乎 Bing 的初战告捷给微软带来了信心。一项全新的功能,视觉搜索 能使用户看到一系列的图片而并非是链接列表,而这一功能正在进一步完善中。微软通常在每年春季和秋季对搜索引擎作大调整, Bing 这次也不列外。 视觉搜索页面是由在 Bing .com 上的一个链接开始推广的。该页面包括能提供 50 种搜索的图片库,例如影院的电影信息,宠物狗品种,数码相机选择等。如果选择例如数码相机,预览图片就会出现,可以通过类型,变焦或品牌分类排序。用户在 Bing.com 上的搜索结果也会出现查看视觉搜索结果的选项。 微软称当搜索结果出现图片时,相对于文字链接,用户得到想要的搜索结果的可能性能提升 20% 。不过目前虚拟搜索只能提供很小范围内的选项。 当被问及会有多少用户使用该功能, 微软表示目前不做这方面的预测。不过微软承认并不是所有 Bing 引进的功能都在被用户使用。例如鼠标悬浮在链接上可以预览页面的功能非常受欢迎,但另一能把搜索结果分类的功能则不被人熟悉。 微软革新的广告攻势( 1 亿美元)的确非常成功地为 Bing 带来了大量用户,目前 Bing 市场占有率为 8.9% ,比 Bing 登陆前增加了 8 个百分点。
个人分类: 未分类|865 次阅读|0 个评论
百度的提升收入和品牌的新希望-凤巢
pkuzeal 2009-8-20 22:33
在外电看来,多亏了中国经济的的增长,国内市场份额第一的搜索引擎在过去的几个季度内并未遭受收入和利润的下降, 但这并不意味着百度的发展是一路顺风的。这个在二季度市场份额达到 62% 的公司最近正遭受着搜索内容和广告内容不清的指责,同时电视台也在批评百度广告中的无证行医内容。 公司希望借助新上线的广告系统,凤巢来远离这些麻烦。在四月,百度的收入因需向客户提供各种不同的选项而下降。李彦宏在一次采访中认为新广告系统将使百度在最近的麻烦中摆脱出来。李彦宏认为新系统将吸引 40% 的现有客户,也是就约 10 万个广告主。李彦宏同时指出中国搜索引擎市场的巨大潜力。目前中国搜索市场的仅相当于韩国的规模。如果考虑到韩国不到 5000 万的人口,而中国有 13.6 亿的话,中国的市场增长空间将是巨大的。 当然在国内市场的增长还是面临着多方面的竞争,比如谷歌和阿里巴巴。李彦宏在谈到阿里巴巴是这样说到,百度是一个开放的系统,能连接到网上任何站点,而阿里巴巴(淘宝)则只能搜到其网内的信息。
个人分类: 未分类|817 次阅读|0 个评论
2009年第二期全国网络信息组织与检索高级研修班
liuysd 2009-8-10 14:17
时间:2009年9月23日至9月28日(6天) 地点:湖北-宜昌 网络信息技术是保证网络信息有效传播的基础,是一个完整的体系,渗透到了传播的每一个层面。所以,网络信息组织与管理技术虽然较之因特网自身的发展而言,具有明显的滞后性,但对于网络信息的无序与泛滥而言,网络信息组织技术仍然是最有效的方法与手段。 我们认为,网络信息传播与组织归结到技术层面,终究要以信息组织为核心,要实现网络信息的有效利用,就必须对网络信息进行有序化组织与控制,这是网络信息有效利用与传播的必要基础和重要环节。 搜索引擎通过对网络信息进行理解、提取、组织和处理,并为用户提供检索服务,不但成为了网络信息检索的首选工具,同时,也自然而然地成为了网络信息组织与利用的重要模式。因而,研究搜索引擎的信息组织对于网络信息资源的有效开发、利用与控制具有重要意义。 为了帮助广大专业人员尽快提高网络信息组织与分析能力,提高各行各业对于网络信息的利用能力,中国科学技术信息研究所于2009年9月23日至28日在湖北-宜昌举办2009年第二期全国网络信息组织与检索高级研修班。 经培训考核合格者,由中国科学技术信息研究所颁发全国网络信息组织与检索高级研修班结业证书。 现将有关事宜说明如下: 一、办班特色 检索原理从根讲起,技术实例躬身示范,前沿进展踊跃探讨。 掌握搜索引擎使用技巧;快速获取网络信息资源;优化本单位网站并提高在搜索引擎中的排名;分析挖掘网络信息;捕获搜索引擎研究热点及趋势;轻松搭建起自己的搜索引擎(提供一套可以搭建一个中型搜索引擎的源代码)。 二、培训对象 各级政府、企业、事业单位、科研院所、大专院校、咨询公司、金融证券等机构及相关部门专业从事技术开发、信息管理、信息分析、信息服务、情报研究、战略企划、产品开发、成果推广的管理与专业人员。 三、课程内容 1.搜索引擎使用技巧 综合运用逻辑表达式的组合检索、特征限定、范围限定等方法,大幅提高检索结果的精准率。 2.动态网页的内容获取方法 网站内容下载工具的使用技巧与方法;构造URL批量下载网站数据库内容;自制浏览器获取非OpenURL的网页内容。 3.网络信息挖掘 Web结构挖掘、Web内容挖掘、Web使用记录挖掘等。结合实例介绍搜索引擎日志挖掘、BBS用户行为分析、Blog用户的社会网络特征等。 4.基于开源代码的搜索引擎构建 掌握搭建搜索引擎平台所需的核心知识并且轻松搭建起自己的搜索引擎平台,从而解决费用昂贵和容易泄露机密的问题。 为达到更好的培训效果,有条件的代表请自带笔记本电脑(最好具备无线网卡)。 四、师资队伍 邀请高校及科研院所相关领域知名专家,大型软件开发公司技术总监,著名企业高级软件工程师,实力派信息分析师,资深培训师轮流授课。 五、颁发证书 培训考核合格者,由中国科学技术信息研究所颁发培训结业证书。 六、培训安排 1. 9月23日全天报到,9月24日至28日授课及业务交流。 2. 报到及培训地点:三峡宜昌龙泉山庄大酒店(湖北省交通职工教育培训中心,湖北宜昌市夷陵区夷兴大道71号) 3. 费用:2800元/人(含资料、结业证和业务交流等费用) 培训费,请于2009年9月15日前汇至以下帐户:并注明网络信息组织研修班。 户 名:中国科学技术信息研究所 开户行:中国工商银行北京玉渊潭支行 帐 号:0200232109200900593 4. 食宿统一安排,费用自理。 住 宿:三峡宜昌龙泉山庄大酒店(标准间260元,每人每天130元) 七、参加培训人员请务必于2009年9月15日前将报名表返回会务组。邮件、 从网上或传真返回均可。 八、联系办法 通讯地址:北京复兴路15号中国科学技术信息研究所(100038) 招生网址: http://www.istic.ac.cn 邮箱地址: zzb@istic.ac.cn 联系人电话:胡老师 010-58882298 传真: 010-58882296 陆老师 010-58882299 吴老师 010-58882297 原文地址: http://168.160.16.178/EducationDetail.aspx?ArticleID=87632
个人分类: 学术报告|3837 次阅读|0 个评论
基于开源代码的搜索引擎构建
liuysd 2009-6-29 15:44
6 月 25 号到威海,给网络信息组织与检索高级研修班的学员,做了一天 基于开源代码的搜索引擎构建的讲座。 主旨:掌握搭建搜索引擎平台所需的核心知识并且轻松搭建起自己的搜索引擎平台。 目录: 一、系统运行环境配置 二、搜索引擎原理 三、 Lucene 全文检索系统部署 四、 Lucene 开发解析(基础) 五、 Lucene 开发解析(初级) 六、 Lucene 开发解析(中级) 七、 Lucene 开发解析(高级) 八、搜索引擎实例 九、 Nutch 开源搜索引擎部署 根据学员的反映来看,相关知识需求量比较大,但缺口也较大!
个人分类: 最新科技|4225 次阅读|2 个评论
中国不打折
rbwxy197301 2009-6-28 13:51
2009年6月27日晚19:45,百度CEO李彦宏做客《咏乐汇》。 一来李彦宏是山西人,二来他本科在北大信息管理系就读,所以想了解一些他更多的一些信息。电视没看全,在CCTV咏乐汇官网看了网上视频。截了几张图,与大家分享。 《咏乐汇》舞台重操旧业 了解百度的人都知道,当年百度能从众多门户网站中脱颖而出,依靠的就是李彦宏的出奇制胜。依靠网络为农民推销农产品,李彦宏不仅为农民拓宽了销路,赚取了利益,更为自己的百度博得了好名声,被称为农民伯伯的好帮手。 60后的闪婚者舞动探戈 和所有的IT成功人士一样,从小李彦宏的学习成绩就特别好。19岁考入北大,23岁带着奖学金到了美国布法罗纽约州立大学计算机系。就当自己的美国梦 进展顺利的时候,教授的一句话彻底击碎了李彦宏心中的梦想。教授说了一句什么话,让你受这么大的打击?李咏好奇的问道。他问我,你们中国有计算机 吗? 为百度 扮古人 除了帅气,李彦宏身上散发更多的是才气。理工科出身的李彦宏对文科的古诗词充满了兴趣。百度的取名就来自辛弃疾的一首古词《青玉案元夕》,梦里寻它千百度,蓦然回首,那人却在灯火阑珊处。 最后这张图是百度上市过程中给老外介绍百度中文搜索价值时用过的,右边看不清的内容是汉语当中我的不同说法。 【人物小传】 19岁背上行李离开山西阳泉到梦想中的北大读书,23岁远渡重洋赴美国布法罗纽约州立大学主攻计算机,31岁创建中国最大的搜索引擎公司百度网络技术有限公司,知识改变了命运!35岁的百度公司( www.baidu.com )创始人、CEO李彦宏坐在北京中关村的海泰大厦会议室,望着北京四环繁华地段,想起这些年的寒窗苦读,感叹不已。也许是成长的人生路上读的书太多了,现在的他很少读书了。我认为上网比较好,书上的知识都比较过时,在网上什么内容都可浏览。 然而,正是北大的信息管理专业让他深谙搜索内涵,正是美国的计算机学业让他掌握计算机工具,正是互联网让喜欢新事物的李彦宏激动不已,原来还有个世界如此美妙。 美国8年人生历程,西方文明改变了李彦宏的人生观。李彦宏亲身感受了硅谷 的腾起:他先后担任了道.琼斯公司高级顾问、《华尔街日报》网络版实时金融信息系统设计者以及在国际知名互联网企业-Infoseek资深工程师。他为 道.琼斯公司设计的实时金融系统,迄今仍被广泛地应用于华尔街各大公司的网站,他最先创建了ESP技术,并将它成功的应用于 Infoseek/GO.COM的搜索引擎中。 硅谷文化深深影响了他,硅谷的完全投入模式和从零开始,一切为了股票上市的风格,失败是允许的时过境迁,读1999年李彦宏专著的《硅谷商战》一书仍让人心潮澎湃。当时身在美国硅谷,每天看到商战无数,李彦宏问自己:再去加入这场商战是不是已经太晚了?可是按照信息经济现在的发展速度,谁又能够负得起不参战的责任呢? 他要参战!在美国一批搜索引擎公司已崛起,而他选择了回国创业。他回忆这段人生抉择时说,我小时候有很强的不服输心理,越是大家不看好的事,我越是要做成。1999年底,李彦宏携120万美金的风险投资回国与好友徐勇先生 共同创建百度网络技术有限公司,并在短短6个月的时间内完成目前中国最大、最好的中文搜索引擎的开发工作。众里寻他千百度,蓦然回首,那人却在灯火阑珊处。在经历了阳泉-北京-硅谷--北京后,他才发现原来19岁时所学的北大信息管理专业就注定他终身的追求在搜索上。 Jupiter研究公司高级分析师Matthew称,搜索是了解和影响用户行为的一个最大的机会。李彦宏打出口号:活的搜索 改变生活。 搜索是百度成功的所有秘密,李彦宏说:这是互联网用户最常用的服务之一,越来越多地影响着互联网产业,百度就是一个明证。 在硅谷的日子,让李彦宏感受最深刻的还是商战气氛。他经常翻看《华尔街日报》:微软如何跳出来公然反叛IBM,又怎样以软件教父的身份对抗SUN、网景...一个个鲜活的商战故事,让李彦宏感觉到:原来技术本身并不是唯一的决定性因素,商战策略才是真正决胜千里的因素。 他的合作伙伴谈及对李彦宏的最大印象时,不约而同都说了睿智二字。在 3年多来的合作中,令合伙人徐勇意外惊喜的是,李不仅有技术背景还对商战有敏锐的直觉和出色的判断。2002年5月从用友到百度担任副总裁的朱宏波对李评价也是:虽然以前从事技术工作,但他的商业思维和市场眼光非常独到,对搜索产业方向的把握和商业竞争的规律和规则理解得非常到位。也许这与李彦宏在硅 谷的耳濡目染有关,也许与在美国股市小试牛刀,关注股市起伏与公司战略间的关系有关。李在炒股时,在纯粹的美国股市环境中,从很多公司的业绩、决策等分析 到股票涨、跌的关联,从中得到商业成败的关键。 创业与守业没有哪家公司会一帆风顺。在百度成立初期,有记者写文章八问百度,其中很多问题针对其客户资源和利润增长点。现在看来,当初的一些担心并非多余,百度成立半年内狂扫国内门户网站,占领了国内搜索引擎80%的市场,但后来一些客户投靠了GOOGLE, 有的自立门户自己开发搜索,市场的竞争是残酷的。李彦宏总结百度风风雨雨4年中,面临了两次重大挑战:一是创业初期,拿着120万美金做公司,原计划花6个月花光的钱公司做了一年计划,所以坚持到9月等到第二笔融资。如果烧钱,就没有今天的百度。第二次是当世界所有使用人气质量定律的搜索引擎公司要么遭人 收购,要么推迟上市时,百度根据李彦宏总结的搜索引擎第三条--自信心定律推出竞价排名。定律指出,搜索结果的相关性排序,可进行竞价拍卖。谁对自己的网站有信心,为这个排名付钱谁就排在前面。这样开创了真正属于互联网的收费模式,使百度的目标群体瞄准数十万的中小企业网站。 李彦宏找到了搜索引擎的出路。面临市场变化,见过无数硅谷商战的李彦宏也 在变化中求发展。现在的百度,以搜索网站和竞价排名为主要的业务增长点,以国内数量巨大的中小企业为主要客户。这与他和徐勇为拿到第一桶金,而向投资人递 交商业计划书内所写的做门户网站的生意大相径庭。 管理者的决策是这样形成的:听大数人的意见,和少数人商量,自己做决定,李彦宏就做到了。 朱宏波这样评价道。 推出竞价排名并实施闪电计划对百度实行第二次技术升级后,2003年年中的财务报表的显示李彦宏的的赌注压对了:据美国alexa统 计,百度现在已经是全球第二大的独立搜索引擎,在中文搜索引擎中更是遥遥领先,名列第一,近期排名上升趋势十分明显,再加上2000多个联盟伙伴,通过竞 价排名,当6800万中国网民通过搜索引擎寻找各种信息,80%以上的用户会看到由百度提供的结果。 今年百度的收入将是去年的四到五倍。7月,在接受《福布斯》记者采访时,一向谨慎的李彦宏高兴地向外界透露。 有人评价百度的成功在于:目标明确,市场定位准确。而且头脑冷静,不跟 风,不抢潮。用这句评语描述其创使人李彦宏的性格特点也是非常适当的:他知道自己想要得到的是什么,他一直坚信ASP商业模式必将获得成功,他知道自己所 专注的,而别人做不到同样程度的就在搜索领域;在互联网高潮时,他能预言对于国内公司的烧钱做法,国外的投资人要吃亏,在互联网低谷时他能鼓励员工不要看 到眼前利益要把眼光放得长远些 经历恶风巨浪,李彦宏承受了来自各方的压力,让足够少的人知道风浪,掌舵百度一路乘风破浪。 有人曾说:世界上多数优秀的程序员天 生偏执狂,总会认为自己做的东西才是最完美的。李彦宏不编程已有很多年了,这种性格特点在他作为公司最高管理层时并无体现。他说他自己还有很多不足,他知道自己不是正规化的职业经理人,他想学的东西还很多,他能侧听别人的想法,在公司内部会议主张大家自由交流,甚至为了讨论可以不给我面子。 这个公司的创业因子,带有浓烈的硅谷文化,并在中国本土继承和发扬。没有严格的等极观念,可以自由的发言。随着公司的扩大这种文化还在延续。但一旦讨论成为决策时,就要不折不扣执行。 李彦宏稳健的风格不是他的同龄人都能俱备的。于是百度又秉承了这种风格,在过去4年中,一步步从8个人发展到了150人;从拿到DFJ第一笔融资到现在传闻摩根士丹利、高盛、瑞士信贷第一波士顿等公司都在积极录求百度海外上市的合作;从第一个客户硅谷动力发展到现在的2万客户。 海外归来也在适应中国的环境。2000年1月1日,李宏彦面对5个员工宣布了两条公司制度:公司里不许抽烟和带宠物。共同的海外背景面对同样的本土环境,李宏彦和合作伙伴徐勇分别负责技术和销售,4年来一直是密切合作与互补的关系,虽然有分歧,有争吵,但遇到困难时大家同心协力一起扛过去。 在浮躁的互联网产业,李彦宏以一种另类的平和心态,不急功近利,不随波逐流,在专注经营搜索领域中自己这一亩三分地。 所有百度的华尔街投资人对百度公司的运作非常满意,专注的技术发展,节俭的支出,仍取得了公司整体价值的提升的成绩。 李彦宏帅气的长相加上儒雅谦和的性格,容易给人亲和感。然而内向的他却不擅长与人交往,更像社会的观察家。无论在公共社交圈还是平时的运动中,他更多时间沉默不语,在观察着这个社会和这些人与事。 他的生活是简单的,每天花费时间最多的就是上网,在美国学习时开的是二手的本田,现在回国创业后仍是开本田车。因为家人在硅谷,他每3个月去一次美国用两个星期时间与家人团聚。 内秀的性格让人以为他不会做秀。可是2002年底的百度激情夜 李彦宏的出场让人有张朝阳的感觉:又一个做秀的CEO。百度市场总监毕胜对此评价:Robin(李彦宏英文名)放在哪里哪里亮。 李彦宏的爱好比较广泛,像打高乐夫、滑雪、游泳等,玩伴多数是在硅谷时认识的工程师朋友还有公司的同事,合作伙伴、大学同学等。 像很多硅谷技术人员的理想一样,李彦宏的理想是希望靠技术改变世界。希 望自己做的事能改变大多数人的生活方式,让足够多的人受益,这是我的人生理想和目标。无论当初做Infoseek还是现在做百度,我看到每天有上千万的人在用自己的技术,大家从中受益了,我心里就特别高兴,觉得对社会做出了贡献。而且现在这个社会越来越趋向合理,你对社会做出贡献了,社会也会给予你同样的 回报。 对于很多创业者来说,如果说创业者是为了赚钱和发财,这种心态通常使之抵御风险的能力非常低。而创业者如果认准了要做事做出东西来的初衷,一旦做成,社会会给你同样的回报,财富随之而来。 管理公司4年,李彦宏经常会感觉自身还有许多地方需提升。我毕竟不是一个受过正规训练的职业经理人,现在要做职业经理人做的事情。有时候,遇到自己从来没有见到的事情,都要靠学习甚至感觉来做事。他希望如果有一天能够找一 个合适的CEO的时候,让自己更轻松一些。他甚至想到了到时候退休,退休以后周游世界是我的生活理想。其实,在高中时候的李彦宏,个人兴趣并不在理 科,他对历史和地理兴趣更大。 有一定经济基础后我就一直想到处看看,然后在自家园子里种些蔬菜、水果之类的东西。 李彦宏的眼光穿过记者,望着远处,呈现满眼的向往。 那时候技术实力也不够,花市场费用可能两块钱才能取得一块钱的效果。现在技术成熟得到认可,那么市场方面一块钱取得两块钱的效果时,我们就会大力投入了。 资料来源: http://bbs.cctv.com/viewthread.php?tid=1020849page=1extra=page%3D1
个人分类: 生活随想|3872 次阅读|1 个评论
百度联合清华出版教材
rbwxy197301 2009-6-4 15:24
今天在百度定制的新闻中发现,百度联合清华出版搜索引擎技术方面的教材。这对于我们了解搜索引擎这一互联网核心技术是一个非常难得的。期待这样的教材早日出版。 搜索课程进入高校教育体系 百度联合清华出版教材 作者:D3D 编辑:D3D 2009-06-03 17:16:04 本文转载自:http://news.mydrivers.com/1/136/136274.htm 近日,记者获悉,在搜索引擎公司百度与清华大学的联合推动下,国内首本关于搜索引擎技术基础的培训教材即将出版发行,并将纳入到普通高等教育十一五国家级规划教材体系之中。此前,百度已经分别在华中科技大学及清华大学成功进行了搜索引擎技术基础课程的试讲,并获得师生们的一致好评。对此,业内专家评价认为,百度此举将大大填补我国在搜索引擎技术教育领域的空白,为国家培养出更多优秀的高科技信息人才奠定坚实基础。 搜索引擎与芯片、操作系统、数据库并列为信息技术领域四大高地,尤其是伴随着全球互联网及信息产业的高速发展,搜索引擎技术水平更是成为衡量一个国家在信息科技领域的发展水平和国际竞争地位的重要指标。然而,由于搜索引擎属于典型的交叉学科、跨世纪新兴学科,涉及计算机处理、云计算、计算机存储、人工智能、信息处理、交叉语言检索、多媒体检索等多个技术领域,较为复杂,在中国现有的高校教育体系中,搜索引擎技术培训领域尚属空白。 通过在高校开设搜索引擎技术培训课程、出版教材等一系列举措,百度对我国搜索引擎教育体系的建立和完善意义重大。对于百度此举业内专家评价颇高。在专家看来,拥有独立知识产权、服务于超过3亿网民的百度,是世界上少数几个掌握搜索引擎核心技术的公司之一,有着全球领先的技术研发团队及丰富的市场实战经验。而此次引入高校的搜索引擎技术基础课程,是百度在其多年来技术及实战知识的积累之上,特别针对高校学生的学习模式而量身定制的,因而极具实用价值。另外值得一提的是,全球最顶尖的搜索引擎技术专家之一、在世界搜索技术、网络社区和广告业务模式等领域公认的领导者、百度首席科学家威廉 张(William I. Chang),极富前瞻性的中国自主创新科学技术领域顶尖专家、有技术天才之称的百度CTO李一男,在数据挖掘、信息检索、自然语言处理、模式识别和金融数据分析等软件研发方面极具经验的百度高级科学家洪涛等百度公司的技术大鳄们,也都将参与到搜索引擎技术基础课程规划设置、教材撰写乃至具体的教学之中。对于高校学子而言,能够获得这些大鳄们的指点,无疑将是极其难得的机遇。 在当前基于互联网的新一轮世界信息大战中,能否掌握搜索引擎这一互联网的核心技术,已经不仅仅关于个人和企业的发展,更是上升到了国家科技竞争力及信息安全层面。清华大学计算机系刘奕群副教授介绍称,优秀搜索引擎技术人才对于中国未来科技发展的重要性不言而喻,然而,现行的计算机专业课程体系中较少有对搜索专业技术知识进行系统讲授的课程,要培育出更多优秀的中国自主的搜索引擎人才,需要企业与高校的共同努力。刘奕群称,百度作为全球最大的中文搜索引擎公司,在搜索引擎技术方面位于全球领先地位,此次其能通过授课、编写教材等形式,与学术界分享搜索引擎领域的最新技术进展,必然将为中国的信息产业发展及高科技人才培养作出积极的贡献。 实际上,除了联合清华大学出版搜索引擎技术教材之外,早在两周前,百度便已启动了面向全国高校的技术公益巡讲活动,首批覆盖北京、上海、武汉、西安、哈尔滨等五大城市的数十所高校,未来还将逐渐拓展。这也是百度自5月初启动百度之星程序设计大赛、开启三条绿色校园招聘通道之后,在高科技人才培育方面做出的又一重要举措。
个人分类: 生活随想|3294 次阅读|1 个评论
院士候选人与搜索引擎
热度 1 ranshao 2009-5-27 22:06
值2009年两院院士增选有效候选人名单公布之际,从事准科研的本人着实也关注了一把。 相信院士在大部分学生心中都有着至高无上的地位,上了大学,可以有很多人不佩服领导,却少有人不服院士。 有名候选人某某某的上榜引起了我的兴趣,于是我于著名搜索引擎Google上键入院士 某某某,只是想了解一下具体情况。 无意间,我发现Google页面据当地法律法规和政策,部分搜索结果未予显示下方的相关搜索:中10个关键词里有6个居然是:某某某贪污、某某某腐败、某某某涉案、某某某内幕、某某某肺癌和某某某被抓。这令我大为不解,于是我去掉院士一词再搜,发现页面下方只剩下据当地法律法规和政策,部分搜索结果未予显示而没有了相关搜索:的关键词。(注:相关搜索条目出现的词通常是反映搜索率高低的) 于是我又上了另一个著名搜索网站baidu,键入同样的院士 某某某,回车,页面下方居然没有出现据当地法律法规和政策,部分搜索结果未予显示,窃喜。可是与Google大不同的是,相关搜索:中10个关键词居然没有一个提到某某某,这些关键词分别是:中国科学院院士、中国工程院院士、两院院士、2009院士、中科院院士、院士评选、工程院院士、院士名单、院士候选人和双聘院士。于是我再去掉院士一词再搜,这下总算统一了,跟Google一样,没有了相关搜索:的关键词,只剩下据当地法律法规和政策,部分搜索结果未予显示。 综上,我得出似是而非的几条结论(下面之一或之二): 1. 上Google搜索的人与上baidu搜索的人关注的焦点似乎颇为不同,他们似乎不是同一群人; 2. Google与baidu本身对关键词的筛选处理不同原则性的不同; 3. 就本次搜索而言,想搜到更全面的信息,搜索词条时应该动动脑经,否则搜索结果必含与法律政策所不容之内容。 请问大家,我该上哪个搜索引擎?
个人分类: 生活点滴|3430 次阅读|2 个评论
《信息检索系统导论》的编辑手记
maywuyi 2009-2-4 09:49
2008-2-29 秦老师作为代表签了合同,说6月交稿。这本书论述搜索引擎的基本理论与开发方法。市场上较多的是关于图书馆的信息检索,介绍的是如何使用检索工具,而介绍搜索引擎技术的书很少。本书基础篇讲解信息检索这门课必须掌握的基本概念、基本原理和基本技能,包括:绪论、信息检索模型、信息检索的评价、文本处理、查询(Query)处理、索引与检索、Web搜索。高级篇讲解近年来出现的最新检索方法或者研究动态,包括:文本过滤、文本分类和聚类、问答系统。 2008-6-21 6月10日,秦老师按时交稿了。按时交稿值得写吗?对,按时交稿太不容易了,秦老师多忙啊。最近她牵头又接了一项新的工程,见下面的链接,他们实验室有报道:秦兵老师获得一项国家863项目资助,题目为基于实体关系的文本内容挖掘与集成技术平台。这是5月的事情,又搞科研,又教学,还有时间写教材,那需要多大的精力和能量才能作到啊,真是佩服。 我们的朱编辑正好有时间加工这个稿件。朱编辑可有耐心了,还有丰富的编辑经验,更重要的是,她的责任心着实让人钦佩,稿件交给她我就放心。为了更好地了解秦老师的工作,我上到他们的网站,看到许多许多故事和成绩,让人感动。尤其是登上刘挺老师的博客,看到大家式风范的博文,让人受益匪浅。刘挺老师的博文有丰富内容,从科研方法到最新研究,从记忆中的细节到生活哲学,立体地刻画了一个博导的风貌。而且文笔流畅、朴实生动,深深打动了我,让我流连忘返,直到凌晨才离开计算机。下面有相关链接。 http://blog.sina.com.cn/tliu7221 2008-7-3 信息检索系统导论在China-pub上提前预告了,地址见下面的链接 http://www.china-pub.com/208974 。刚开始预告就有人评论了,心理特美。自己几天来连续晚上加班看稿子,心理也得到了平衡。我一定仔细做好这本书。 看稿子的过程很费劲,书稿中含有大量数学公式,算法分析,别说看不懂数学公式,就光这些内容如何表达就让我和朱编辑大伤脑筋。使用怎样的字体?怎样的格式?都关乎读者的阅读体验。让一个内涵复杂的图书表达清楚,着实费劲。在读稿件的过程中,越发佩服朱编辑,她怎样在三周的时间里提出了447个问题?让作者都感到吃惊。只要有一点表达不清楚的地方、可能错漏的地方,朱编辑都不放过。没有多年编辑工作经验是发现不了这么多问题的,没有很高的责任心也是做不到这点的。朱编辑提的问题类型如下:1. 术语如何定义才清楚,语法才规范,绝不含糊。2. 英文术语不好翻译,但是规定都要翻译中文的,如何翻译才合理。3. 术语前后是否表达一致。4. 语言表达是否流畅。 2008-9-10 我们已经编辑完并校对完全稿。打算请人进行评议。我联系了几个老师,他们异口同声地说认识刘老师和秦老师,很愿意仔细读这本书。可见刘老师和秦老师在业界的影响。大连理工大学的林鸿飞教授写了一篇中肯的书评,记录如下。 信息检索课程的示范教材-----读《信息检索系统导论》 随着因特网的日益普及,它已经渗透到我们生活的各个角落,改变着我们的生活方式和思维方式。搜索引擎作为人们使用因特网的重要入口,引起人们广泛的重视和关注。尤其是以谷歌和百度为代表的搜索引擎公司的兴起,很多的青年学子对于搜索引擎技术产生了浓厚的兴趣,在高校的校园内,与搜索引擎相关的课程和讲座也日益火爆。在这种潮流之下,急需一本合适的教材,引导学生系统地学习基础理论和算法,冷静地思考信息检索的核心问题和未来的趋势,积极地参与因特网的搜索引擎及其相关领域的研发活动。哈尔滨工业大学的刘挺教授和他的同事编写的《信息检索系统导论》正是这样一本学习和掌握信息检索理论和技术的好书。它具有很多独到之处,颇具特色。 (1)该书系统地梳理了信息检索及其相关概念,因特网的特征之一就是海量信息,同时相关概念也是目不暇接,层出不穷,本书系统地论述了这些相关概念之间的区别和联系,例如情报学领域的信息检索和计算机领域的信息检索、信息检索与搜索引擎、文本挖掘和数据挖掘、信息检索与自然语言处理、分布式计算、数据库等之间的关系、信息检索中的关键技术及其应用研究等。 (2)信息检索是正在发展的技术,存在许多需要完善和改进的地方,还不断涌现新的应用需求,因此需要将学习、研究和应用集为一体。该书将最新的科研成果融入教材之中,例如隐性语义分析、统计语言模型、本体论以及信息过滤和问答系统。内容安排详略得当,深入浅出,即强化了学生对于基础理论和算法的学习,又满足了对于学生对于目前研究前沿技术的渴望,进而鼓励和引导学生去解决目前搜索引擎中存在的问题和不足。由于作者在信息检索领域取得了出色的研究成果,积累了丰富的研究经验,积淀了大量应用案例,因此举例生动、数据详实、简明有效。 (3)面对因特网上海量信息,如何评价检索系统的性能优劣是人们比较关心的问题。设计检索算法是必要的,但是如何评价检索算法也是必须掌握的,这对于培养学生严谨的学风很有帮助。该书在介绍信息检索各种模型和应用的同时,详细介绍了相关的评测指标和评测办法。而且对于美国的NIST和DARPA主持的TREC,日本的NII主办的NTCIR和欧盟主办的CLEF以及国内的863评测和SEWM评测进行了比较详尽的介绍,使学生可以通过专门的技术评测来学习和评价各种信息检索技术。 毫无疑问,该书的出版将会对信息检索课程建设起到示范作用,帮助更多的读者提高对信息检索的兴趣,对于信息检索领域的研究和应用将产生积极的影响。 2008-12-9 《信息检索系统导论》终于出版了。从9月到12月,反复修改多次,作者也看过三次,去印刷时还是怀着忐忑的心情。封面设计、装帧、印刷都很好,拿到样书时喜悦的心情无以言表。忽然发现在目录上有一个错字,唉,心里别提多懊恼了。最后一次样子没有看,因为只修改几处,大意了。时间拖了很长了,为了赶时间,还是由于兴奋而放松了心情,总之都不是理由。只好拉回印刷厂重新修改。为一个字重新印刷的费用很高啊,真是一字千金。
个人分类: 读书笔记|4633 次阅读|0 个评论
现代信息检索原理与技术——出版一本科技图书的过程(待续)
maywuyi 2009-2-3 10:46
第1次见到王老师是在2008年的春天,五月的北京已经春深似海,阳光灿烂。尽管在网上与王老师聊过很多次,但是从来没有见过面。因为有过很多话语交流,王老师的形象已经在我的脑海里形成:有敏捷的思维头一般比较大,说话很快会比较瘦,话语很有吸引力两眼有神采。见面后果然有八分像,只是他独特的个人魅力只有当面才能感受到:他那睿智的双眼、微笑的嘴唇更能生动地描绘出一个智者的形象。 第二次见到王老师是在2008年11月15日北京清华的NCIRCS 2008会议上。我们只用很短的时间聊了一会儿。要知道,听智者一句话胜读一年书啊,一会儿的时间我听了王老师的很多句话,真是胜读很多年书。 王老师打算出书的题目是《现代信息检索的技术与实现》,计划明年交稿。这会对搜索引擎技术领域做出贡献。他的书尤其对打算进入搜索引擎技术领域的年轻人有很好的指导。我们期盼着。
个人分类: 读书笔记|4143 次阅读|3 个评论
搜索引擎与社会科学研究
timy 2008-11-18 10:17
2008年11月15~16日在清华大学召开了第四届全国信息检索与内容安全学术会议。本来想pt(旁听)两天的,但由于周日(11月16日)要赶回南京备课,所以只听了11月15号的报告。大会的三个主题报告分别是:北京大学李晓明教授的天网搜索、天网大全、天网荟萃从几个实例看引入时间维后的新空间、中科院计算所白硕研究员的搜索技术业态分析与展望以及阿里巴巴总架构师王坚博士的Internet as infrastructure for data-intensive computing。 个人感觉,第一个报告是相对富有启发性的报告,并且理论结合实践。也许学术会议需要产业界的参与,因为有些研究本身就是应用驱动型的,另外,更重要的是很多大公司会提供会议赞助,嘿嘿。 摘记第一个报告的一些要点如下: 1. 引入时间维度后的新空间。 李晓明教授将传统的互联网信息引入时间维度后,由此带来一系列的应用问题(如事件报道,历史搜索,人物追踪等),并衍生一系列需要研究的问题(如信息类型问题、时间确认问题,网页消重问题等),这个过程可以概括为信息空间-应用空间-研究空间。 2. 搜索引擎与社会科学研究。 基于天网大全( http://www.infomall.cn/ ,以前叫中国Web信息博物馆),可以进行事件跟踪报道、进行历史事件搜索,网络舆情检测,这些工具可以给社会科学研究者提供很好的研究素材和大量数据。 (博主注:好像几年前,李晓明教授就在一些会议上,提出将搜索引擎和社会科学研究结合起来的设想。按他的原话物理,化学等学科都有基本的仪器,那么社会科学也应该有自己的基本研究工具。社会科学研究者,在利用历史文献、数据时,借助于搜索引擎可以提高工作效率。利用搜索引擎对用户行为进行分析,本身就涉及到信息科学、新闻传播学、社会学、心理学等多学科交叉问题)。 3. 若干需要解决的技术问题。 主要包括:网页类型的识别、网页发布时间的确定、网页版本数的控制、相似文档检测、人物跟踪报道中的若干关键技术等。李晓明教授演示了,在地图上展示关于一个运动员的舆论变化情况。 从 天网荟萃 截几个关于姚明演示图如下:
个人分类: 研究方法|4872 次阅读|3 个评论
从IPO分析未来的搜索引擎
huabolin 2008-10-24 12:27
从IPO分析未来的搜索引擎 化柏林 ( 中国科学技术信息研究所,北京 100038) (发表于《情报学报》2006年增刊) 摘 要 本文主要从搜索引擎的爬行范围、对网页内容的分析处理以及用户查询接口三个方面分析了搜索引擎的最新进展,并根据技术发展的规律以及人机交互的需求对搜索引擎的信息采集、信息分析、信息提供三大处理过程和支撑资源的建设等方面的发展作了相应的分析与从预测。 图1. 搜索引擎发展趋势图 一 . 信源Input 二代搜索引擎的URL是直接从html文件中析取出来的,是字符级匹配的过程。 三代搜索引擎能够爬行以数据记录为内容的网页。 四代搜索引擎在爬行过程中还多了一个自动注册机。 五代搜索引擎能够对私有数据进行搜索,当然异构数据的查询也早就实现了。****************************************************** 二. 分析处理Process 二代搜索引擎主要利用分词技术,词根词干分析技术,词语同现及频率分布。 三代搜索引擎不再停留在词的层面,深入到句法层面,对句子的结构、句子成分及词汇短语在句子中的功能进行分析;对于图形图像涉及到颜色、纹理、形状的分析;对于音频涉及基音、音强、音色,对于视频涉及到帧结构、镜头运动方式与切换方式等 。 四代搜索引擎将深入语义层面,深入理解句子的意思,理解图像的含义、音频视频的内容,这时对于不同媒体格式的数据可以达到统一。 五代搜索引擎将穿越语义,在充分理解各种语义的基础上,能够分析文献的写作手法、修辞方式,能够推敲语言的妙用。 三 . 信宿Output 二代搜索引擎输入的是文本,输出的是文本、图像、音频、视频。 三代搜索引擎可以实现出入口同媒体,通过输入自然语言的句子来进行文本的搜索,而对于图形,可以输入示例图形,也可以草图查询。 四代搜索引擎可以实现输入与输出是不同的媒体,如果没有相应的媒体数据,可以由系统生成。 五代搜索引擎不仅可以生成相应的音频和视频,还能够准确地配以空间属性,以地理属性的可以进行全球定位。 ******************************** 从IPO分析未来的搜索引擎
个人分类: 信息检索|4783 次阅读|0 个评论
Google搜索引擎技术实现探究
huabolin 2008-10-24 12:25
Google 搜索引擎技术实现探究 化柏林 ( 中国科学技术信息研究所 北京 100038) (发表于《现代图书情报技术》2004年年刊) 【摘要】 本文从技术的角度剖析了Google搜索引擎的体系结构与工作过程,详细介绍了基于Robot的网页搜索、标引入库和检索引擎三大模块,统计了Google的技术数据,并分析了Google的技术实现特点,解释了Google检索的种种现象 。 ************************************************** 系统总框 : Google搜索引擎从功能上分为三大部分:网页爬行、标引入库和响应查询。 ************************************************** 模块一: 网页爬行 网页爬行模块主要由URL服务器、爬行器、存储器、URL解析器四大功能部件和资源库、锚库、链接库三大数据资源构成,另外还要借助标引器的一个辅助功能。 ************************************************** 模块二: 标引入库 标引入库模块由分类器和标引器组成。标引入库模块处理大量的文件和数据,用来构建庞大的数据库,主要涉及数据资源库、词典库、链接库、桶等。桶的结构与内容非常复杂,有关桶的操作是本模块的核心。 ************************************************** 模块三: 响应查询 响应查询模块主要由网页级别评定器和查询器组成。查询器运行在Web服务器上,并用DumpLexicon产生的词典、倒排档索引和PageRanks一起来响应查询。网页级别评定器借用了图书文献里的参考文献与引用文献的评价思想,利用链接网页的数量及重要性进行等级评定,而链接网页的重要性由它的链接网页的数量及重要性决定,因此是一种迭代计算。 ************************************************** Google搜索引擎技术实现探究
个人分类: 信息检索|4648 次阅读|1 个评论
谁来救百度
gothere 2008-10-12 22:45
一 百度VS谷歌 我百度用的不是很多,因为百度没有这样的功能:1 跨语言搜索和即时翻译 2 学术搜索 3google book有很多英文好书 4 google earth、mars、moon、sky可以看地球看星空 用百度,是因为google没有百度贴吧、知道、国学。 可是百度所长不是google所短,而google所长正是百度所短。因为贴吧、知道和国学是任何网站都可以做的工作,google一样可以搜索到。而百度在上述4个方面的短缺恰恰都是搜索本身的技术。 如果往未来看,我预测google会推出如下搜索:1 图片模糊匹配:用户提交一个图片,google返回相似的图片和网页; 2语音检索:提交一段文字或语音,自动返回相关语音或文字; 3 多语言即时搜索:提交任意一个语言的检索串,得到各语言、各国家的网页结果; 4还有一些就不说了,留着自己找工作时再说,呵呵 总之,就上面4个加上我说的3个,百度在搜索的对象(文字、图像、语音、宇宙地理)、语种、专业领域方面大大落后于google,且不说google在软件、硬件、商业界的多多动作。虽然百度也在不断发展多语种的搜索,但在搜索的基本技术方面依然存在瓶颈。 二 常见的误区 今天看到李一男跳槽,确实说明了百度发展的决心,不过个人以为百度更应加强与高校的合作,加强研发力度。品牌的树立也是很关键的因素,蛋糕做大,分食者也更快意。 下面说说几个常见误区: 1 聚类引擎能击败google。聚类算法本身不是特别复杂,没有实在的核心机密算法的话,google的天才们瞬间就可以实现并赶超,就像vivsimo挑战google,google干脆就推出了自己的子品牌搞聚类引擎。 2 个别语言的搜索还是本土引擎做的好。随着google全球战略和人才全球化本地化,这基本也不存在什么差别。 3 和google比拼索引的页面数量。google已经不再公布自己的索引量。为什么呢,不是因为google的搜索算法好,不要求过多页面,而是google实在保存了太多的页面,按照时间来保存;用户的搜索浏览记录也一一记下;我不知道他们的数据中心到底有多大的存储能力,但这个世界上应该没有哪个公司在文本的存储方面超过他们了。 三 如何与google大哥争口饭吃 我想啊想,办法还是有的,因为搜索还有太多的技术有待攻克。只要在以下某方面获得自主知识产权和核心技术,吃饭还是不成问题的: 语言分析理解技术;语言生成技术;图像识别搜索技术;语音识别搜索;跨语言翻译技术;超大规模数据分布处理技术等等。 我想,搜索一词本身才是最大的误区,做好搜索引擎的根本目的,或者说挣钱的根本点在于满足人们对于各种媒体、各种信息和知识的了解、搜索、把握、存储、管理等等处理的需要。在未来,搜索一词一定会被替代,人们将在脑力活动方面得到极大的拓展,google老大还得为我们做出许多perfect的艺术品来。
个人分类: NLP|3937 次阅读|2 个评论
谁向搜索引擎举起了砍刀?
liufeng 2008-9-9 17:30
作者:刘锋 应该说淘宝封杀百度正体现了互联网对搜索引擎暴利的一种反应。淘宝通过构筑电子商务平台,投入大量资金进行广告宣传,吸引商户发布有价值的商品购买信息,这些信息的价值首先构成了淘宝网的财富基础,百度,google通过网络蜘蛛轻松掠取了淘宝的信息,由于知识,信息的可重复消费性,淘宝,新浪,sohu,网易,人民网,天涯论坛等互联网内容服务商为搜索引擎提供了源源不断的财富。 我们在威客理论中指出知识的产生要花费原创者大量的时间和经济成本,因此人们把自己的知识阐述出来,并形成的网页也就蕴含了一定的价值和使用价值。据 Google2008年7月 最新公布的数据: 1998 年 Google 索引的页面是 2600 万, 2000 年是 10 亿,到 2008 年这个数字是 1 万亿。因此 Google 页面拥有量N是以指数函数增长,成本C以线性函数增长。我们形成如下图示。 事实上百度等搜索引擎同样符合这个图形,如果互联网没有任何一种力量对他们的暴利做出反应的话,也许未来的10年里,百度和google就可以买下整个世界。但互联网还是产生出制衡方法,第一是一些网站开始禁止百度和google的抓取动作,第二是越来越多的网站要求与百度和google进行商业利益分成。把唱片公司,出版公司起诉google的事件与淘宝封杀百度联系起来看,互联网背后的进化力量已经开始对搜索引擎举起的砍刀。 极端情况下,如果所有的互联网网站都封杀百度和google,或者所有网站都要求与他们进行利润分配,百度和google必将元气大伤,由于互联网网站各自的需求并不相同,因此这种极端情况并不会出现,但类似淘宝的封杀行为将越来越多,不断打击百度和google的利润。我们在互联网进化论中也指出灭亡百度和google将不是这种封杀行为,而是互联网三维时代的到来。 欢迎访问:1。 互联网知识价值化公式-龙公式 2。 世界第一个互联网进化示意图 3。 世界第一张互联网虚拟大脑结构图 4。 互联网进化断代史 5 威客理论与互联网进化论官方网站 http://www.witkey.com
个人分类: 互联网进化论|3330 次阅读|0 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-26 15:05

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部