科学网

 找回密码
  注册
科学网 标签 本体 相关日志

tag 标签: 本体

相关日志

七个字蕴含着学问体系的基本逻辑序位耐人寻味
geneculture 2018-6-21 12:08
序位匹配层级-邹晓辉 2018-06-21晨Vichy 文法和数理的虚拟序位 意义同法理的预想序位 物理与生理的实际序位 三对分合自洽测序定位 提示:顺序与倒序、对位与错位(这个过程中是一系列的选择,若干年前就发现它可解析八大学问体系与八大形式体系以及八大物类体系及其蕴含的八大关系体系之间的融通融合机制)的例子比比皆是。 图形和语音等软件模式识别与形式化再造、专家知识获取与形式化表达、自然语言处理与形式化理解,它们是同一个问题的三个方面。物意文三类现象,既有各自不同的本质暨理义法,又有它们共同的融合途径暨道(一方面是大道至简,另一方面又因其无所不包而高度复杂且变化多端)。这就是物意文(现象)与理义法(本质)进而可寻求其道的本体(物与文)表述。 � �
个人分类: 学术研究|1913 次阅读|0 个评论
基于本体的Folksonomy改进研究进展
terahertz 2017-10-19 15:31
(本文发表于《图书情报研究》2017年第3期P 83 - 89 ) 【摘 要】 Folksonomy是一种自底向上、用户可以自由参与的分类方法,但随着标签数量的不断增加,Folksonomy的进一步发展受到制约。通过对Folksonomy的概述以及对其改进的国内外研究现状介绍,着重从提取Folksonomy中的本体、扩展Folksonomy的语义关系、融合Folksonomy与本体三个维度分析本体在Folksonomy改进研究中发挥的作用。在总结国内外基于本体的Folksonomy 的研究成果的基础之上,对未来基于本体的Folksonomy研究方向提出建议:注重自然语言聚类与协作标签系统的作用,关注计算机技术与标签本体构建的结合,尝试外部本体词表的引入,拓展Folksonomy的应用范围。 【关键词】 Folksonomy ; 本体 ; 标签 ; 改进 ;
个人分类: 发表论文|1899 次阅读|0 个评论
信息的现象、本体和本质
geneculture 2017-10-4 23:01
Dear Fiser: It is possible to formalize what is information (phenomena, essence and ontology) with the simplest symbolic system. {0,1} {00,01,10,11} {000,001,…,…,111} {…… …… 1. Ecological Characteristics of Information and Its Scientific Research has been published in Proceedings and is available online: Abstract: http://www.mdpi.com/2504-3900/1/3/59/ PDF Version: http://www.mdpi.com/2504-3900/1/3/59/pdf 2. Fundamental Law of Information: Proved by Both Numbers and Characters in Conjugate Matrices has been published in Proceedings and is available online: Abstract: http://www.mdpi.com/2504-3900/1/3/60/ PDF Version: http://www.mdpi.com/2504-3900/1/3/60/pdf 发自我的iPhone ------------------ Original ------------------ From: ZouXiaohui 949309225@qq.com Date: 周三,10月 4,2017 10:43 下午 To: fis fis@listas.unizar.es Re: Dear Pedro and Joseph, Dear FISers,Physical information; Psychological information; Mathematical information; The difference between the above phenomenon of information and its essence is the difference between the ancient,modern and the contemporary focus. Best wishes, Xiaohui ZOU in Beijing
个人分类: 学术研究|80 次阅读|0 个评论
二元绝非特例:回应张学文先生
热度 1 冯向军 2017-7-16 14:04
二元绝非特例:回应张学文先生 美国归侨冯向军博士,2017年7月16日写于美丽家乡 我首先要鸣谢:诚心感谢学术知音张学文先生让我迅速地从企图证明: 对于 n 2的广义系统,负一次非标准幂律也与负指数分布等价这团迷雾和无边苦海中跳了出来,继续前行。 其次我要强调,二元,无论是二元对立还是二元圆融或二元同归于尽而归空,都是事物的本体和基元,绝非先生所讲的“特例”。我特意写下了下面的话【1】: 因为最大发生概率原理在 变量的统计均值为常量这个约束条件下,所给出的正是 非标准 负1次幂律分布,又因为 对于任意给定的概率分布p 1 和p 2 及所对应的变量x 1 和x 2 ,一般而言,存在 负1次非标准幂律分布与之等价,所以,一般而言, 对于二元系统和 变量的统计均值不变这个约束条件, 最大发生概率原理含盖其他一切有效的极值原理。 有时,我宁肯舍弃多元也要确保二元。例如我用二元现代科学阴符数来定义n元 现代科学阴符数并给出 最小 现代科学阴符均方数原理 就是个典型例子【2】。 在泛有序对论中【3】,对于定义好的泛有序对(A 1 ,A 2 ),可定义三元数组为泛有序对: (A 1 ,A 2 ,A 3 ) = (( A 1 ,A 2 ),A 3 ) 对于 定义好的有序对(A 1 ,A 2 ,...,A n-1 ),可定义n 元数组为泛有序对: (A 1 ,A 2 ,...,An) = ( (A 1 ,A 2 ,...,A n-1 ), A n ) (1-1) 因 此,n元反倒被视为二元的特例。 参考文献: 【1】冯向军, “行百里者半九十”的确也是负1次幂律但结论不能推广至n 2元, 科学网,2017年7月15日。 http://blog.sciencenet.cn/blog-1968-1066484.html ’ 【2】冯向军, n元现代科学阴符数(n-ary MSYFN ),科学网,2017年7月7日。 http://blog.sciencenet.cn/blog-1968-1065135.html 【3】冯向军,广义集合论和泛有序对论的一些联系和区别,道客巴巴,2006年1月21日。 http://www.doc88.com/p-065193405249.html
个人分类: 决定性概率论|2095 次阅读|2 个评论
【语义计算:李白王铿锵行】
liwei999 2017-4-4 20:20
【立委按】 “真心说,语言学虽然不是显学,乍看颇落寞穷酸,但的确是最有趣的学问之一,是少有的能与上帝同在和对话的“科学”。要不世界几千年美国几百年不世出的千古学霸乔老爷能以此扬名立万呢。” 当然,乔老爷的天下无敌的引用数与崇高名声,只能说最多一半是语言学的功劳,另一半是他的左派社会主义的独立知识分子情怀及其犀利的现实批判精神。 王: 这本书把我看晕了。 这本书把我砸晕了。 N1 把 N2 V1 V2 了。 V2和哪个N发生语义关系、发生什么样的语义关系好像比较好确定;但是对V1来说,如果不看具体的句子,好像就不能确定,当N1 N2与V1结合后,各自的论元角色是什么。 Me: 不确定这个句法树画得对不对…… 白: 要用次范畴 但是,如果句法的目的仅仅是确定“谁跟谁有关系”而不在乎“是什么关系”,是主是宾,根本无须过问。“看”和“砸”都有两个坑,“我”填一个,剩下的N填另一个。句法的任务就完成了。所以这两句的分析在我的体系里长得没差别: 王: 谢谢白老师!下一步确定哪个萝卜进哪个坑,是不是就是知识本体的工作了。 就是您说的次范畴设计,是不是就是在词库里设定一些语义相谐的规则,萝卜只能进和它语义相谐的坑。 白老师,您的体系里只有两种pos tag? 白: 利用subcat可以确定“我看书” 但“书砸我”并不典型。 “我砸书”也不是不可以。 N、S、X 三种 X意思是“可N可S”。真正排除“我砸书”需要常识或者统计,subcat并不能做出这样的区分。通常是“硬砸软”而不会“软砸硬”,人体属于“标配软”,书则“标配硬”,也不排除硬的人体(冻僵了那种)和软的书(帛书)。 王: 谢谢白老师指点! 白: 语义相谐不一定要通过规则,也可以通过统计。 subcat只对词条标注,不对短语标注。 注意到我画的图里,“我”一个萝卜填了“看/砸”“晕”两个坑。这是因为补语动词并入谓语动词,相应的坑不占同一个萝卜的额度。 王: 对, 李维老师上周推的文章 里好像也说了,本体是人编的,知识图谱是统计出来的,都可以用来判断语义相谐。 Me: 本体(ontology)也可以从大数据统计学出来 叫习得(acquisition),但跨领域的一般性本体不值得费劲儿去学。一来有现成的高质量的本体在 如董老师的 hownet, 语义大师 几十年打造的。跨领域跨语言的基本放之四海而皆准,仅次于上帝的工作。二来 学了半天 也难系统化 。但是 本体自动习得还是有一席之地,主要在,习得可以对领域 对数据有自动调适能力。更主要的是 习得可以包含本体常识的相谐的程度和或然性比较,这是人工标注 哪怕是大师的工作 所难以达到的。最终 常常是二者的结合。以专家本体框架为指导 以数据为对象 学出领域本体。 白: 相对标记,并不是每个本体都有的:“你打了他不该打的朋友。” 打,二价,但“朋友”自身仍有坑。 Me: 当然 玩本体 这种 元层次语义 需要一些修为 非新手可玩 玩了也不会用 。但是 玩知识图谱这种 倒是相对人人可为 基本就是个力气活,砸的是人力和计算资源,不需要一定有语义全局的高度。 白: 标注种子词条,习得种子关联,推荐更多词条,推荐更多关联。所谓bootstrap。 Me: 另外 所谓相谐(semantic coherence, or, attribute-value appropriateness) 是元知识 是本体的属性和功能 与一般的知识图谱无大干系。如果硬要 argue,在碎片化信息抽取整合成知识图谱的过程中,领域概念之间的相谐蕴含在图谱中,也不是没道理。但是关键在,相谐是作为一个软条件帮助语言分析理解,从而帮助抽取挖掘图谱的。图谱是结果,达到结果了 相谐已然过去式了。过河不必拆桥,但桥是为过河而设置,过了河就没桥什么事儿了。 另,“subcat只对词条标注,不对短语标注”,白老师这话不错。不过短语也可以继承词条的 subcat,继承的时候 已经填坑的要“折算”。换句话说 短语的 subcat 坑减少了。减少为0的时候 就功德圆满了 就没有了 subcat,譬如 s,那是最高的短语。 白: 坑的subcat没了,自身作为萝卜的还有 Me: 当然 譬如右嵌套:s 可以作为子句 作宾语,是VP的右嵌套。这时候不圆满还不行 不圆满就做不了所要求的宾语子句。语言学理论里面 把这种条件叫做 configurational constraints, 也就是乔老爷的 x bar 的条件。如果这个条件要求的是尚未圆满(not fully saturated, or partially saturated) 的短语,就带着未填满的坑前行,各种好玩的语言逻辑的戏就开场了。 白: 如果词负载结构,这一切都在填坑中自然完成,无需另外的句法来“制导”。 Me: 譬如 【书砸我】 还是 【我砸书】 这样的公案就出现了。到了 【书看我】 还是 【我看书】,本体常识或本体统计可以发力,当然 这种强搭配也可以不劳驾本体,而是当成词法或词典与句法的交互和接口,但是不强的搭配太柔软,句法就无计可施了,只能 identify 可能性 不能确认语义的唯一性。本体或反映本体的大数据 不得不上场。如果由于数据稀疏 上场了也不能解决 ,那只能保留歧义 有可能本来的语言表达就是双关。 真心说,语言学虽然不是显学,乍看颇落寞穷酸,但的确是最有趣的学问之一,是少有的能与上帝同在和对话的“科学”。要不世界几千年美国几百年不世出的千古学霸乔老爷能以此扬名立万呢。 【相关】 【语义网笔记:本体与知识图谱之辨】 《 语义三巨人 》 《泥沙龙笔记:知识习得对本体知识,信息抽取对知识图谱》 【泥沙龙笔记:再谈知识图谱和知识习得】 中文处理 Parsing 【立委科普:信息抽取】 【关于知识图谱】 【置顶:立委NLP博文一览】 《朝华午拾》总目录
个人分类: 立委科普|3958 次阅读|0 个评论
基于本体的协同过滤法2
mathscience 2015-12-28 13:17
前提:构建本体,从各个用户对物品的评价里面获取文本数据,进而获取文本向量。 1,根据本体与文本向量,用相似度[0,1]来度量它们的距离 。 2,根据第一步,获取用户与物品的相似度矩阵 3,根据上一步的相似度矩阵进行协同过滤。
个人分类: 科研笔记|1639 次阅读|0 个评论
基于本体的协同过滤
mathscience 2015-12-28 12:56
前提:构建本体,从各个用户对物品的评价里面获取文本数据,进而获取文本向量。 1,根据本体与文本向量,对文本向量作积极和消极2分类。这一点可用相似度来度量。 2,根据第一步,获取用户与物品的二值矩阵 3,根据上一步的二值矩阵进行协同过滤。
个人分类: 科研笔记|2022 次阅读|0 个评论
Mauricio Barcellos Almeida关于本体的再认识
timy 2013-8-3 21:10
Mauricio Barcellos Almeida在JASIST2013年第5期发文,对哲学、计算机科学、信息学三个学科领域中关于本体的研究进行了系统的梳理和比较分析,作者的一个重要观点是:​综合(全面)解释本体,为跨学科研究提供了机会。 ​ (该图来源于作者原文: http://onlinelibrary.wiley.com/doi/10.1002/asi.22861/abstract ) 原文地址: http://onlinelibrary.wiley.com/doi/10.1002/asi.22861/abstract Abstract: Looking for ontology in a search engine, one can find so many different approaches that it can be difficult to understand which field of research the subject belongs to and how it can be useful. The term ontology is employed within philosophy, computer science, and information science with different meanings. To take advantage of what ontology theories have to offer, one should understand what they address and where they come from. In information science, except for a few papers, there is no initiative toward clarifying what ontology really is and the connections that it fosters among different research fields. This article provides such a clarification. We begin by revisiting the meaning of the term in its original field, philosophy, to reach its current use in other research fields. We advocate that ontology is a genuine and relevant subject of research in information science. Finally, we conclude by offering our view of the opportunities for interdisciplinary research.
个人分类: 信息组织|8285 次阅读|0 个评论
大数据研究----基于本体的数据访问(OBDA)
huangfuqiang 2013-5-18 18:39
来自牛津大学的大数据研究项目,注:国外的研究项目一般都有一个很好的站点反映研究状态及进展信息。 Optique: Scalable End-user Access to Big Data Scalable enduser access to Big Data is essential for the effective support of critical decision making in large companies. The Optique project aims to develop new techniques and infrastructure that will bring about a paradigm shift for data access by: using Ontology Based Data Access (OBDA) to provide a semantic end-to-end connection between users and data sources; enabling users to rapidly formulate intuitive queries using familiar vocabularies and conceptualisations; seamlessly integrating data spread across multiple distributed data sources, including streaming sources; exploiting massive parallelism for scalability far beyond traditional RDBMSs; and thus reducing the turnaround time for information requests to minutes rather than days. These objectives will be achieved by bringing together leading researchers and developers from diverse communities — including Knowledge Representation, Databases, and the Semantic Web — to devise new techniques and to implement them in an extensible platform that will provide a complete and generic solution to the data access challenges posed by Big Data. The platform will: (i) Use an ontology and declarative mappings to capture user conceptualisations and to transform user queries into complete, correct and highly optimised queries over the data sources; (ii) Integrate distributed heterogeneous sources, including streams; (iii) Exploit massively parallel technologies and holistic optimisations to maximise performance; (iv) Include tools to support query formulation and ontology and mapping management; and (v) Use semi-automatic bootstrapping of ontologies and mappings and query driven ontology construction to minimise installation overhead. Development of the platform will be informed by and continuously evaluated against the requirements of complex real-world challenges, with two large European companies providing the project with comprehensive use cases, and access to user groups and TB scale data sets. Links Project website Selected Publications View all Capturing Model−Based Ontology Evolution at the Instance Level: The Case of DL−Lite Evgeny Kharlamov‚ Dmitriy Zheleznyakov and Diego Calvanese In Journal of Computer and System Sciences (JCSS) . Vol. 79. No. 6. Pages 835 − 872. 2013. Details | BibTeX | Download (pdf) Towards Query Formulation and Query−Driven Ontology Extensions in OBDA Bernardo Cuenca Grau‚ Martin Giese‚ Ian Horrocks‚ Thomas Hubauer‚ Ernesto Jiménez−Ruiz‚ Evgeny Kharlamov‚ Michael Schmidt‚ Ahmet Soylu and Dmitriy Zheleznyakov In OWL Experiences and Directions Workshop (OWLED) . 2013. Details | BibTeX | Download (pdf) The Optique Project: Towards OBDA Systems for Industry (Short Paper) D. Calvanese‚ M. Giese‚ P. Haase‚ I. Horrocks‚ T. Hubauer‚ Y. Ioannidis‚ E. Jiménez−Ruiz‚ E. Kharlamov‚ H. Kllapi‚ J. Klüwer‚ M. Koubarakis‚ S. Lamparter‚ R. Mller‚ C. Neuenstadt‚ T. Nordtveit‚ . zcep‚ M. driguez−Muro‚Ro M. Roshchin‚ Marco Ruzzi‚ F. Savo‚ M. Schmidt‚ A. Soylu‚ A. Waaler and D. Zheleznyakov In OWL Experiences and Directions Workshop (OWLED) . 2013. Details | BibTeX | Download (pdf) Sponsors EC FP7 info Duration 1st November 2012 to 31st October 2016 People Bernardo Cuenca Grau Ian Horrocks Ernesto Jimenez-Ruiz Evgeny Kharlamov Boris Motik Dmitriy Zheleznyakov
个人分类: 数据库与知识库|5865 次阅读|0 个评论
[转载]2012年语义网相关领域新成立的公司
热度 3 timy 2012-12-24 20:47
From: http://baojie.org/blog/2012/12/24/new-semantic-web-companies-2012/ 在CrunchBase上做了一个搜索 http://www.crunchbase.com/search/advanced/companies/1869976 (结果中有些和语义网无关的,过滤了) 有这么一些2012年成立的,和语义网切实有关的公司 Meronymy :高性能SPARQL数据库,创始人 Inge Henriksen Silk :数据质量提升,结构化数据 Comenta.TV : 用本体做电视内容导航。BTW, 这个Google也在做, NoTube 结束后Dan Brickley就去了Google SindiceTech :这个不是新产品了,DERI的好东西,RDF数据存储和检索 SpazioDati : 数据集成与curation Modusly : 又一个用语义技术的客户关系管理CRM公司 SQMOS : 客户建模,做移动平台上的精准广告投放 当然,这肯定是一个不完全统计。单是在 SemTech 2012上出场的几家公司 就没有被包括进去。总的来说,语义网领域的创业还在早期阶段,不过重点已经从早年的提供工具为主转向为具体的问题域提供解决方案。这是个可喜的变化。 稳扎稳打,相信在Siri, Knowledge Graph这些样板的示范效应下,2013年会有更多的语义网的——特别是非W3C路线的——创业公司出现。
个人分类: 信息组织|5336 次阅读|3 个评论
[转载]垃圾分类和语义网
timy 2011-11-14 19:57
From: http://blog.baojie.org/2011/11/09/semantic-web-is-a-life-style/ 垃圾分类和语义网 2011/11/09 Jie Bao 发表评论 Go to comments 我搬到加州来后,生活发生了很大的变化,其中之一就是处理垃圾的方式。我现在住的小区垃圾是分类的,很简单,分为可回收垃圾和不可回收垃圾。在纳舒厄(Nashua)住的时候,垃圾是不分类的,我们只有一个垃圾桶,很小的一个。其实我们家是有大号垃圾桶的,但是一直不用。为什么呢?因为大号垃圾桶要好几天甚至一个星期才能填满,里面的东西早臭了。 现在垃圾要分类了,我们家厨房也需要两个垃圾桶。一开始,我觉得这是一个非常挑战我的耐心的繁琐的工作。你想想,我本来生活的好好的,现在非要在扔每一个东西的时候都要想一下,到底是A桶还是B桶,这不是添加了额外的负担?要知道,我从来不是个环保主义者。 出于尽可能偷懒的原则,我和媳妇商量后,决定这样: 大垃圾桶(终于用上了)装可回收垃圾:纸张,玻璃,塑料,金属,木头,等等 小垃圾桶装不可回收垃圾:其他一切 为什么?因为可回收垃圾恰好是那些不会发臭的东西,放久一点也没有关系。小垃圾桶倒得勤一点就是。 在新家住了两个星期,这个原则被很好的执行了,而且成了一种自觉地习惯,因为我们发现这样做有很大的好处!再次重申,我从来不是一个虚伪的环保主义者(如戈尔之流),我确实自私地发现了垃圾分类对我自己带来了立即的好处,甚至后悔为什么以前不这样做。 第一,我倒垃圾的频率降低了。原来我每天要倒一到两次垃圾,现在小垃圾桶大概两天倒一次(还没有变臭),大垃圾桶超过一周才倒一次。 第二,垃圾袋的需要数量下降了。一个大垃圾桶的垃圾袋可以装10倍于小垃圾桶袋子的东西。这样每周购物袋就足够装小垃圾桶,不用再买。 第三,如果扔了不该扔的广告,优惠券,杂志,论文什么的,还可以捡回来,不用担心脏了。 于是,垃圾分类变成了一件很愉快的事,成了我的一个新的生活习惯。 某天,在我考虑尿布算可回收还是不可回收垃圾的时候,我突然联想到,其实语义网的实现,和垃圾分类制度有很多相似之处。 垃圾分类其实就是我给垃圾(“数据”)加元数据的过程。这个过程能够成为我的生活习惯,是因为它满足了如下的特点: 它虽然有点麻烦,但还不是过于麻烦 。试想如果一个垃圾分类制度,要求我区分有机可回收垃圾(纸张,木头等),无机可回收垃圾(玻璃,金属等),有机不可回收垃圾(食物残渣等),无机不可回收垃圾(比如电池),这可能就超过了我的耐心和智力的极限。 它给我带来立即的好处,而不是长期以后的好处 (比如减缓地球变暖)。而且,只要我做了,我就给自己带来好处,不需要等我的邻居都这样做。 它对现有系统的改造要求很小 ,原有的垃圾桶都可以用,只不过组合方式变了一下。厨房放两个垃圾桶还比较容易,如果要更多,那我只好再去买垃圾桶,而且也未必有足够的地方放。(注:分类垃圾处理可能和不分类的有区别——比如原来只要填埋就可以了,现在还要建回收厂;不过这对普通群众是不可见的。而且,原来的填埋机制还继续可用。) 传统的语义网技术之所以到目前应用还很少,不是因为它缺少了上面的特点吗? 麻烦的元数据生成 。要知道,即使是最简单的分类和加标签,对大多数Web用户都是一个智力和耐心的极大挑战。即使是简单的垃圾二分法,也依赖于我多年的生活经验——我们家妞就完全搞不懂。元数据如果来自用户,必须尽可能的不改变他本来的工作/生活方式,尽可能的不要求知识背景。如果能分两类的,就不要分四类。如果能完全不要用户参与分类,那最好——比如我们家妞就完全不用操心,自有别人代劳决定尿布算哪一类。 元数据的发布缺少及时回报效应 。用户为什么懒得提供元数据?无利不起早,没有好处,只有付出的事,谁会做?而且这个回报,还不能是太久以后,最好是立竿见影的。比如一个餐馆老板,你和说Pizza或者Wine本体有什么用,他云里雾里,看不见可行的赚钱门路;你演示给他看,用餐馆本体( schema.org )给他餐馆主页加几个标签,或者上传点菜单到 allmeus.com ,Google搜索立即排名提高,那他就有动力做下去。 修正主义还是革命? 一说语义网应用,上来就说RDF,OWL,SPARQL,Triple Store,Ontology Editor,等等,先不说招一个真懂这些的程序员要多少钱,就说怎么和原有的数据、服务结合,就是一个头疼的问题。有些革命性的前驱,2009年就全用Triple Store搭应用,200万用户就死掉了,关门。即使是现在,依我看,修正主义的态度还是要好一点,对现有系统的改造还是保守一点好。即使你是搭一个新的系统,本体是能简单就简单,推理机甚至Triple Store能不用就不用。你说,这都不用,那还叫什么语义网应用?我反驳说,并不需要在家里装一个垃圾分类机器人才能搞垃圾分类。 长期看,元数据的产生和使用,也就是语义网,是一种生活方式。Web现在就是一种生活方式。我岳父在美国的时候,特别不理解我们为什么一回家就在网上泡着。可是,唔,现在除了上网还能干什么?或者说,什么不是在网上(如下图)?生活方式是很难培养的,但一旦形成也很难改变。又比如说写东西,我再也不会用笔和纸写任何长的文章——因为我已经习惯了电子写作非线性的思维方式。语义网也会改变人的生活甚至思维方式。但在目前,还是应该先做“垃圾分类”这种规模的小事。
个人分类: 信息组织|2725 次阅读|0 个评论
学术研究文献的关键路径发现系统
leeshuqing 2011-11-5 08:22
学术研究文献的关键路径发现系统
使用说明:用户可以直接输入查询关键词,同时系统还提供了1742个文档频率高于10的关键词列表以方便用户选择输入。界面中央展示了相应的文献查询结果,节点列从右向左分别表达2000年到2009年共十年的文献数据,节点对应的文献位置越高则代表文献权重值越大,不同节点之间的链接表达了引文关系,其中蓝色表示被引关系,而红色表示引用关系。用户还可以通过调节界面右边的"文档数量"和"引文权值"来改变相应的查询结果数量。同时,每个被点击的节点对应文献的详细信息会显示在界面的左边。 访问网址: http://www.njcie.com/jsj/ 该系统是基于JDK1.6版本制作的Applet应用程序,需支持JDK1.6版本的浏览器 请不用禁用浏览器脚本执行功能 因为数据量较大,首次加载时间因网络带宽不同而不同(电信较快),一般为2分钟至5分钟 在浏览一个关键词的查询结果时,切换节点数量和链接数据皆无需再次请求服务器加载 但是如重新查询其他关键词,则仍需加载新的数据 主页 基本界面 选择新的查询词 ------------------------------------------------- 通过该界面挖掘所需的关键路径和重要文献有相应的使用技巧 我们可以发现图中圆圈标注的两篇文献“基于领域最近邻的协同过滤推荐算法(2008)”、“基于云模型的协同过滤推荐算法(2007)”是具有较高权值的新文献,而且引用了很多重要的前期文献,而图中方块标注的两篇文献“基于项目评分预测的协同过滤推荐算法(2003)”和“个性化推荐算法设计(2002)”是具有较高权值的旧文献,分别代表了两个主要的研究基础点,它们不仅被很多重要文献所引用,具有较高的同被引特征,而且相关的引文权值也很高,说明前后文献的相关度很高。从总体上看,这四个文档具有非常密切的相关关系,在研究方面构成了一个可以相关参考的重要文献群,而且用户可以根据相关的时间和主题关联度来决定阅读次序。
4109 次阅读|0 个评论
基于本体的单标签分类——乘权法
mathscience 2011-7-18 16:00
在 基于本体的单标签分类 的第3)步中求距离之和时,在向量的各个分量上乘以其权重;其它的都相同。
个人分类: 科研笔记|2183 次阅读|0 个评论
基于本体的单标签分类
mathscience 2011-7-15 19:21
1)在本体中找到能表示各个类的一个或几个概念,我们称为本体中的各个类C i (0i)。 2)根据本体从样本集中得到概念向量V j (0j)。 3)求出概念向量V j 到本体中的各个类C i 的距离(语义相似度)的和Σ j ,其和最大的对应的那个类,就是样本所属的类。其它的样本以此类推。
个人分类: 科研笔记|3206 次阅读|0 个评论
图情方向语义本体的自动构建
leeshuqing 2011-6-6 17:34
图情方向语义本体的自动构建
利用引文和共现规律,可以有效的自动构建语义本体 图片1
个人分类: 未分类|4074 次阅读|0 个评论
从“利市封”到“利是封”看“是”之意思
ssglwu 2011-2-1 11:26
吴国林 农历新年在广东,包括香港等,都有派“利是封”的习惯。 所谓 “ 利是 ” ,即为红包,亲朋相见,大人要给小 孩 “ 利是 ” 。广东市民十分讲究 “ 意头 ” ,而内包多少纸币则不拘。 我原来没有注意这“利是封”三个字是如何写的,是这次到香港去,看到一个广告写了“利是封”三个字,而我最近正在考察“ 本体论 ”问题,因为涉及到存在、是、有、实在、实体、本质都诸多概念,包括 on, ousia, ti esti, to ti en einai 等。对于 on 作何种翻译,是一个有争论之事。 “利是”原是“利市”,即商家在开新年时,带有本少利多、亦有好运的意义。做生意的人派的叫利市,取其有利于市场。 后来,“利市”又发展到“利事”,即有利于做事,比原来生意人的市场还宽。即“利市封”演化到“利事封”。 有人说, “ 事 ” 和 “ 是 ” 两个字其实都是相通的,所以很多人都把 “ 利事 ” 写成 “ 利是 ” 。这种说法,我不赞同。因为很显然,“事”与“是”并不是相通的。 但是,我们注意到,在古汉语中,“是”当此、这( this , that )讲,比如,《孟子 · 告子下》有:“天将降大任于是人也 , 必先苦其心志。”如果我们将“利是封”,解释为利于“此”、利于“这”,那么就超越了原来的利市、利事之意,就是说,“利是封”的作用更为广大,诸人诸事诸物皆利。 当然,如果把“是”理解为希腊人的“ on ”, on 就是 being, 但不能简单把 being 理解为存在、有等,而用“是”可能更为恰当,但中文中的“是”没有分词形式,也不是一个系词,也无法表达“存在”、“有”、“是”之意,但中文的“是”有“正确”之意,如果结合希腊的“是”( on )及中文的“正确、适合”等意,那么 ,“利是封”之意,就更为丰满了。即“利是封”利于人事物,而且含有正确的、适合的意思。 由此,我们也看见,广东话中还有不少的古代汉语的特点,这是当代普通话所不及的。
个人分类: 追求真善美|7571 次阅读|0 个评论
用科学家的目光看《盗梦空间》----盗梦空间科普札记之二
tangchangjie 2010-11-2 10:00
   用科学家的目光看电影---盗梦空间科普札记之二 (唐常杰) (说明,原策划名为: 思想植入,托梦、转基因与本体 ,根据朋友建议改为为此名)    上文 梦里乾坤递归深,醒来可知在哪层 议论了《盗梦空间》的递归结构,本文从“托梦”开始发散,议论本体,最后涉及到科研选题等论点,杂,名副其实的“杂”文。       1 植入思想和强制托梦   电影《盗梦空间》的英文原名为Inception。分而析之,字根cept =“拿”;如在字根加前缀ex, 则意为“除..外”;而今加上前缀in,则意为植入。所以,电影主题是思想植入,是一种“意识手术”;说白了,就是用强制托梦的方式,把信息注入在受术者大脑皮层的非易逝存储区(不像硬盘,而像U盘),在一些涉及外星人的科幻片中多次出现。   众所周知,网络战中有四大手段,断、截、伪、改;一个比一个厉害,在电视剧《DA师》中,这四个手段都用了。而《盗梦空间》在梦中修改或植入信息,相当于网络战的 “伪”和“改”,旨在影响或控制受术者的行为,从而谋取利益。    2 催眠术在高层梦境空间的推广   如前文所述,《盗梦空间》共有6层梦境。   N=0时,植入思想可以表现为下列集合之一: { 催眠、洗脑(注入思想)、注入知识};催眠术早已应用于治疗或谍战,据说,“注入知识”也已有人构思研究并小有成果。   N=1时,植入思想表现为(有点迷信色彩的)“托梦”。小说中的托梦可影响受术者的行为。水浒中的晁盖托梦于宋江,喻示血光之灾,使宋江周身酸痛,从而去寻神医安道全。三国演义中,刘备梦见关羽张飞立于灯影之下,在错误的时间、错误的地点,发动了错误的夷陵战争,导致火烧连营七百里的惨败。   N=2,3,4,5时,《盗梦空间》演绎深层次梦中的强制托梦,可看成是N=1的托梦扩展或推广。不同点在于,小说中常是死人托梦,是做梦人自己忽悠自己;而《盗梦空间》是活人主动托梦,是深层次梦境空间中的强制托梦。   影片要点是托梦,如把片名Inception翻译成为“托梦”,更直白坦诚一些;而翻译成为《盗梦空间》,则煽动性更大一些,有利于票房。    3 本体 近似于 说文解字。   曾给一位八十多岁的、到处找书看的老人Z 推荐武侠小说。说,歌中唱到的、在南海边划圈的D老都喜欢看。殊不知,Z老 对少林、武当、崆峒、峨眉等基本概念完全陌生,而且对小说家营造、并被阅读界公认的武侠规矩和习俗一概不知,看起来吃力,因而觉得荒诞乏味;推荐失败。   这说明,就是看武侠小说这样的简单娱乐,也需要专门的领域预备知识。   这个基本领域知识,用语义Web的行话,称为本体(Ontology)。网上搜索一把,可以查到许多解释,大都比较晦涩难懂。   在语义Web或WEB2.0 中的本体类似于《说文解字》、但高于《说文解字》; 它不只解释字词,还解释概念和概念间的关系,所以,生造一个名词“说概解念”来描述它,或许更确切一些。   下面这一段灰色字,稍多一些专业术语,不感兴趣则可跳过: 语义Web中的本体,是为“机器理解”或“机器阅读”而研究的,其目标大致是:计算机 + XYZ领域的本体,就能理解XYZ领域的文字,甚至打印出其段落大意、中心思想、联想到相关概念,提出注意事项、推荐意见,等等。 4 《盗梦空间》中的本体 (应印刷,作为电影票附件,以方便观众 )   盗梦空间本体包括一些看懂电影需要的的必要概念以及概念与概念之间的联系(应该作为电影票附件): (1) 概念 :六层空间:N=0:现实世界;N=1,2,3,4,时为 第N层梦境;其中,N=5 时,称为 Limbo(迷失层)。 (2) 概念之间的联系 :  (a)退出第N+1层梦:回到第N梦境,需人在N层提供帮助(唤醒、高处下坠,被杀)或药效解除而自然醒。因此,盗梦是团伙行为,团伙须在第N层指派值班员,负责把搭档送进第N+1层和唤醒回第N层; (b) 进入最深的第5层去盗窃或注入思想,需6人合作,上一层的值班人唤醒下一层梦境; (c) 第N+1层梦的时间比第N梦境层慢20倍,时间随层次指数增长: T N+1 =C* (20) N T 0 ;   (d) 第5层为迷失域中只有死亡会回到现实,但会丧失其中记忆,对思想的盗窃和植入都无效。    5 梦中违规,照付代价 玄幻片需要悬念和惊险,通常,编剧和导演通过意外和误解来实现。 没有,也要制造一个。 电影中的柯布及其妻子藐视了本体知识库中的合作原则和时间伸缩原理,本来需6人团队联合行动,夫妻俩却违规操作,铤而走险,深入第四层,由于无人值班唤醒,酿成事故,他们为对规律的藐视付出了惨重的代价:在相当于现实中一小时的时间中,在第四层过了五十年。正是:   山中方七日,世上已千年,何况在梦中!    6 思想植入与基因注入 以及科研项目   盗梦空间的“思想注入”也许能启发有缘人的科研项目。笔者的一个自然科学项目就是受电影和信息的启发而萌芽的。    预研与背景 :“基因表达式编程”是一种新的数据挖掘工具,它把公式(知识)看成的染色体,把基本函数如 + - x ,y Sin(x) cos(x)看成基因。可比喻为愚公移山,让公式在进化中改进精度;    启发性信息 :   (a) 关于“转基因耐碱小麦” 的科普短片,其中介绍了基因注入技术;   (b) 网络上一则(可能是无稽之谈)短文:“1000年前外星人给人类注入了‘聪明’的基因,加快了人类进化”。    观后之联想 : 如果观察提示对象有周期性或衰减性, 在进化时,注入周期性基因Sin(x)或衰减基因e -x , 是否可大大加快进化进程?这里的“转基因”。是指”基因注入”。    结果: 笔者获得了自然科学基金项目“基于GEP(基因表达式编程)的知识发现中的 转基因技术 研究“;    致谢: 真想对两条启发性信息说:“遇上你是我的缘”。 转让一个idea : 《盗梦空间》的“思想注入”或许能启发新的研究项目,这里无偿转让一个idea: 梦里很难创造实体性成果,但容易创造意识性成果,可否利用梦境注入知识,利用梦境进行思想风暴,梦境只消耗少量能量,从而,实现低碳学习和低碳科研。其中一项关键技术是开发脑电波USB接口, 把梦中容易消逝的想法保存在U盘中,先作有线的,继而作无线的,,,,,,,,, 这是否太科幻了?。 不知谁是有缘人?    7 用科学家的眼光去看科幻电影   笔者正进行着一个自然科学基金项目 “亚复杂系统中的 干预规则 的挖掘”;看了盗梦空间后,真佩服其关于干预规则的大胆奇思和周密妙想。设若真能通过强制托梦植入思想,则关于社会行为的干预(如影响股市、房市等),就有了四两拨千斤的干预手段;但若被坏人滥用,也会带来灾难性后果。幸好,这只是玄幻故事,至少几十年内不必担心。      自然科学基金鼓励奇思妙想 ,凡尔纳的科幻小说描写那那个时代匪夷所思的奇思妙想。很多都在后来实现了。   同样是看《盗梦空间》,用导演的眼光,会注重电影艺术;用媒体的眼光,会注重其票房;用程序员的的眼光,会注重其故事演绎的结构;用科学家的眼光,会注重其搭载的想象力。   在写论文、写基金申请之前,如果觉得想象力贫乏,不妨放松一下,用科学家的耳朵,听听音乐,那天籁之音的宁静,或可致远;用科学家的眼光去看看科幻电影;在科幻中的无拘无束,或可解放想象力。   在这个意义上,适度地听音乐、看电影、玩电脑,适度玩物并不丧志。    8 争取下篇较精彩.    原拟到此结束议题,写此文时,复习了计算理论PPT,触发新灵感,拟写 盗梦空间科普札记之三: 递归梦的可判定性与图灵机停机问题 , 将说明(或证明) “递归梦是否停止”这一问题是不可判定的 ,其推论是,盗梦江湖也险恶,递归梦设计中稍有不慎,就是不归路。拟晚上整理后,适当时机发出。 相关博文 :   盗梦空间科普札记之一: 梦里乾坤递归深,醒来可知在哪层 ? 盗梦空间科普札记之二: 用科学家的目光看电影 ; 盗梦空间科普札记之三: 递归梦的判定性与图灵机停机问题 ; 盗梦空间科普札记之四: 中美学生思维差异、RSA蓝军以及盗梦算法争议与实验 9 附录 。 盗梦空间较细化的C语言描述 。 比上文附录更细致,专业化色彩多一些,不感兴趣可以跳过。   Main盗梦空间( void)   { Dream(0);//从层数为0开始,调用下面的递归梦境函数,就开始电影故事;   } Dream(N) //递归梦境函数 { if(N=6} return; //最多嵌套6层,现实世界为第0层梦,体现人生如梦, Do-N-th- action;//第N层梦境的行动,如偷窃思想 或 注入思想; Printf(“这是第 %d 层梦境”,N); //明白标注们的层次,不要忽悠了自己 Dream(N+1); //进入更深一层的梦境,注意参数N上增加了1 Printf(“现在回到了第 %d 层梦境”,N); //提醒自己,已从下层梦中醒过来,   }   
个人分类: 科普札记|20305 次阅读|29 个评论
[转载]与Ontology相关的40个术语
timy 2010-10-31 14:22
From: http://www.mkbergman.com/374/an-intrepid-guide-to-ontologies/ There are at least 40 terms or concepts across these various disciplines, most related to Web and general knowledge content, that have organizational or classificatory aspects that loosely defined could be called an ontology framework or approach: Tag cloud Controlled vocabulary Thesauri Collaborative tagging Folk taxonomy Directory Subject Map Semantic Web Cladistics Markup languages Social bookmarking Tags Tagging Taxonomy Folksonomy Classification Categorization RDF Metadata Systematics Ontology Microformats Data dictionary OPML XOXO OWL Subject Trees Information Architecture Data Reference Model Phylogeny Topic Maps Concept Maps Synsets Glossary WordNet Metadata Facets Structure Dublin Core Typology 博主注 : 以上术语主要强调结构性,若补充Terminology 、Concept等基本单元相关的术语,这样的相关列表显得更加完整。
个人分类: 信息组织|2474 次阅读|1 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-23 19:58

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部