科学网

 找回密码
  注册

tag 标签: 相似

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

面对复杂问题,社科和自科各采用什么套路?
热度 3 After50 2020-3-4 20:59
面对复杂问题,社科和自科各采用什么套路? 吴 超/STIPC 2020-03-04 首先,先申明一下,这个问题巨大,这里仅针对一种现象说事,也许是外行人不知天高地厚胡说。 一、社会科学面对复杂问题的研究套路 总的来说,社会科学研究的问题(对象)与自然科学(特别是技术科学)的相比要大得多,但社会科学多研究人理、事理和人-事理,而自然科学多研究“物”理。 我经常见过,有些社科类课题只有几万元的项目研究经费,就敢研究类似全球治理这样天大的问题。不过,有深度的社科类课题,研究者们也希望缩小包围圈,使研究更有深度、更具特色和具有针对性,那他们是采用什么套路呢? 因为社会问题涉及的因素太多太杂太大和变化无穷,社科研究者的套路通常是运用“ 不同的视角、不同的视域、不同的切入点、不同的层面、不同的关键问题、不同的要素、不同的时间段、等等 ”去研究和讨论问题(对象),这样自然相对于不界定什么范畴来得好研究一些,可以达到上述的有效性目的。但也由于这么多的界定,使得一个对象或事情可以众说纷纭,各有各的理。显然,这类研究是没完没了的,也没有标准和唯一答案的。 正是知道了这些特征,个人也不太愿意把生命耗在各说各的事的纠缠中,在思考研究问题时还是希望有普适性一些,因而对哲学层面的东西也逐渐感兴趣起来。 二、自然科学面对复杂问题的研究套路 自然科学(包括工程技术科学等)也有研究问题或对象做得比天大的,如研究宇宙太空的、大地构造的,但总的来说,大多数自然科学类学科专业研究的对象还是比较具体和偏小的尺度,特别是工程技术领域,研究对象基本上是比地球尺度小得多的“物”的问题。相对社会科学来说,物的因素不确定性小一些,复杂因素也少一点,但理工科领域同样有很多复杂问题存在。而且,迄今简单的问题基本研究没了,留下的更多是复杂问题。 那面对复杂问题,理工科类科研人员采用的一般套路是什么呢?俺总结了一下,最基本的套路有:一是使 研究对象越做越细 ,细到电子显微镜都无法看到;二是在研究对象前面加一连串形容词作为定语,如 XXX的XXX的XXX研究 ,其实物也是多种多样的,形容词也是多种多样的,如果排列组合起来,也有无穷多种。比如研究一堆泥土强度这么一个看似简单的问题,至少也有各种土质成分的排列组合、各种物理化学性质的结合和作用、各种作用力及其作用方向、作用时间和动态特性、土质的颗粒尺度、含水率等等。如果排列起来,也是有无穷多种组合方式,也可以翻来覆去做个不完。第三种情况是,在应用领域,经常使用的套路是“ 基于XXX的XXX的XXX研究 ”,其实这也是与对象加形容词类似的。 因此,个人在看到这类问题的项目或是论文等时,慢慢不感兴趣了。我的观点是,如果所做的实验是具有工程应用背景的东西,那是有意义的。如果没有具体应用对象,这种实验研究就是为了出数据画曲线出文章,就是类似做作业,做得再漂亮也没有很大参考价值。 三、社科和自科交叉问题的研究套路 如果研究问题既涉及社科又涉及自科,即所谓大交叉学科,这就更麻烦更复杂了,而且这也是社会发展需要的和非常现实的问题。随着全球化和地球村的进程加快,未来这类大交叉科学问题会更加突出。比如安全科学就是这类问题,近期新冠肺炎疫情就是这类具体问题,就是涉及自然科学和社会科学的巨复杂问题。那怎么办?个人觉得这是很重要的问题,比如这时就需要有方法学的指导、研究需要做各种预设、需要有新的思路和方法、需要复杂科学的发展,等等。 四、由上面分析得出的一些推论 (1)从上面对社科和自科研究者如何处理复杂问题的比较分析,我们也可以得出社科与自科的研究思路也有相似性,也是可以互相借鉴的,社科的切入点或视域类似工程研究中的各种条件,越具体越细致就越没有通用性,但也有针对性。 (2)其实,社会科学和自然科学本身也是两个最大的切入点或视域。如果能把社会科学和自然科学当作一个切入点和视域开展研究和得到成果,就是顶级研究和最普适性的,如类似复杂系统科学的创立和爱恩斯坦的理论等的成果。 (3)时间段长短也相当于是一种视域,适用的时间越长,越有普适性,有时间函数的动态模型相当于视域更宽更有普适性。 (4)本文的这些思考,其实也为大交叉科学研究提供一种实例,并可以得到一些启发,对以后的类似研究有帮助。 还有更多不便归纳。请大家补充。 顺手检索一下中国知网,以标题含“基于”的,可以找到2,679,493条结果;以标题含“视域”的,可以找到75,349条结果;以标题含“视野”的,可以找到96,577条结果。真还不少!
个人分类: 科研杂文|3392 次阅读|4 个评论
不要去说诗句本身
pingguo 2016-5-22 10:00
一些人的毒性远胜于一些书。 雾霾的天空下, 认识的人越多绝望越深。 读万卷书远不如持一分怀疑, 多少页面将谎言论证为真理。 唯有自然景物,拥有值得信赖的美。 透过镜头,透过水色与光影, 透过眼睛藏匿的眼睛。 当你面对一株木棉, 想要寻找某种深刻的相似。 你觉得显而易见, 可是难以用语言证明。 有一些沉默出于真诚。 你只需呈现存在着的一些事, 不要去说诗句本身。 2016-05-21
个人分类: 诗歌|1556 次阅读|0 个评论
你知道雪花飘落的样子吗?
热度 2 satangell 2016-4-18 14:33
“你知道雪花飘落的样子吗?”捧着刚换过炭的手炉,韩梅梅转过头来,白皙的脸上,被寒风冻出了两抹淡淡的微红,温柔地沁入了李雷的心里。 “岭以南无雪,南国有的,只是红豆相思。”韩梅梅从脖子上解下一根红绳,上面穿着一粒红豆。“这是妈妈留给我的,你戴上,我会很快过去找你。” 红豆挂在李雷的脖弯,还带着韩梅梅的温度。那一刻,他多么想告诉她,不要走了,他愿意留下来陪她。可终究还是什么也没有说……越洋电话太贵了,韩梅梅和李雷只能一个月通一次电话;后来,半年通一次;再后来,就断了音信…… 铁索桥立在那里已不知多少年,韩梅梅只是从橱窗的海报里见过。李雷在那里还好吗?每次路过橱窗,韩梅梅都会想念李雷。直到有一天,橱窗里的海报撤了,变成了一个穿着婚纱的塑料模特。那一天,韩梅梅站在橱窗前看着劣质的婚纱, 一个人哭了很久。韩梅梅要嫁人了,新郎不是李雷 。 “你知道雪花飘落的样子吗?”李雷看着臂弯里那张熟睡的精致脸庞,将滑落下的被子往上提了提,想起了一张已经在记忆里模糊的脸…… “我知道。”韩梅梅看着在雪堆里撒欢的孩子,喃喃念道。 那一年,岭南有雪。韩梅梅从不在冬天去北方,可终究还是没有躲得过雪花飘落。
个人分类: 风月杂谭|2544 次阅读|2 个评论
[转载]《自发进化》节选(70)
罗非 2016-3-20 10:27
分形——数学与后数学 因此,我们需要做的就是找出究竟是哪些数学被用来创造了宇宙,那么我们将能够了解我们是怎么来的,我们又将去往何方。因为我们正试图辨别环境的模式,特别是当它们涉及到生物圈时,我们需要发现自然用来将物理结构放入空间的数学。 这样的任务需要使用几何学,因为根据定义,这一数学分支专门关注空间中的结构的特性,量度和关系。几何学对于宇宙的组织而言具有如此的根本性,以至于在伽利略的觉悟之前很久,柏拉图就认为,“几何学在创世之前就已存在。” 直到 1975 年,普通公众仍然只熟悉欧几里德的几何学原理,它们总结在那 13 卷大约成书于公元前 300 年左右的古老希腊文本,《 欧几里德原理 》中。这就是我们大多数人在学校里学到的几何学,我们用它在绘图纸上画出各种结构,如立方体、球体、锥体等等。欧几里德几何使我们得以预测天体的运动,建造宏伟的建筑和园林,甚至建造各种飞船和尖端武器。 然而,欧几里德几何的数学公式并不能马上用于自然界中。比如说,使用标准欧几里德几何的完美形状,你能创造出一棵怎样的树呢?回想一下你在幼儿园画过的树,一个圆圈坐在一根细长的矩形顶上。毫无疑问,你的幼儿园老师承认它是树的某种表达,但是它无论如何也描述不出树到底是什么,就像用火柴棒摆出的小人描述不了真正的人一样。 在欧几里德几何和圆规的帮助下,你可以画出一个完美的圆。但你没法用欧几里德几何去画一棵完美的,或者至少是一棵真实的树。欧几里德几何也同样无法画出像甲虫、山、云、或者其他任何自然界中那些常见形体的结构。当需要描绘生命的结构时,欧几里德几何就相形见绌了。那么,我们到哪里去找柏拉图和伽利略所说的那种数学,那种可以描述自然界固有的设计原理的数学呢? 大约 90 年前,一位年轻的法国数学家加斯顿·朱利叶发表了一篇论文,报告了他关于迭代函数的研究工作。这篇论文为我们提供了一个线索。他所用的是一个相对简单的公式,只使用乘法和加法,无限地重复下去。要实际地把他的数学公式所编码的图象可视化,朱利叶将不得不解出该公式上百万次的迭代结果,这个过程会花掉他几十年的时间。因此,尽管朱利叶在数学意义上已经构想出了一个分形,但他实际上从来也没有看到过。 只有到了 1975 年,当朱利叶的公式在计算机的帮助下求出结果之后,其深远的意义才得以显现。法裔美籍数学家波努瓦·芒德勃罗在 IBM 计算实验室中分析了混沌系统的模式,他第一个观察到了这种朱利叶只能想象的东西。面对着由分形公式所产生的具有惊人的美丽、充满生机、并且无限复杂的图像,芒德勃罗充满了敬畏。他第一个观察到,分形图像具有重复的自相似模式,无论在何种尺度下研究时均是如此。他越是放大图像,这些结构看起来就越相同。 内在于分形图像的混沌复杂性之中的,是不断重复、相互嵌套的模式。那种国际流行玩具,手绘俄罗斯嵌套娃娃,为分形的重复图像本质提供了一个粗略的观念。每个更小版本的娃娃都与它外边嵌套的那个较大的娃娃相似,但并不一定完全相同。芒德勃罗引入了 自相似 这一名词来描述他在这种新的数学当中所观察到的对象,他把这种数学称为 分形几何 。 图 11-2. 俄罗斯嵌套娃娃代表了分形的重复图像。 芒德勃罗在他分形图像的复杂性中,看到了各种类似于自然界中常见形状的生动模式,如昆虫,贝壳和树木。在历史上,科学多次记录了在自然界结构中的不同尺度上出现的自相似组织模式。然而,在芒德勃罗引入分形几何学之前,这些自相似的模式都被视为仅仅是奇妙的巧合。 分形几何学强调的是整体结构中的模式与其各部分中的模式之间的关系。回想一下前文所说的关于海岸线的例子和关于枝叶、树枝和树干的例子。自相似的模式在自然界中随处可见,特别多见于人体的结构中。例如,在人的肺脏中,气道沿大支气管分支的模式在小的支气管,甚至更小的细支气管的气道分支模式中不断地重复。循环系统中的动脉和静脉血管,以及人体的周围神经网络也都显示重复的,自相似的分支模式。 由于分形几何是真正的自然界设计原理,生物圈本身在其组织的每个层面都显示出相互嵌套的自相似模式。因此,当我们观察并发现了一个组织在较高或者较低水平上的结构模式时,我们就可以像使用地图一样地使用分形原理。分形可以帮助我们洞悉该组织在任何其他水平上的模式。在生物圈中,人类进化的分形模式可以内在地显示出某种与自然界的组织在其他水平上的结构所经历的进化自相似的模式。 恩斯特·海克尔是与达尔文同时代的著名胚胎学家, 1868 年,他在不经意间首次报道了进化过程中自相似分形模式的端倪。海克尔出版了一套现在已经闻名天下的显微图像,它们比较了若干物种和人类的胚胎发育阶段。他指出,所有脊椎动物胚胎,包括人类胚胎在内,都通过了一系列类似的结构阶段。海克尔提出,各种有机体在通过他们的早期发育阶段时,实际上重新追踪了它们的祖先进化的每一个阶段。 海克尔的理论,隐晦地定义为 个体发育重演系统发育 ,其字面意思是“发育是某种对祖先的重演。”不幸的是,这个狂热的海克尔在推广他的想法时,篡改了他的图片,使胚胎的早期阶段看上去比它们实际上更为相似。 尽管他的报告有瑕疵,但人类胚胎在最终获得人形之前的确发生了一系列形变。在这些转变当中,人类的胚胎采取了一系列有序的自相似结构模式,在其中它很像脊椎动物进化早期阶段的那些胚胎。 发育中的人类胚胎形状从一个酷似鱼类的胚胎变形为类似两栖动物的胚胎。然后它继续变形,采纳了爬行动物的胚胎外观,然后是哺乳动物的胚胎外观,最后才获得了人形。通过沿袭其生物圈祖先的胚胎阶段演变,人类胚胎为分形性自相似提供了一个动态实例。 Fractals—Math and Aftermath Consequently, all we need to do is findout which mathematics was used to create the Universe and we will be able tounderstand how we got here and where we are bound. Because we are trying todiscern environmental patterns, specifically as they relate to the biosphere,we need to discover the math Nature used to put physical structure into space. Such a mission invokes the use of geometry because, by definition, this branch of mathematicsis specifically concerned with the properties, measurement and relationships ofstructure in space. Geometry is so fundamental to the organization of the Universethat long before Galileo’s realization, Plato concluded, “Geometry existedbefore creation.” 4 Until 1975, the general public was onlyfamiliar with the principles of Euclidean geometry, summarized in thethirteen-volume ancient Greek text, The Elementsof Euclid, written around 300 b.c.e. This is the geometrymost of us learned in school to plot structures such ascubes and spheres and cones onto graph paper. Euclidian geometry has enabled us to projectthe movement of heavenly bodies, construct great edifices and gardens, and evenbuild spaceships and sophisticated weapons. However, the mathematical formulae of Euclidiangeometry are not readily applicable to Nature. For example, what kind of tree can you createusing the standardized perfect forms of Euclidean geometry? Think back to thetree you drew in kindergarten, a circle sitting atop an elongated rectangle.Your kindergarten teacher, no doubt, recognized it as a representation of atree, but in no way does it describe what a tree really is, no more than astick figure describes a human. WithEuclidean geometry and a compass, you can draw a perfect circle. But you cannotuse Euclidean geometry to draw a perfect or, at least, a realistic tree. Norcan Euclidian geometry describe the structure of a beetle, a mountain, a cloud,or any other familiar patterns found in Nature. Euclidean geometry falls shortwhen it comes to describing the structure of life. So where do we find the typeof mathematics referred to by Plato and Galileo, the math that describes thedesign principles inherent in Nature? We wereoffered a clue about 90 years ago when a young French mathematician namedGaston Julia published a paper on his work with iterated functions. His was a relatively simple equation that used only multiplicationand addition, repeated ad infinitum . To actually visualize the imageencoded in his mathematical formula, Julia would have had to solve millions ofiterations of the formula, a process that would have taken him decades. Therefore,even though he conceived of a fractal in mathematical terms, Julia neveractually saw one. Theprofound implications of Julia’s formula were only revealed when his equationwas solved with the aid of computers in 1975. Benoit Mandelbrot, a French–Americanmathematician who analyzed patterns in chaotic systems at an IBM computing lab,was the first person to observe what Julia could only imagine. Mandelbrot wasawestruck by the strikingly beautiful organic and infinitely complex imagesgenerated by fractal formulae. He was the first toobserve that fractal images possessed repeated self-similar patterns,regardless of the scale on which they were examined. The more he magnified theimages, the more the structure appeared to be the same. Inherent within the chaotic complexity offractal images is the presence of ever-repeating patterns, nested within oneanother. The internationally popular toy, hand-painted Russian nesting dolls,provides a rough idea of the nature of a fractal’s repetitive images. Eachsmaller version of the doll is similar to, but not necessarily an exact versionof, the larger doll in which it is nested. Mandelbrot introduced the term self-similar to describe such objects that heobserved in the new math, which he called fractalgeometry. Withinthe complexity of his fractal images, Mandelbrot observed vivid patterns that resembleshapes common in Nature, such as insects, seashells and trees. Historically,science had frequently documented the presence of self-similar organizationalpatterns at different scales of Nature’s structure. However, until Mandelbrotintroduced fractal geometry, these self-similar patterns were deemed to bemerely curious coincidences. Fractal geometry emphasizes therelationship between the patterns in a whole structure and the patterns seen inits parts. Recall the examples of the coastline and of the twigs, branches andtree trunks cited earlier. Self-similar patterns are found throughout Natureand especially within the structure of the human body. For example in the humanlung, the pattern of branching along the large bronchus air passages isrepeated in the branching structure of the smaller bronchi and even smallerbronchiole passages. Arterial and venous vessels of the circulatory system aswell as the body’s network of peripheral nerves also display repetitive,self-similar branching patterns. Because fractal geometry is truly thedesign principle of Nature, the biosphere inherently reveals nestedself-similar patterns at every level of its organization. Consequently, as weobserve and become aware of patterns at higher or lower levels of anorganization’s structure, we can use fractals in the same way we would usemaps. Fractals can help us gain insight into the organization at any otherlevel. In the biosphere, the fractal pattern of human evolution can inherentlydisplay a self-similar pattern of evolution experienced by structures at otherlevels of Nature’s organization. Ernst Haeckel, a famous embryologist andcontemporary of Darwin, inadvertently reported the first inkling of aself-similar fractal-like pattern in evolution in 1868. Haeckel published a nowfamous sequence of microscopic images that compares the stages of embryonicdevelopment of a number of species with that of the human. He noted that allvertebrate embryos, including the human embryo, pass through a series ofsimilar structural stages. Haeckel argued that, in transitioning through theirearly development, organisms actually re-trace every stage of theirevolutionary ancestry. Haeckel’s theory, cryptically defined as ontogeny recapitulates phylogeny, literallymeans “development is a replay of ancestry.” Unfortunately, when promoting hisideas, an overzealous Haeckel fudged his drawings to make the early stages ofembryos appear more alike than they actually are. Regardlessof his flawed presentation, human embryos do morph through a variety of shapesbefore acquiring human form. In these transitions, the human embryo assumes asequential series of self-similar structural patterns wherein it resembles embryos from earlier stages of vertebrate evolution. Thedeveloping human embryo shape-shifts from one that resembles a fish embryo toone that resembles an amphibian embryo. It continues morphing until it takes onthe appearance of a reptilian embryo and, later, that of a mammal beforefinally assuming a human shape. Evolving through the embryonic stages of its biosphericancestors, human embryos offer a dynamic example of fractal-likeself-similarity.
个人分类: 科普|567 次阅读|0 个评论
[转载]距离与相似度量问题。
yngcan 2012-11-11 14:20
在数据分析和数据挖掘的过程中,我们经常需要知道个体间差异的大小,进而评价个体的相似性和类别。最常见的是数据分析中的相关分析,数据挖掘中的分类和聚类算法,如K最近邻(KNN)和K均值(K-Means)。当然衡量个体差异的方法有很多,最近查阅了相关的资料,这里整理罗列下。 为了方便下面的解释和举例,先设定我们要比较X个体和Y个体间的差异,它们都包含了N个维的特征,即X=(x1, x2, x3, … xn),Y=(y1, y2, y3, … yn)。下面来看看主要可以用哪些方法来衡量两者的差异,主要分为距离度量和相似度度量。 距离度量 距离度量(Distance)用于衡量个体在空间上存在的距离,距离越远说明个体间的差异越大。 欧几里得距离(Euclidean Distance) 欧氏距离是最常见的距离度量,衡量的是多维空间中各个点之间的绝对距离。公式如下: 因为计算是基于各维度特征的绝对数值,所以欧氏度量需要保证各维度指标在相同的刻度级别,比如对身高(cm)和体重(kg)两个单位不同的指标使用欧式距离可能使结果失效。 明可夫斯基距离(Minkowski Distance) 明氏距离是欧氏距离的推广,是对多个距离度量公式的概括性的表述。公式如下: 这里的p值是一个变量,当p=2的时候就得到了上面的欧氏距离。 曼哈顿距离(Manhattan Distance) 曼哈顿距离来源于城市区块距离,是将多个维度上的距离进行求和后的结果,即当上面的明氏距离中p=1时得到的距离度量公式,如下: 切比雪夫距离(Chebyshev Distance) 切比雪夫距离起源于国际象棋中国王的走法,我们知道国际象棋国王每次只能往周围的8格中走一步,那么如果要从棋盘中A格(x1, y1)走到B格(x2, y2)最少需要走几步?扩展到多维空间,其实切比雪夫距离就是当p趋向于无穷大时的明氏距离: 其实上面的曼哈顿距离、欧氏距离和切比雪夫距离都是明可夫斯基距离在特殊条件下的应用。 马哈拉诺比斯距离(Mahalanobis Distance) 既然欧几里得距离无法忽略指标度量的差异,所以在使用欧氏距离之前需要对底层指标进行数据的标准化,而基于各指标维度进行标准化后再使用欧氏距离就衍生出来另外一个距离度量——马哈拉诺比斯距离(Mahalanobis Distance),简称马氏距离。 相似度度量 相似度度量(Similarity),即计算个体间的相似程度,与距离度量相反,相似度度量的值越小,说明个体间相似度越小,差异越大。 向量空间余弦相似度(Cosine Similarity) 余弦相似度用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小。相比距离度量,余弦相似度更加注重两个向量在方向上的差异,而非距离或长度上。公式如下: 皮尔森相关系数(Pearson Correlation Coefficient) 即相关分析中的相关系数r,分别对X和Y基于自身总体标准化后计算空间向量的余弦夹角。公式如下: Jaccard相似系数(Jaccard Coefficient) Jaccard系数主要用于计算符号度量或布尔值度量的个体间的相似度,因为个体的特征属性都是由符号度量或者布尔值标识,因此无法衡量差异具体值的大小,只能获得“是否相同”这个结果,所以Jaccard系数只关心个体间共同具有的特征是否一致这个问题。如果比较X与Y的Jaccard相似系数,只比较xn和yn中相同的个数,公式如下: 调整余弦相似度(Adjusted Cosine Similarity) 虽然余弦相似度对个体间存在的偏见可以进行一定的修正,但是因为只能分辨个体在维之间的差异,没法衡量每个维数值的差异,会导致这样一个情况:比如用户对内容评分,5分制,X和Y两个用户对两个内容的评分分别为(1,2)和(4,5),使用余弦相似度得出的结果是0.98,两者极为相似,但从评分上看X似乎不喜欢这2个内容,而Y比较喜欢,余弦相似度对数值的不敏感导致了结果的误差,需要修正这种不合理性,就出现了调整余弦相似度,即所有维度上的数值都减去一个均值,比如X和Y的评分均值都是3,那么调整后为(-2,-1)和(1,2),再用余弦相似度计算,得到-0.8,相似度为负值并且差异不小,但显然更加符合现实。 欧氏距离与余弦相似度 欧氏距离是最常见的距离度量,而余弦相似度则是最常见的相似度度量,很多的距离度量和相似度度量都是基于这两者的变形和衍生,所以下面重点比较下两者在衡量个体差异时实现方式和应用环境上的区别。 借助三维坐标系来看下欧氏距离和余弦相似度的区别: 从图上可以看出距离度量衡量的是空间各点间的绝对距离,跟各个点所在的位置坐标(即个体特征维度的数值)直接相关;而余弦相似度衡量的是空间向量的夹角,更加的是体现在方向上的差异,而不是位置。如果保持A点的位置不变,B点朝原方向远离坐标轴原点,那么这个时候余弦相似度cosθ是保持不变的,因为夹角不变,而A、B两点的距离显然在发生改变,这就是欧氏距离和余弦相似度的不同之处。 根据欧氏距离和余弦相似度各自的计算方式和衡量特征,分别适用于不同的数据分析模型:欧氏距离能够体现个体数值特征的绝对差异,所以更多的用于需要从维度的数值大小中体现差异的分析,如使用用户行为指标分析用户价值的相似度或差异;而余弦相似度更多的是从方向上区分差异,而对绝对的数值不敏感,更多的用于使用用户对内容评分来区分用户兴趣的相似度和差异,同时修正了用户间可能存在的度量标准不统一的问题(因为余弦相似度对绝对数值不敏感)。 上面都是对距离度量和相似度度量的一些整理和汇总,在现实的使用中选择合适的距离度量或相似度度量可以完成很多的数据分析和数据挖掘的建模,后续会有相关的介绍。
个人分类: 知识发现|3975 次阅读|1 个评论
<预测圈>第一问
热度 1 TUGJAYZHAB 2011-5-24 20:27
预测网刚刚开张, 接到了网开第一问: 能否简单解释一下该图 (PCA vs MDSM, angle vs. distance) 在那里简单答复道: 多元系统分类/聚类,要侧重角度, 方向, 而非距离, 量值. 多维空间的角度, 方向, 用两多元向量的夹角余弦值表示. 比如: (1,0)和(0,1)不同, 但和(5,0)相同, 共线. 可推广到多维空间, 多元系统. 由于在那里, 不好修改, 不能存, 回到自己博客, 继续以博文答复: 假如为城市发展定义5个指标: 面积, 人口, 公交总里程, 手机数目, 金融从业人员比例. 在5维指标空间, 一个小城市A的值是: A=(1,2,3,4,5) 而另一个大都市B的数量指标是: B=(10,20,30,40,50) 虽然, 两个城市在规模上有很大差别, 但在组织, 结构, 功能上, 我们可以认为它们在五维指标空间共线, 两者相似 A~B. 计算过程如下: 代表城市A的向量长度: L(A)= 根号 = 根号 = 根号 城市B的向量长度: L(B)= 根号 = 根号 = 根号 城市A的向量在五元指标空间的指向, 余弦值: 余弦值(A)= /根号 =(1^2/根号 + 2^2/根号 + 3^2/根号 + 4^2/根号 + 5^2/根号 ) 城市B的向量在五元指标空间的指向, 余弦值: 余弦值(B)= /根号 =(10^2/根号 + 20^2/根号 + 30^2/根号 + 40^2/根号 + 50^2/根号 ) 从多元向量分析的角度, 把城市作为多元指标空间的多元向量看, 两者在组织,结构,功能上是相等的. 主要参考文献: T. Jay Bai et al. Multi-dimensional sphere model and instantaneous vegetation trend analysis. Ecological Modeling 97(1997)75-86.
个人分类: TIME SERIES|1897 次阅读|1 个评论
做科研与破案
热度 2 zuozw 2010-5-14 19:45
前段时间看 李昌钰 视频介绍,还有电视剧《神探狄仁杰》和电影《大侦探福尔摩斯》,或许三思不离本行(类比于三句不离本行),发现做科研和破案有很多相同之处。 首先,目的相同:解释和还原事实真相。 破案目的只有一个找出事实真相,维护正义。科研在实验上,不断地尝试摸索试验出事物的真实性(制备、性能和结构等)。理论上建立模型,改进模型,解释和指导现象。可能同一现象有不同的理论,但实际上是等同的,只是描述的方式不同而已。其实破案本身就是一门学科,破案过程就是做科研的过程。 其次,都存在假象,需要去伪存真且不放过任何蛛丝马迹 。破案中有很多作伪证的,需要从细微处辨别是非。科研上,很多时候我们看到的并不定是事实,需要从多角度多层次观察分析确定现象的真实性。还有很多因为对实验和理论观察计算不仔细而与重大发现失之交臂,这样的例子不胜枚举。 再次,都需要严格严密的逻辑推理论证 。破案中只是搜集材料和事实,很难完全地还原出真相,通过严格严密的推理才能一步一步地接近真相。科研也是如此:只是一味做实验,没有正确的理论指导,看起来像个无头苍蝇。理论推导不够严密,很容易得出错误的结论。 最后,都需要良好的基础(工具)。 不是案例材料准备好,有了推理就能破难的,还有需要各种鉴定工具确认证据的确凿性,并且需要不断改善鉴定手段和技术。在做科研中,为了不断地制备新材料新器件发现新性能,需要不断得改进实验仪器设备。在用理论解释现象时,当现有理论不能解释时,需要改善理论和创立探索新理论。打好坚实的基础是关键。 总之, 要像破案那样有明确的目标,去伪存真,打好基础,拥有优秀的逻辑思维和强烈的责任感 做科研。
个人分类: 科研心得|3717 次阅读|7 个评论
第三讲 数据中心化,样本聚类(草稿)
TUGJAYZHAB 2010-5-10 13:19
三个月的投资实验做完了,79个变量63天的数据已经有了( http://www.sciencenet.cn/m/user_content.aspx?id=310937 ,316934,和316935)。下面, 根据第一讲的“基本概念”http://www.sciencenet.cn/m/user_content.aspx?id=274489 和第二讲的“基本运算法则” http://www.sciencenet.cn/m/user_content.aspx?id=276221 ,我们以 79*63 的数据为例,在这里演绎“数据中心化”和“向量聚类”的数据简缩问题,为“趋势分析”“推测”做准备。 现在,这仅是“草稿”,“大纲”,非“超友”非“超迷”不必往下看。待第三讲的讲稿完成后,我会分成几个博文登出来。 这里仅是个幌子,佔个位子,表示并督促我自己,我要开始写第三讲了(免得我去“反打假”,或去讨论“沙尘暴”)。 如何把63支向量归纳成二支向量,两点确定趋势。 如何把63支向量归纳成三支向量,三点确定拐点。 主要内容:向量加法的应用和样方聚类,向量的相似.向量夹角余弦.线性相关. Sample synthesis, vector addition, and Centralization: Identical vegetation and identical m-vectors, m-Vectors in the same line. Different vegetation and Orthogonal vectors. Relation between two samples and angle between the vectors. Cosine values. Related vectors, linear combination of two vectors, of three vectors. Centroid Vectors. M元系统的状态是由它的相对组成决定的,是用M元向量的方向来表示的。 相同向量 维数相同,各对应分量相等的两支向量互为相同向量。 两相同向量相乘,乘积可以用M个正方形表示,面积周长比最大,自己和自己最相似。 如果,向量随时间变化,系统前后状态的乘积倾向于变小(留待以后讨论)。 相同股市。(相关向量), 组成股票相同,各股票对应价格相等的两个股市为相同股市,或同一股市的两个相同状态。 用元,角,分不同单位表示同一股市状态. 同一射线上的点. alpha*A=A, alpha 实数. 不同季节的同一植被(季相),不同取样面积的匀质(Homougeneous)植被. 不同的股市(纽约和深圳)。 互相垂直的向量,内积等于零。A.B=0 不同的植被。没有共有种的两片植被。 向量相似 介乎于垂直,相似之间,相似的向量.维数相同. 股市间的关系与向量间的夹角, A,B。 夹角余弦表示向量的相似(白, 1982)。 余弦值的计算公式(定义式). 定义:COSA,B=A.B/(|A|*|B|) (其中:|A|=向量长度) 一般来说,从植被学来说所有发自原点射线上的点代表相同的植被,A=(0,1,3) 等同于A'=(0,2,6).按以上的分析,A和A'都是草地,而且是具有相同组成的草 地.我们把植被组成作为植被的质的指标,而把植被的量值作为量的指标. 换句话说,我们认为向量的方向代表指被的质,而向量的长度代表植被的量. 同时,我们把上例中A和A'在量值上的差异主要归因于可能的取样面积的差异, 取样季节的差异,丰年歉年的差异,取样手段的差异.并把它们作为植被动态 分析中需要首先滤去的噪音(Noise).因此,MDSM首先要把代表样方的在多维空 间中的点,除以它们的量值,向量长度.比较形象的说法是:把多维空间中的点 投影到多维超球面上.这便是超球面模型MultiDimensional Sphere Model MDSM的名字的由来.然后,在此基础上再进一步,根据投影在超球面上的分布, 来划分植被类型,并用形心向量来代表植被.并通过观察,分析植被在超球面 上投影的运动 来监测植被. 练习:计算 A,B=, B,C= A,C=0999757847, ARC=0.5 A,-A, B,-B, C,-C, =1, ARC= 归并样方 平行四边形的角平分线. 平均值组成中心向量(Centroid vector)。 练习:求向量A+B+C, (A+B+C)/3, 计算: A, 2B, A,B, A+B+C, (A+B+C)/3 2A=A. 在alpha*A+beta*B中, alpha, beta (权)不改变加向量的方向角,但却改变 了和向量(对角线)的方向. 线性组合=平面 讨论: 命题:A B两向量的所有线性组合,alph*A+betaB充满AB所确定的平面(二维空间). AB平面上的向量,必定是A和B的线性组合;而A和B的线性组合必定在平 面AOB上. 图2 alpha.A+beta.B: A,B,-B,-A向量,alpha,beta 标量.角平分线改变方向: beta=0, 角平分线=OA; alpha=0, 角平分线=OB. 所有的组合充满AB所确定的平面(二维空间): 两向量所组成的4扇面, A+B,AOB. 对顶角-A-B, 补角:A-B, 或B-A. 数据 取自时间k的N个样本(M个股票的股市)在时间K的状态用形心向量来表示。 Y(i,k)=Sigma , j=1,2,..n。 从多维空间(沿中心向量)向球心看,众样本围绕,拱卫着中心向量.中心向量是 代表. 任一样本都偏离形心. 中心化最大限度地滤去了来自随机样本的噪音,干扰。 实现滤波.复合样本(Compound Sample, Gauch, 1982)加强信号,减低噪音. Y(i,k),多变量时间系列问题(M-Time series),或时间动态(temporal dynamics). 根据向量的旋转,来表示,监测系统的变化,动态. 在本书所涉及的领域:股市,植被,我们用指数增长来描述,而把线性作为指数 增长的特例. 在增率接近于一时,时间段比较短时,几何增长接近于代数增长: 几何数列:1, 1.1, 1.21,.. (增率=10%) 代数数列:1, 1.1, 1.2,... (增幅=0.1) Y(i,j),多变量空间分布(Spatial dynamics)问题. 根据向量的旋转,来表示,监测系统空间动态. 空间分布,一般用线性模型来描述. MDSM所用的数据是双向数据,双下标变量,但我们不作为矩阵来处理. 不是一个整体,而是K个向量,时间系列 或J个向量,空间系列.研究时间空间的动态. 对于79*63的数据,要归纳/缩减成79*2的数据,才显示趋势,两点确定直线. 把79*63的数据,归纳/缩减成79*3的数据,才显示拐点,三点确定拐点. 如何把63支向量归纳成二支向量. 如何把63支向量归纳成三支向量. 有待展开,有待深入.待修改,待续。
个人分类: 第三讲|3756 次阅读|0 个评论
相似与不同
pingguo 2008-10-16 16:07
一 看起来相似的花 嗅起来可不同 名字都叫苹果 南方与北方不同 自然就是这样 基因与素质不尽一致 自由就是这样 我有我的水土与表达 二 讲不同方言的中国人 太过相似 同学和同学的同学 朋友和朋友的朋友 痛也相似 乐也相似 输进去同样的信息 吐出来同一种文化 2008-10-10
个人分类: 诗歌|3172 次阅读|1 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-19 15:46

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部