科学网 › 标签 › 数学之美

标签: 数学之美

相关帖子	版块	作者	回复/查看	最后发表

没有相关内容

相关日志

基础理论的自然美: 热度 2 yqgu 2020-10-14 22:43; 最近看到博文《自然的数学观》， Penrose 认为 “ 自然的新数学模型并不是仅仅为了寻求符合事实的最佳理论而发明的人造物，更明白地说，数学纲领其实已经在大自然的运行中发生作用了。这种数学的简单性（或简洁性或随你怎么形容它）是自然行为方式的真实部分，而不是我们的头脑习惯被数学美所感染。另一方面，当我们有心用数学美的准则去构建理论时，很容易被引向歧路。 ” 杨振宁先生最近也表达过类似的观点，认为数学不仅仅是研究物理的工具，而是基础理论的一部分。这也算是对他自己的 “ 数学和物理的双叶理论 ” 的一次重要改进。我完全赞同这样的观点，而且一直在苦苦寻觅这套造物主的密码系统。如果看过我的新书《几何代数和统一场论》，应该会同意我可能已经找到了这套密码，这就是 Clifford 代数或几何代数。这个代数建立了一百多年，得到了很多数学和物理大师的深入研究，已有广泛的应用。如果将有关概念稍作推广和重新解释，几何代数就是描述基础物理和量化数学的自然语言和工具，自然地统一了现有基础理论的大部分内容。这是因为几何代数的定义自动蕴含了向量、长度、角度、面积和体积等几何概念，将标量、旋量、向量、外积和张量等代数运算统一起来，忠实地描述几何和物理中内容，不多也不少。几何代数推广了实数、复数、四元数和向量代数，将复杂的关系和运算转化为独立于坐标系的矩阵代数。通过引入微分算子和联络算子， Clifford 代数也包含了微分几何。几何代数运算类似于算术的加减乘除，每个一般智力的人都能很好地理解。这一特点对教学目的非常有用，如果在高中和大学推广几何代数，将大大提高学生学习数学和物理基础知识的效率。学习现代数学的真正困难在于，为了理解一个很小的结果，我们需要掌握一长串微妙的概念。数学家习惯于在概念之上定义概念，如果学习概念的链条断裂，随后的内容将是不可理解的。除了专业人士外，普通读者不可能有那么多时间仔细检查和理解所有的概念。幸运的是， Clifford 代数可以避免这个问题，因为几何代数只依赖于一些简单的概念，并且同构于一些特殊的矩阵代数； Clifford 代数的规则是标准化的，适用于无脑操作。因此，可以预期克里福德代数将完成科学知识体系的一次大综合。在我的印象中 Penrose 是个信奉繁琐哲学的人，所以我一直不是很欣赏他的东西，觉得他抓不住问题的要领。例如他和 Newman 搞的那套零标架表示：瞟一眼都觉得浪费时间，真是佩服他们的耐心。自然规律怎么可能是这幅样子。现在 Penrose 的观念能有这样的转变实属难得。还有梁灿彬老先生，出国回来准备在国内推广 Penrose 等人开发的微分几何抽象记号系统。形式上微妙易错，实质内容又没有表达清楚，很难掌握。经过二十多年的努力，最后老先生捧书感叹：微分几何推广起来怎么这么难！大自然的书是用最简单但是最精美的数学写成的。看看我书中的内容，心情应该是完全不同的。李咏，自然的数学观， http://blog.sciencenet.cn/home.php?mod=spaceuid=279992 Ying-Qiu Gu, Some Applications of Clifford Algebra in Geometry , https://www.researchgate.net/publication/338582922 https://doi.org/10.5772/intechopen.93444 梁灿彬，周彬，微分几何入门与广义相对论 ( 上中下 ) ，科学出版社，北京， 2006; 2916 次阅读|3 个评论

2017年书单（20）: 热度 2 zywsict 2017-11-7 08:28; 1 《传奇邵逸夫》何南 2 《杨绛：人生最曼妙的风景》田梦 3 《李敖快意恩仇录》李敖 4 《另类日本史》姜建强 5 《浪潮之巅》吴军 6 《黑羊效应》陈俊钦 7 《历史上最邪恶的女人》谢丽·克莱因 8 《民国十大女子的美丽与哀愁》肖素均 9 《犹太人惹了谁》王永刚 10 《简素》冈田武彦 11 《人间有味是清欢》于丹 12 《高盛眼中的世界》吉姆·奥尼尔 13 《樱花残》陈安 14 《天才在左，疯子在右》高铭 15 《病夫治国》皮埃尔·阿考斯皮埃尔·郎契尼克 16 《卡耐基传》冯松 17 《中华第一名相管仲》单传洪 18 《萧红十年集》林贤治 19 《沧浪之水》阎真 20 《数学之美》吴军; 个人分类: 书单|2738 次阅读|4 个评论

《数学之美》妙语录: 热度 1 pinjianlu 2017-6-29 17:39; 1、博导能够很快的判断一个研究方向是否正确，省去了博士做很多无谓尝试（ Try-And-Error ）的时间。 2、有些人善于找到间接快速的方法和容易做出成绩的题目（好发论文），有的人则习惯啃硬骨头（解决难题）；有些人三四年就拿到博士去当教授了，而有些人“赖在”学校里七八年不走，最后出一篇高质量的博士论文。 3、一般来讲，规模大的院系比规模小的要占不少便宜，因为前者学科齐全。马库斯的做法是把一个系变强而不是变大，在现在这个浮躁的社会，正需要马库斯这样的学者和教育家。 ——《数学之美》作者：吴军，谷歌工程师。; 个人分类: 人物与哲理|4456 次阅读|2 个评论

2015年书单（90）: 热度 3 zywsict 2015-11-4 18:24; 1. 《朝鲜战争 : 未曾透露的真相》约瑟夫·古尔登 2. 《论人的天性》 E.O. 威尔逊 3. 《邓小平时代》傅高义 4. 《荒原狼》赫尔曼•黑塞 5. 《我的河山会战篇》陈钦 6. 《我的河山幕后篇》陈钦 7. 《我的河山人物篇》陈钦 8. 《雷雨》曹禺 9. 《抗战时代生活史》陈存仁 10. 《不曾苟且》李承鹏、柴静、熊培云等 11. 《手机》刘震云 12. 《漫长的战斗：美国人眼中的朝鲜战争》约翰·托兰 13. 《血腥的盛唐 01 》王觉仁 14. 《血腥的盛唐 02 》王觉仁 15. 《血腥的盛唐 03 》王觉仁 16. 《血腥的盛唐 04 》王觉仁 17. 《血腥的盛唐 05 》王觉仁 18. 《血腥的盛唐 06 》王觉仁 19. 《血腥的盛唐 07 》王觉仁 20 《烟雨纷繁，负你一世红颜》张恨水 21 《绿皮火车》周云蓬 22 《帝国的惆怅》易中天 23 《帝国的终结》易中天 24 《费城风云》易中天 25 《世界是平的》托马斯·弗里德曼 26 《明朝那些事儿 01 》当年明月 27 《明朝那些事儿 02 》当年明月 28 《明朝那些事儿 03 》当年明月 29 《明朝那些事儿 04 》当年明月 30 《明朝那些事儿 05 》当年明月 31 《明朝那些事儿 06 》当年明月 32 《明朝那些事儿 07 》当年明月 33 《白崇禧口述自传》白崇禧 34 《乡土中国》费孝通 35 《战争从未如此热血》关河五十州 36 《中国人的性格》史密斯 37 《心理学的故事》墨顿·亨特 38 《顾颉刚自传》顾颉刚 39 《安娜·卡列尼娜》列夫·托尔斯泰 40 《变色龙》契诃夫 41 《技术的本质：技术是什么，它是如何进化的》布莱恩•阿瑟 42 《北欧的神话故事》耿月红 43 《移动的帝国：日本移动互联网兴衰启示录》曾航，刘羽，陶旭骏 44 《北京北京》冯唐 45 《企鹅与怪兽：互联时代的合作、共享与创新模式》尤查·本科勒 46 《天才的扩荒者冯诺依曼传》诺曼·麦克雷 47 《活着活着就老了》冯唐 48 《心里有数的人生》史蒂芬•斯托加茨 49 《霍乱时期的爱情》加西亚·马尔克斯 50 《编程人生十五位软件先驱访谈录》 Peter Seibel 51 《哥德尔传》约翰 · 卡斯蒂，维尔纳 · 德波利 52 《数学：描绘自然与社会的有利模式》哈里 · 亨德森 53 《国家兴衰探源》曼库尔 · 奥尔森 54 《群体性孤独》雪莉·特克尔 55 《一只iPhone手机的全球之旅》曾航 56 《数字乌托邦》弗雷德·特纳 57 《日本帝国的衰亡》约翰·托兰 58 《史蒂夫·乔布斯传》沃尔特·艾萨克森 59 《近代中国社会的新陈代谢》陈旭麓 60 《艾伦·图灵传》安德鲁·霍奇斯 61 《孽海花》曾朴 62 《私有云计算》斯穆特 63 《日瓦戈医生》帕斯捷尔纳克 64 《未来是湿的》克莱•舍基 65 《动物精神》罗伯特·希勒乔治·阿克洛夫 66 《生命册》李佩甫 67 《自私的皮球》辉格 68 《浪潮之巅第二版》吴军 69 《鲁迅小说全集》鲁迅 70 《钱学森传》童苏平，邢娓娓 71 《民国青楼秘史》文芳 72 《男人这东西》渡边淳一 73 《这才是思维》爱德华·德博诺 74 《历史深处的忧虑》林达 75 《物联网大趋势》张铎 76 《我们如何拯救过去：梁漱溟谈中国文化》梁漱溟 77 《黄雀记》苏童 78 《儒林外史》吴敬梓 79 《重新定位》杰克·特劳特 80 《发现自由意志与个人责任》里奇拉克 81 《科技想要什么》凯文・凯利 82 《互联网+:国家战略行动路线图》马化腾 83 《一路走来一路读》林达 84 《信息简史》詹姆斯·格雷克 85 《苏东坡传》林语堂 86 《无出路咖啡馆》严歌苓 87 《时间简史》史蒂芬·霍金 88 《一地鸡毛》刘震云 89 《数学之美》吴军 90《信号与噪声:大数据时代预测的科学与艺术》纳特•西尔弗; 个人分类: 书单|2668 次阅读|5 个评论

《数学之美》摘抄: 热度 3 zywsict 2015-11-1 18:00; 《数学之美》由吴军所著。 1. 乔姆斯基（Noam Chomsky 有史以来最伟大的语言学家）提出 “形式语言” 以后，人们更坚定了利用语法规则的办法进行文字处理的信念。 2. 首先成功利用数学方法解决自然语言处理问题的是语音和语言处理大师贾里尼克 (Fred Jelinek)。当时贾里尼克在 IBM 公司做学术休假 (Sabbatical Leave)，领导了一批杰出的科学家利用大型计算机来处理人类语言问题。统计语言模型就是在那个时候提出的 3. 复杂的语音识别问题通过隐含马尔可夫模型能非常简单地被表述、解决，让我不由由衷地感叹数学模型之妙。 4. 八十年代李开复博士坚持采用隐含马尔可夫模型的框架，成功地开发了世界上第一个大词汇量连续语音识别系统 Sphinx。 5. 对于任意一个随机变量 X（比如得冠军的球队），它的熵定义如下：变量的不确定性越大，熵也就越大，把它搞清楚所需要的信息量也就越大。 6. 如果一本书重复的内容很多，它的信息量就小，冗余度就大。不同语言的冗余度差别很大，而汉语在所有语言中冗余度是相对小的。这和人们普遍的认识汉语是最简洁的语言是一致的。 7. 建立一个搜索引擎大致需要做这样几件事：自动下载尽可能多的网页；建立快速有效的索引；根据相关性对网页进行公平准确的排序。 8. 互联网自动下载工具网络爬虫 (Web Crawlers) 之间的关系。如何自动下载互联网所有的网页呢，它要用到图论中的遍历（Traverse) 算法。 9. 有了超链接，我们可以从任何一个网页出发，用图的遍历算法，自动地访问到每一个网页并把它们存起来。完成这个功能的程序叫做网络爬虫，或者在一些文献中称为机器人（Robot)。世界上第一个网络爬虫是由麻省理工学院 (MIT)的学生马休.格雷（Matthew Gray)在 1993 年写成的。他给他的程序起了个名字叫互联网漫游者(www wanderer)。以后的网络爬虫越写越复杂，但原理是一样的。 10. 信息论中仅次于熵的另外两个重要的概念是“互信息”（Mutual Information) 和“相对熵”（Kullback-Leibler Divergence)。“ 互信息”是信息熵的引申概念，它是对两个随机事件相关性的度量。 11. 信息论中另外一个重要的概念是“相对熵”，在有些文献中它被称为成“交叉熵”。在英语中是 Kullback-Leibler Divergence，是以它的两个提出者库尔贝克和莱伯勒的名字命名的。相对熵用来衡量两个正函数是否相似，对于两个完全相同的函数，它们的相对熵等于零。在自然语言处理中可以用相对熵来衡量两个常用词（在语法上和语义上）是否同义，或者两篇文章的内容是否相近等等。利用相对熵，我们可以到处信息检索中最重要的一个概念：词频率-逆向文档频率（TF/IDF) 12. 如何自动下载网页、如何建立索引、如何衡量网页的质量(Page Rank)。我们今天谈谈如何确定一个网页和某个查询的相关性。如果一个查询包含关键词 w1,w2,...,wN, 它们在一篇特定网页中的词频分别是: TF1, TF2, ..., TFN。（TF: term frequency)。那么，这个查询和该网页的相关性就是:TF1 + TF2 + ... + TFN。在信息检索中，使用最多的权重是“逆文本频率指数” （Inverse document frequency 缩写为ＩＤＦ），它的公式为ｌｏｇ（Ｄ／Ｄｗ）其中Ｄ是全部网页数。比如，我们假定中文网页数是Ｄ＝１０亿，应删除词“的”在所有的网页中都出现，即Ｄｗ＝１０亿，那么它的ＩＤＦ＝log(10亿/10亿）= log (1) = ０。 10. 产生信息指纹的关键算法是伪随机数产生器算法（prng)。现在常用的 MersenneTwister 算法要好得多 11. 最大熵原理指出，当我们需要对一个随机事件的概率分布进行预测时，我们的预测应当满足全部已知的条件，而对未知的情况不要做任何主观假设。; 个人分类: 读书笔记|5348 次阅读|6 个评论

数学之美读书笔记: sdfgh2046 2015-7-13 12:29; 由于作者拒绝转载，本文在原文参考下，修改完成。参阅地址： http://blog.csdn.net/necrazy/article/details/14644075 Chapter.1 文字，语言VS数字，信息人类和很多动物都采用了声音来传递信息，在信息的传递中，用声音对信息进行了编码和解码。在编解码过程中，人们对声音进行了原子化的分解和组合，来表达更丰富的信息，这就形成了词汇。当词汇的量使得人们已经不足以全部记住的时候，就产生了文字。最开始人们采用的是象形文字，且在公元前32世纪，只有500个象形文字，但是随着文明的发展，文字逐渐增多，当公元前5-7世纪，文字数量达到了5000 个。当时人们很难学会这么多文字，为了避免词汇的增加，聚类就出现了。同一个文字可以表示多个意思，并采用上下文来区分其具体的含义。不同的文明产生了不同的文字，但是其表达的信息在本质上是相同的，而且不同的文字系统在表达信息的能力上是等价的，这就是的翻译可以达成。其实不仅文字系统间是等价的，文字系统和数字系统在表达信息上也是等价的，例如数字通信。罗塞塔石碑使得人们对5000年前的埃及文明的了解比1000年前的玛雅文明要多得多，给我们以下启示：信息的容易是防止信息丢失的保障。多语语料对于翻译至关重要。【信息冗余的重要性：当石碑经历风吹日晒，一部分文字被腐蚀掉时，还有另一部分重复的文字作为备份，可以还原石碑的信息。类似的还有人体的DNA，在人体当中，有99%的DNA是无效的，正是这99%保证了人类的正常繁衍，当遇人类遇到辐射时，DNA发生变异的概率是1%.】数字的产生类似与文字，当人们的财产多到需要数一下的时候，数字就产生了。随着数据的增加，人们的手指头和脚趾头都不够用了的时候，进制就产生了。为了表达大数，不同的文明产生了不同的数字表示方法，最终只有使用10进制的文明生存了下来。 10进制：古中国、古印度、阿拉伯 12进制：印度、斯里兰卡 20进制：玛雅，玛雅文明失败的原因之一就是进制太复杂，不利于科学进步，咱们现在要背九九乘法表，他们背的是361路围棋棋盘。（玛雅的文字也比较复杂。）单位进制：罗马（5、10、50、100、500、1000）数字的表示方法（编解码原理）中国：编解码的密钥是乘除二百万 = 2x 100 x 10000 罗马：编解码的密钥是加减 IV =5-1 = 4 ,要用罗马文字表达10亿的话，一黑板是写不下的。从象形文字到楔形文字（拼音文字）是又一大飞跃。人们对事物的描述从外表深入的了其抽象的概念。从事采用了对信息的编码，并且不同的文明几乎都采用了最短信息编码，常用的词汇用最少的笔画（字母数）来表达，以省时间、省材料。以前的文字书写纸石壁、龟壳和竹简上，书写比较麻烦，所以口语和书面语就进行了一次信息的压缩，类似与wap网页的额设计。【.将日常的白话口语写成精简的文言文本身是一个信道压缩的过程，而将文言文解释清楚则是对应的解压缩过程。】犹太人为了避免对圣经的书写错误，引入了行列校验码的方法。【抄圣经的校验方式：将每个字母映射成一个数字。把每一页文字对应的数字按行列加起来，写在每行每列的尾部。在抄写时，把自己的数字和原文的数字进行对照，可以以最快的速度检查是否有抄写错误，而且还能定位行列。这种简单有效的方法已经开始展现出数学之美了】现代语音引入了语法的概念，有利于表达信息更准确和丰富。词可认为是有限而封闭的集合，语言则是无限且开放的集合，前者有完备的编码规则，后者则不然。并且各种“大家”的文字中都有很多语法错误，而这个并不影响信息的交流和传播。并且时间证明，语言对比语法对在进行语言学研究中更重要。 Chapter.2 自然语言处理--从规则到统计语言的数学本质：一种语言实际上就是一种信息的编码方式，字母、文字和数字是信息编码的不同单位。语言的语法规则是编解码的算法。我们把一个要表达的意思，通过某种语言的一句话表达出来，就是用这种语言的编码方式对头脑中的信息做一次编码，编码的结果就是一串文字。如果对方懂得这门语言，就可以用这门语言的解码方法获得说话人要表达的信息。自然语言处理（NLP）的发展历程：基本分为两个阶段，20世纪50年代到70年代，是科学家走弯路的时代。当时学术界对自然语言处理的理解是：只有让机器有类似人类的智能，才能让计算机来理解自然语言。这种处理方式被称之为“鸟飞派”，比喻像鸟飞一样来造飞机。科学家主要从句法分析和语义分析两个方向让机器提高智能。采用这种方式主要受到惯性思维的影响：传统语言学主要使用这种方式来研究各个国家的语言，并帮助人们更好的掌握了不同的外语。并且，文法规则可以很方便的用计算机的算法表示，并且在初期也取得了一些很好的结果，例如乔姆斯基形式语言学中的上下文无关语法对编译技术的影响等，坚定了人们采用此种方法的信心。但是基于规则的方法遇到了不可逾越的坎：首先是文法规则的爆炸性增长，使得计算机无法做到全覆盖。其次，人们认识到语言是上下文相关文法，其复杂度是上下文无法语法的一万倍（分别是句子长度的2次方和6次方）。这个复杂度即使是intelI5处理器，处理一个30词左右的句子也需要几分钟。这种速度根本无法进入正常的商用。 20世纪70年代后，统计语言学出现了。最初是IBM华生实验室对语音识别有了突破性的进展。后来卡内基-梅隆大学和宾夕法尼亚大学相继做出了重要的贡献。使得基于统计的方法相比基于规则的方法逐渐占据了上风。但是这个过程花费了15年的时间，不要小看15年，对一个博士生来说，15年基本决定了他一生是否能做出有效贡献的黄金时间。为什么需要花费这么久的时间： 1.统计语言学早期也面临很多问题。由于计算机运算能力不强，基于有向图的统计模型还没出现等原因，使得其只能处理浅层的自然语言处理问题。而当年人们的需求主要是自动应答系统，这个系统需要处理复杂的语言处理问题。 2.老的科学家控制者话语权，使得基于规则的方法更容易获得基金的支持。 3.20世纪90年代后，web的出现，使得数据大量增加，人们的需求从自动应答向网页搜索和数据挖掘转移。新的需求主要靠大数据和浅层自然语言处理来支持。需求的变化，使得商业上的投入增加，进而研究人数也在增加，加快了统计语言学的进步。评注：计算机在处理事务的时候，有的地方比人弱，有的地方却比人强。已经不止一处证明，计算机可以用数值的方法，使用数量来提高质量，并且准确率也很高，满足大部分的需求没有问题。在现代社会，很多技术，如果外部条件无法满足，将很难有所进步。例如，智能手机的需求一直都存在，但只有传感器技术、屏幕技术和网络技术都相对成熟的时候，才会出现智能手机的繁荣。苹果手机的确伟大，但是即使没有苹果手机，也会有别的手机出现的。苹果手机只是抢占了先机而已。此外，现在的外部环境下，统计语言学占据了先机，但随着外部条件的变化，例如计算智能有了很大的提高，人们会不会又返回来重新重视基于规则的语言学呢？毕竟基于规则的语言学，在人类这台高级智能计算机上被证明还是很有用的。当然，由于机器的独特的个性，即使基于规则的方法重新重视，也会和人类处理自然语言的方案大相径庭。 1、语意理解（失败）：让计算机像人脑一样分析语句的意思，建立语法分析树。失败原因有两点： a.当遇到长难句时，计算量大幅增加，计算机的解码是上下文无关的，而自然语言是上下文相关的。 b.要理解语意必须建立大量的语法规则，然而即使规则再多，也不能覆盖全部的自然语言，总会有新的流行语言产生，它们处于语法规则之外。 2、数学与统计（成功）：通过隐含马尔可夫模型来估计句子出现的可能性。马尔可夫假设：在一个句子中，每个词x出现的概率只与它前面的一个词x-1有关，而与更前面的0~x-2个词无关。这是一个偷懒却有效的假设，这个著名的假设使得语言处理的计算速度大幅提升且不失准确。马尔可夫链是马尔可夫模型的基础。它是一个有向图，各个状态之间有转移概率。同时，马尔可夫链也对概率论的研究产生了巨大贡献。马尔可夫链的训练：鲍姆-韦尔奇算法 Chapter.3 统计语言模型统计语言学：为了解决自然语言这种上下文相关的语言而建立的数学模型。其用数值的方法，不精确的方法，用量来改变质，逐步提高正确的概率。广泛应用于机器翻译、语音识别、印刷体和手写识别、拼写纠错、汉子输入和文献查询中。几十年前，数学家兼信息论的祖师爷香农(ClaudeShannon)提出了用数学的办法处理自然语言的想法。遗憾的是当时的计算机条件根本无法满足大量信息处理的需要，所以他这个想法当时并没有被人们重视。七十年代初，有了大规模集成电路的快速计算机后，香农的梦想才得以实现。首先成功利用数学方法解决自然语言处理问题的是语音和语言处理大师贾里尼克(FredJelinek)。 1.一个句子是否合理，由这种文字组合出现的概率来判断。 2.一阶（可扩展到n阶）马尔科夫假设---用p（wi|wi-1）近似p(wi|wi-1,wi-2,...w1) 3.不平滑问题：由于训练样本不足而造成的部分条件概率为0的估计问题 4.古德-图灵估计：从概率总量中分配一个小比例给未看见的事件（训练集以外）----即给不可信的样本集打一个估计总体的折扣（对出现频次小于某阀值的词的估计打一折扣已解决不平滑问题）统计学陷阱当统计样本不足时（分母太小），统计结果的说服力将降低，此时可以用古德-图灵方法对统计结果进行打折平滑处理 N阶马尔可夫假设：每个词和它前面的N-1个词有关，N元模型的大小是N的指数关系。Google翻译使用的是4阶模型; 个人分类: 生活随笔|3 次阅读|0 个评论

见证奇迹：为什么圆是360°？--用数学来玩魔术吧: 热度 1 fengjiegeng 2015-1-7 13:08; 先生们，女士们： 10 进制下，对于任何数，各位置上的数字都不能超过9，呵呵，这不算什么，是由10进制来决定的。不过，在360°的圆内，奇迹发生了： 360 ° 3+6+0= 9 平分后 180° 1+8+0= 9 平分后 90° 9+0= 9 平分后 45° 4+5= 9 平分后 22.5° 2+2+5= 9 …… 无限平分，其角度，各位置上的数的和都是 9 各位，奇迹仍在进行：内正三角形内角和180°1+8+0 = 9 内正四边形内角和360°3+6+0 = 9 内正五边形内角和540°5+4+0 = 9 内正六边形内角和720°7+2+0 = 9 …… 无限增加，其内角和，各位置上的数的和都是 9 好玩吗？还没完，继续看... 4 进制下，对于任何一个数，各位置上的数字都不能超过3，呵呵，这不算什么，是由4进制来决定的。不过，当我们定义4进制下的圆为120° 时，奇迹再次发生：请注意，是在4进制下进行运算！ 120 ° 1+2+0 = 3 平分后 30° 3+0= 3 平分后 12° 1+2= 3 平分后 3° 3= 3 平分后 1.2° 1+2= 3 …… 无限平分，其角度，各位置上的数的和都是 3 各位，请继续看：请注意内角和公式仍适用于这里，据此不难得出以下结果。内正三角形内角和30°3+0 = 3 内正四边形内角和120°1+2+0 = 3 内正五边形内角和210°2+1+0 = 3 内正六边形内角和300°3+0+0 = 3 …… 无限增加，其内角和，各位置上的数的和都是 3 （或3的倍数）。好玩吗？谜底即将揭晓... 在4进制、10进制下的圆里，发生了如此奇妙的事情，这是上帝的旨意吗？是巧合吗？或者另有蹊跷？！请擦亮双眼，继续看。 16 进制下，对于任何一个数，各位置上的数字都不能超过 F （取值范围为：0，1,2,3,4,5,6,7,8,9，A,B,C,D,E, F ），呵呵，这不算什么，是由16进制来决定的。不过，当我们定义16进制下的圆为5A0° 时，会发生什么？请注意，是在16进制下进行运算！ 5A0 ° 5+A+0 = F 平分后 2D0° 2+D+0= F 平分后 168° 1+6+8= F 平分后 B4° B+4= F 平分后 5A° 5+A= F …… 无限平分，其角度，各位置上的数的和都是 F 奇迹仍在上演！然后呢？请注意内角和公式仍适用于这里，据此得出以下结果：内正三角形内角和2D0°2+D+0 = F 内正四边形内角和5A0°5+A+0 = F 内正五边形内角和870°8+7+0 = F 内正六边形内角和B40°B+4+0 = F …… 无限增加，其内角和，各位置上的数的和都是 F （或F的倍数）。这就是数学魔术！想玩吗？教一招：首先，通过6n+4 确定进制，n取值（0,1,2,3…）之后，确定一个三位数，左一是2n+1,中间是2（2n+1），第三位是0 最后，开始魔术！问：圆是怎么回事？答：你不觉得圆是魔术的道具、障眼法吗？问：为何这么说？答：确定了某三位数后，将其定义为圆周度数（用圆来障眼），，就被障眼了，，就被障眼了，呵呵。问：为什么如此找到的三位数，有这样的奇迹？答：呵呵，回去学数学去。; 3420 次阅读|2 个评论

推荐吴军的三本书：《数学之美》、《浪潮之巅》、《文明之光》: 热度 7 ljrsch 2014-12-10 13:39; 自己认为的好东西总想与大家分享。吴军的三本书就是这样的好东西。一年前，我的研究生向我推荐《数学之美》，说是一本好书。当时大概翻了一下，没有仔细看便放下了。 2014年暑假，到研究室给学生开会，来得早了一会。桌子上放着一本《数学之美》，百无聊赖，顺手拿起。刚刚读了几页，被她通俗易懂的语言所吸引！这样的书实在难得：不纠结于生涩难懂的术语和细节的术，抓住的是背后根本的“道”！书中的很多内容之前也看过，但是其它书籍上几页篇幅都不明白的内容被吴军几句话就说得清清楚楚！真是举重若轻！紧接着的几天里，一口气把《数学之美》读了三遍以上，并在书中作了很多注释和总结（下图，原图中最左边圆圈内的标注错误，阅读时注意）。这本书真是把我们所学过的以为没有用处的数学知识与实际问题结合起来，真正的理论与实践的结合。《数学之美》的精彩内容包括Google搜索引擎及PageRank算法、搜索广告与逻辑回归、新闻分类与余弦定理、图论与网络爬虫、最大熵模型、隐马尔可夫链、贝叶斯网络等。基于对《数学之美》的喜爱，到亚马逊查找吴军的书，买了《浪潮之巅》和《文明之光》。《浪潮之巅》由《数学之美》的技术层面上升到公司层面，写的是有幸站在技术之巅的公司的故事，是很好的商业案例。本书两大优点：来龙去脉清晰；分析透彻，体现了对“道”的重视。这些公司包括：IBM、Intel、Google、Apple、Nokia、Oracle、... 《文明之光》又上升到了人类文明的层面。窃以为这是吴军的利害之处，具有非常好的把控力和表达力。以前我们在历史课本上读到的都是以时间和名字为主的政治军事史。《文明之光》两大亮点：人类的科技、文化、文明史，视角的独特；生动有趣，以讲故事的方式把来龙去脉说得多彩而有趣。另外，吴军在爱奇异网上有“文明之光”书茶室，写书心得： http://www.iqiyi.com/w_19rsneoknx.html 。; 26665 次阅读|8 个评论

浅谈Google的搜索引擎与奇妙的信息指纹-读《数学之美》有感: 热度 11 ljrsch 2014-12-8 16:51; 所有的搜索引擎，包括Google搜索引擎，由三部分组成，分别是下载、索引和排序。下载是把世界上所有网页都下载下来，当你搜索关键词的时候，他只需要把你搜集到的含有关键词的网页提取出来而不用先下载再提取。索引指建立快速有效的索引。我们知道，网页数量是难以想象的巨大，比如说在1千亿个网页中，搜索一个关键字“电子商务”，我们可能得花费好几十天的时间，所以我们必须建立快速有效的索引。显而易见，这个过程就类似图书馆找书。至于排序，还是上面的例子，如果我们找到100个关于电子商务的网页，我们有可能把每个网页都浏览到；但通常的搜索得到的是100“页”甚至还更多“页”的网页，我们会看到第1页、第二页……但我们不可能读完100页，能读到第10页就已经相当不错了。因此排序至关重要。这三部分都是由简单的数学原理作为支撑的。先说下载：整个互联网可以用“图”来表示，结点代表“网页”、“网站”，弧代表“链接”。比如河北工业大学，你点开网页，还会有很多别的链接，如管理学院、计算机学院……，你点开管理学院，会有各个系，如信管系、电子商务系……。也就是说互联网有很多层次。Google搜索引擎的下载部分应用了数学中“图论”的知识。利用图论的算法，如深度优先遍历、广度优先遍历等，自动访问并下载每一个网页。再说存储问题：下载完之后如何存储呢？需要解决两个问题，一是如何存储才能在下载前知道当前网址信息已存不需要下载？举个简单例子，比如你下载了河北工业大学网址，但管理学院网址有可能链接回河北工业大学，这个时候第二次碰到河北工业大学，就不应重复下载了。二是以什么形式存储才能缩小规模？比如河北工业大学这一网址算是短的；但是我们知道，网址越靠下级，字符串就越长。将网址字符串存为数字，计算机很容易实现。但是有100个字符串，影射为100个数字，那么平均下来，全世界的数据，需要2000多个服务器，规模非常之大。也就是说光是存网址就需要2000台服务器。换言之：在搜索的时候，我们必须从2000台服务器中去找需要的东西。这个太复杂了！速度上太慢。如此，必须缩小存储规模。一个办法是对网页进行编码。比如说河北工业大学，可以编码为300401。但是问题是，它无法解决上述第一个问题。也就是在下载网址之前，不能够预先知道该网站是否已经下载过。我们必须有一个方法使网址自动对应一个数。有人说，将河北工业大学对应为“hebut”，这也有新的问题—重名，这种方法的重名概率非常大。人们发明了一个信息指纹的方法，它完美的解决了上述两个问题。其做法可以简单描述为：我们先把河北工业大学转化成数字，多长的数字都没关系，比如说转化为100位数，怎么把它转化为信息指纹呢？用伪随机数产生器。其做法就是将一个数做“×”、“÷”、取整等运算，产生一个数，这个数就是指纹。最早的伪随机数生成器算法是由冯•诺依曼（计算机之父）提出来的，它的方法非常简单，将一个数的平方掐头去尾取中间。比如371^2=137641,去掉头尾为3764.我们用3764代替河北工业大学，下次在遇到河北工业大学，它的编码方式是固定的，依旧为3746，从数据库上查找是否已存3764，如果没有，就继续下载。大家肯定想，很可能有两个不同网址的信息指纹是一样的。当然，Google采用的不是冯的方法，因为该方法还是有一定的重合概率，并不是很随机。然而数学上完全可以证明：伪随机数产生器产生的伪随机数出现重复的概率非常小，并且对伪随机数直接作加减乘除等运算得到的结果出现重复的概率也是非常小的。信息指纹简单粗暴的解决了网址重名的问题。现实中我们很多时候要比较集合是不是一样，所谓一样，就是所包括的元素是否一样。如何比较{“北京”、“中关村”、“地铁”}与{ “中关村”、“北京”、“地铁”} 是否一样？如何比较？最直接的办法就是对这个集合的元素一一做比较，这个方法计算的时间复杂度非常高的；稍微好一些的办法是将两个集合的元素分别排序，然后顺序比较，但还不是很好。实际上是每个词都有它的信息指纹—--数字，只需要将这些数相加，只要相加的和相等，那这两个集合就一样，简单吧！不管是加减乘除如何运算，伪随机数重复的概率都非常小。如果是数学的话，数加和的概念，在古埃及的时代也有类似应用。比如说抄写，我写了一本书，当时没有打印机，只能人工抄写，抄写第一遍错两个字，十遍之后可能文章就面目全非了，所以就必须要检验。怎样校验呢？犹太人为了抄写圣经的时候不犯错，把每个字母对应一个数字，然后把每一行和每一列的数字都取和，就形成校验码，抄写后对比行和列的校验码能够大幅度降低抄写错误。这跟前面说过的信息加和判断集合是否相同，一个道理。书中说到，人类在应用上有了很大进步，但是各种东西，最根本的“道”一直是一样的。比如做翻译，一定要有信息的冗余，这是过去古埃及罗塞塔石碑（石碑上用三种语言记载了托勒密五世登记的诏书，1822年其中的古埃及象形文字被破译）给我们的启示。做自然语言处理，一定要有信息的冗余和对照。虽然“术”发生了很大的变化，这个“道”一直没有变化。奇妙吧！接着讲搜索引擎的事情。之前讲到索引了。索引是干什么的？索引就是搜索一个关键词的时候，你得知道哪几个网页和你相关，把相关网页提取出来。Google建立了一个网页-关键词的0-1矩阵。我们知道，关键词都是有词料库的，网页含有这个关键词，就用1表示；如果不含有该词，就用0表示。还是前面的例子，如果搜索{ “中关村”、“北京”、“地铁”}，他找到这些网页，做一个“与”运算，结果矩阵中，三者全为1的网页才是目标网页。这即为布尔逻辑。最后是排序。排序用的PageRank。在这一部分需要解决两个问题。第一：呈现高质量网页（PageRank）；第二，呈现相关网页（相关性）。PageRank完全改变了之前的做法。先不管相关性问题，解决第一个问题：比如说有100个网页，这100个网页中，给他们排序。网页重要性的依据主要有两点：链接该网页的数量与链接该网页的网站的质量。数量很好统计，那质量呢？Google提出的PageRank解决了这个问题：给不同网站的链接打分，网页质量越高，打分越高，反之，网页质量低，打分就低。但是你如何确定这个网页质量是高还是低呢？而且网页之间是相互引用的，存在“鸡生蛋还是蛋生鸡”的问题。具体做法呢？有一个小例子，可以形象的说明佩奇排序的运算过程：三兄弟分 30 颗豌豆。起初每人 10 颗，他们每次都要把手里的豌豆全部平均分给自己喜欢的人。下图表示了三兄弟各自拥有的初始豌豆数量，以及相互喜欢的关系（箭头方向表示喜欢，例如老二喜欢老大，老大喜欢老二和老三）。就这样，让游戏一直进行下去。直到他们手中的豌豆数不再变化为止。那么这个游戏到底是否可以结束呢，如果可以，最终的结果又是什么样的？在此我们用电脑模拟了这个过程，得出的结果是：老大和老二的盘子里各有 12 颗豌豆，而老三的盘子里有 6 颗豌豆。这时候无论游戏怎么进行下去，盘子里的豌豆数量都不会再变化。如果把豌豆的数量看作这个分数值（可以不是整数），把孩子们看作网页，佩奇排序就不难理解了。; 8363 次阅读|10 个评论

[转载]转数学之美系列文章列表: 夜雪5 2011-6-23 20:18; 数学之美系列完整版）作者：吴军, Google 研究员　来源：Google黑板报　酷勤网收集　2007-12-04 收藏数学之美一统计语言模型数学之美二谈谈中文分词数学之美三隐含马尔可夫模型在语言处理中的应用数学之美四怎样度量信息? 数学之美五简单之美：布尔代数和搜索引擎的索引数学之美六图论和网络爬虫 (Web Crawlers) 数学之美七信息论在信息处理中的应用数学之美八贾里尼克的故事和现代语言处理数学之美九如何确定网页和查询的相关性数学之美十有限状态机和地址识别数学之美十一 Google 阿卡 47 的制造者阿米特.辛格博士数学之美十二余弦定理和新闻的分类数学之美十三信息指纹及其应用数学之美十四谈谈数学模型的重要性数学之美十五繁与简自然语言处理的几位精英数学之美十六不要把所有的鸡蛋放在一个篮子里最大熵模型数学之美十七闪光的不一定是金子谈谈搜索引擎作弊问题(Search Engine Anti-SPAM) 数学之美十八矩阵运算和文本处理中的分类问题数学之美十九马尔可夫链的扩展贝叶斯网络 (Bayesian Networks) 数学之美二十自然语言处理的教父马库斯数学之美二十一布隆过滤器（Bloom Filter）数学之美二十二由电视剧《暗算》所想到的 mdash; 谈谈密码学的数学原理数学之美二十三输入一个汉字需要敲多少个键 — 谈谈香农第一定律; 个人分类: 数学科普|2504 次阅读|0 个评论

数学之美: tengyi1960 2009-6-30 15:36; 推荐数学之美数学之美; 个人分类: 亲朋好友|2285 次阅读|1 个评论

更多...

帐号		自动登录	找回密码
密码			注册

关闭 安全验证

标签: 数学之美

相关帖子

相关日志

关闭安全验证