科学网

 找回密码
  注册
科学网 标签 主题 相关日志

tag 标签: 主题

相关日志

武汉大学数字人文研究中心跨学科论坛(第四期)
limer 2011-12-30 17:49
“武汉大学数字人文研究中心跨学科论坛”(第四期) 主题:石窟艺术与数字化 时间: 2012 年 1 月 4 日(周三) 19:00 地点: 测绘遥感信息工程国家重点实验室二楼报告厅 主讲人: 吴健 研究员 敦煌研究院 主办单位: 测绘遥感信息工程国家重点实验室 武汉大学数字人文研究中心 协办单位: 武汉大学数字文化遗产研究中心 武汉大学考古系 主讲人简介: 吴健 ,研究员,男, 1963 年 6 月出生于甘肃省酒泉市,毕业于鲁迅美术学院摄影系。现任敦煌研究院数字中心主任;国家古代壁画保护工程技术研究中心副主任;浙江大学兼职教授;甘肃摄影家协会副主席;中国摄影家协会会员;中国文物摄影委员会理事。 多年从事敦煌石窟艺术摄影和敦煌石窟艺术图像拍摄与展示的研究,承担相关课题研究,参与敦煌壁画数字化等多个国内外敦煌学项目的管理。 出版《敦煌石窟艺术全集》( 28 卷)、《敦煌石窟艺术》( 22 卷)、《丝路胜迹 - 吴健摄影作品集》、《艺术的敦煌 - 吴健摄影作品集》、《中国大同雕塑全集 - 云冈石窟雕刻卷》(上下卷)等 20 余部专著和独立摄影著作。多幅作品和论文发表于《中国国家地理》、《敦煌研究》和《中国摄影》等专业杂志,多次荣获“敦煌文艺奖”一等奖和全国文物摄影银奖等重要奖项。在日本、英国、美国和中国台湾地区、香港等地举办展览和发表演讲。 2004 年 10 月列入“中央电视台东方时空 — 东方之子”, 2009 年入选甘肃省领军人才。
4823 次阅读|0 个评论
[转载]从数据中抽取模型——记洪小文博士“21世纪计算”主题演讲
zhaozengshun 2011-12-29 21:34
从数据中抽取模型——记洪小文博士“21世纪计算”主题演讲 (2011-11-24 09:08:40) Extracting Models from Data 编者按 : 2011 年 10 月 26 日,由微软亚洲研究院和清华大学联合举办的第 13 届“ 21 世纪的计算”大会在清华大学隆重举行。本届大会以“计算之本,创新之源”( Back to Basics–Fundamental Research Fuels Innovation ) 为主题,探讨计算科学基础研究在 21 世纪快速发展过程所发挥的重要作用。通过精彩的主题演讲,来自国内外计算机领域的大师们与中国学生及学者分享了计算科学领域的最新成果。 微软亚洲研究院院长、电气电子工程师学会院士 洪小文博士 是国际知名的语音专家。他发表了 100 多篇论文,同时和他人一起编写了《口语进程》的书,这本书成为了语言学领域方面的参考书。洪小文博士在 2004 年加入微软亚洲研究院,当时任副院长,负责互联网搜索和语言、自然语言、无线网络的研究。此外,他还建立了 STC (Search Technology Center Asia ,微软亚洲搜索技术中心)。 点击观看洪小文博士的精彩演讲视频: 今天很高兴,在这里跟大家分享我们研究院最近做的项目。我们既然要做科学,尤其今天跟这么多计算机科学家在一起,我也要看一下计算机对科学的贡献。这里先回到五六百年前,伽利略被很多人称为现代科学之父,他就是做了一个望远镜,那个时候不要说计算机,要做实验都很难。他能做的就是用眼睛看,球从比萨斜塔掉下去,还有他看星球运动,地球不一定是中心,还引来了很多的麻烦。他还是非常了不起,看一下就提出一些模型。到了牛顿的时代,工业技术就好一点了,不但可以观察,还可以搜集数据,搜集数据以后,就可以建模做研究。重力跟距离平方成正比,跟质量成反比的话,肯定要搜集一些数据,来证明模型。 我认为科学基本上就是先建模,然后做实验搜集数据验证模型。如果模型不够精确,改一次再来运行,最后模型正确了,就可以改变未来的一些现象。我今天就是在这个基础之上谈研究院最近做的事情。我们生活在一个非常幸运的时代,我们今天有无数多的传感器,可以提供我们关于世界上所有的传感器数据,中国现在大力推广的物联网,就是这样的概念。我们今天的计算机是非常强劲的,今天在实验室里面就可以做所有的实验,可以做很快速的分析,可以更了解我们自己和世界。同时,不但可以了解,还可以改善我们的生活,改善这个世界。我的演讲分为三个部分。 第一部分,就是将科学的模型用在现实的物理世界;第二,关于我们自己;第三,关于社会。上午的演讲介绍了 Kinect ,我们在去年的基础上,继续用这个平台做更多的研究。大家知道, 3D 建模,如果能够把世界上任何一个物理物体,精准的做成一个 3D 的模型,就可以将真实的世界和虚拟的世界串联起来。这有很多的应用,当然游戏是大家可以想到的直接的应用。但是在我们医疗、建筑等各方面的应用都需要 3D 建模。 这里面, Kinect 是一个 200 美元的机器,功能还是有限的,能够采到的样,你拿到的真正有深度的信息,事实上是非常粗糙的、坑坑洞洞的,所以必须要将洞补起来,做成完整的。在这样的机器上还有挑战。第一,现在有请我的同事龚敏敏上来给我们演示项目“ 基于 Kinect 的实物数字化 ”。 请看“基于实物的数字化”项目介绍视频: 龚敏敏:大家好,我是微软亚洲研究院网络图形组的龚敏敏,我给大家扫描一下。我们正 式开始扫描物体,只需要扫描正面和反面,通过数据可以重建出一个完整的模型。现在我来扫描物体的背面,大家可以看到,这个福娃的正面和背面通过 Kinect 扫描到机器里了,但是之间需要表面重建的工作,才能成为一个完整的模型。我们的游戏还会给虚拟的模型添加性格,这里随机选择的性格是机器人,可以通过录音频给虚拟的玩具添加跟你交互的能力,比如说在需要的时候就会说出来。大家可以看到,通过刚才的工作,福娃已经被扫描到电脑里面,成为一个完整的模型。因为它已经是一个模型,所以你可以通过身体的动作教它做什么,它可以识别到你的动作,我若想跳起来、跟他捉迷藏把眼睛蒙起来,它都能识别出来了,也会躲一下。我的 Demo 就演示到这里,谢谢! 洪小文博士:我们刚刚演示的是市面上可以买到的机器,这么强的灯光,有可能会怯场。有一部分不见了,就是因为光太强了,因为看到的部分都是光,觉得透过去了。一般来讲,你们在家里,我相信很少有这么强的光。 第二部分, MindFinder 。我们朝这个目标在进行,我们今天做到,画什么就可以帮你找什么,希望做到你心里想什么,就可以帮你找到什么。今天的搜索要输入很多的东西,如果画一个东西就可以找到的话,就更方便了。如果需要自行车的话,将自行车画出来,就可以找到图案。这里面有很多的应用。特别是现在的小孩子,没上学之前,不认得字以前,就跟电脑打交道,画是很自然的。还有购物,今天要买特殊的衣服,或者特殊的裙子,可以画一下,就能直接找到跟你画的很接近的衣服。 我们要知道,做这样的事情有几个挑战。第一个挑战就是,给你一个图形,给你只鸭子,将大概的轮廓找出来,这是做了很久的工作;同时,互联网搜索图形这么多,不能太大,所以一定要很简明。做的话,将噪音的部分去掉,这样才可以跟画的东西做一个对比。我们今天存就存一个 XY ,还有角度,所以我们叫“θ”,每一个图只需要 240K ,就可以存下准确的信息。接着请我的同事王长虎做现场展示。 请看“ MindFinder ”项目介绍视频: 王长虎:大家好,非常荣幸能 够在这里向诸位展示这个系统,这是一个全新的基于草图的图像搜索引擎。大家可以看到 ,它允许用户自由地在面板上画线条,给用户返回相似形状的图片。我们再画一个,类似焰火的东西。我们可以看到,不仅可以找到焰火,还可以找到花草树木等相似的图像。可以用于基于关键字的图像搜索,如果一个用户查找悉尼歌剧院的图片,可以写入关键字“悉尼歌剧院”进行查询。有的时候,仅仅基于关键字,搜索结果可能有一些庞杂,利用我们这个技术,可以直接在面板上画一些线条。比如说悉尼歌剧院的侧面图像,搜索结果就得到极大的改善。 再举个例子,伦敦眼。如果用户想查找正面的图片,很简单,直接画一个圆就可以了,搜索结果就是能够找出来。这种技术可以用在各种场合。我们开发一个新的应用程序——素描卡通,帮助孩子们通过画线条创造卡通形象。这里给大家看一个例子。首先可以画一个桌子,大一点,利用MindFinder技术进行查询,有很多的桌子,我可以选择一个,放在某个地方,这张图片完全是一个画,可以改变形状大小颜色等。我还想添加另外一个家具,先添加一个椅子,然后可以放到桌子的后面。然后想买一台电脑,放在桌子上.需要给房间加一个主人,很简单的一个小人,看看能找到什么?这个女孩子,然后放到椅子上,然后再买一辆自行车,最后给这间屋子加上一个太阳,而且是带笑脸的太阳,顺利完成。谢谢大家!事实上我们的系统还有其他的功能,今天就暂时介绍到这里,这就是我们的 MindFinder 技术,以及它的应用草图卡通,谢谢小文! 洪小文博士: MindFinder 技术正在做手机版,希望在未来给大家展示。接下来我们讨论“拨乱反正” 的问题。事实上,现实社会里,很多东西都是不正的,你看这个图形(见下图),不但不正,甚至上面还有噪音,经过改正,最后怎么得到我们想要的结果。这些正的东西,里面有很多的应用。比如说看到一个建筑物,想将窗户的部分找出来,就可以拨乱反正。现在梯形的东西,是真正的窗户结构。如果说用仰角看帝国大厦,这是一样的,随便取一个正方形,拿到的一定不是真正窗户的结构,我可以利用刚刚的方法,将正的东西找出来,我也可以把它拨乱反正。现实中,这个问题非常多的,每天都有,大家每天照的很多的照片,上面都是有扭曲的,像Y这个图(见下图),你拿到的东西,经过一定的改正,就可以得到真正拨乱反正的东西。 图片拨乱反正 像我们的相机,照出来的东西,是一个真正的方格子,但出来的东西都是扭曲的,传统上要算很久,现在的技术已经发展进步了,可以很快就算出来了。更复杂的部分,建筑物有曲度,也可以将歪曲的地方找出来,进行拨乱反正。有了这样的东西以后,我们的天坛,这样的圆柱体的建筑物,就可以从圆柱体还原到原来正的平面,做这个建筑物建模的时候,就可以建出很准确的模型。假如说有一个六角形的建筑物的话,只要拍一个视频,就可以拿视频里面每一面进行分析,最后拨乱反正,就很容易做出建筑物的 3D 建模。 还有很多例子,在做文字识别,甚至说现在道路上有很多的智能汽车,要自动地读取道路的名字,或者车牌的号码,如果不拨乱反正之前,做的文字识别效果一定很差。如果能够拨乱反正以后,再送给文字识别,做出来的模型就是非常准确。 事实上,每一张照片里面都有需要拨乱反正的地方。刚才我们说实际的物体,现在到我们自己,我们自己个人,个人怎么样用数据帮助我们建模。 第一个,人最重要的就是头部,这个门面是大家看得到的,但是怎么进行建模人的头和脸呢?继 Kinect 去年推出以后,除了大家刚刚看到的产品,我们又推出另外一个 Kinect Avatar ,能够有个性化交流的时候,能够将脸上所有的表情特征表达出来,就可以将头投射在卡通人身上,你干什么,这个卡通人物就会干什么。我们希望达到这样的效果。做到这样,要克服两个问题。第一个问题,因为我们的脸不会一直都是向着正前方看着,都有不同的动作,做好动作以后,就是要对脸上的细致表情进行描述,如果可以做到这个,就可以把脸上的表情投射在 Avatar 上面。我们做的 Kinect Avatar 也发布了,这还是卡通,怎样将真正的人头做出来,因为可以做一个眼睛变动的动作,但是做一个皱纹的变化动作非常难,有两种做法。脸上的肌肉和皱纹线条不见得那么明显,目的就是说能不能做到两种方法,我们做科学的人永远很贪心,这是给研究员的挑战。基本上是一个线性矩阵的算法,想法很简单。如果能够找到关键的部分,还有基本的部分,有了之后,假如说知道怎么变的话,就要做差分的时候,就很容易做了,这样就可以恢复出重要部分和基本部分的 3D 建模。第一,怎么找面部扫描?第二,脸上会贴点,点跟点之间对应关系是什么?最后不同的面部扫描,但是点的区域之间变化不见得是线性的,就算是线性的也是高维的,怎么表达对应的关系都解决了,最后就可以做成功了。 第一步,就是做动作数据采集,做完这个以后,我们就分析,哪些面部扫描是最基本的,相当于找最大的点,然后拿出来,就是基本的面部扫描,有了这个以后,把原来的人找回来,根据那个表情重做一次,重做一次就把上面的点跟点之间对应起来了。接着不同的面部扫描上面的点虽然一样,是一个区域,区域之间的关系也要找出来。最后根据这些信息,就算一个线性的论证,这就是我们做出来的一个结果。这是视频展现出来的,这个是没有贴皮的,真正贴上人皮的是中间这个(见下图),我们真正做出来的 3D 建模。 面部扫描结果 刚才也能够模拟出表情,可以看到皱纹和肌肉的 3D 人脸,现在还需要让人讲话。讲话也不是那么容易,原因很简单,我们现在还可以读唇语,讲话的时候,我们是用语音合成的做法来做,基本上的概念相当于录一段声音,从这个里面找出小的声音的元素,到了合成的时候,把最相近的找出来,最后有一个全面的模型,进行差分做出来,我们用一样的技术做嘴形、齿形的模拟。大家可以看一下,我们做出来的效果。大家如果很仔细的看,真的是可以以假乱真。刚刚做了脸,也做了声音,我们都串起来。今年 3、4 月的时候,我们微软首席战略官也在清华做了一个报告,今天他不能来,我们可以通过他的头和声音,让他跟大家打一个招呼(视频 33:30-34:00 )。 我们刚刚讲的语音合成,用的是过去演讲的录音带,大概 30 分钟到 1 小时的录影带,里面自动做成一个合成的系统,他没有亲自讲这个话。我们尝试做出中文的语音合成系统,他从来没有讲过中文,我们拿英文的录影带,因为中文跟英文里面的音标有很多相近的,所以用一样的技术,可以让他讲中文。我负责任的讲,他的中文不可能讲得这么好,至少我知道,除非说他不工作,专心每天学中文,即使那样,也是很具有挑战的。 大家现在了解我们的技术,他们以前听过仿真,仿真的极限就是真实,现在通过这个技术,不管是刚才的 3D 人头,还是语音识别,有一个新的词叫做比真实世界还要好,就是我们所谓的大同世界。 接下来,另外一个东西也是跟我们有关的。走路,刚才我们讲到人头,基本上就是在那边动一动,讲一讲,不用动,人每天要走很多的路,我先放一段视频给大家看一下。大家知道汽车导航,但是汽车导航在外面有 GPS ,到室内没有人导航了,要找一个建筑物的话,看地图自己找的话,可能最后都找不到,能够有一个室内的导航系统,能够从一个点带到另外一个点。比如今天有一个人到微软新的楼,要参加一个会议,他就可以说,往前走,如果走的方向偏了,或者超过了,哪里该转了,都会有一个室内的导航系统帮助他到达目的地。这样的东西有很多的应用。比如说到商场里,第一个讲的例子就是到学校来,找一个办公室或者会议室,或者在商场里,想到某一家店,商场有十层高,想知道到哪里买这样的东西,更不要说某一家店正在打折的好机会还可以介绍,就可以让导航找。这里不是在问路,这里是跟人家聊天,由于需要导航,连地图都不用看了,有时候看地图也看不懂,利用我们这个导航系统,就可以走到他要走的办公室。 当然做一个导航系统,一定要有地图,有地图还不够,必须要知道,现在到底走向哪里,走了多远。室内最大的挑战是什么,就是没有 GPS ,我们怎么做。基本上,今天有的解决方案,就是 Wifi ,屋子里面有很多的 Wifi ,有一个理论上的衰减公式,根据距离,每一个 Wifi 之间信号的强弱。当然也可以做得更准,每一个点,不但可以量,真正收到信号增长和衰减的情况,可以做出一个建模,会更准确。这样的做法,必须需要建筑物装很多这样的东西,但是不可能会达到这样的。我们想的方法,是用你的手机,手机里面有一个惯性,现在的手机里面都会有加速器、陀螺仪、指南针,就能够帮助我们知道你走的方向。手机是可以有办法做到指导方向的。我今天讲的两个方面,就是走了几步,同时知道每一步走了多长,我就大概知道你走了多远距离,配合方向和地图,就可以导航。走了几步,相对来讲是比较简单的问题,为什么?走路的时候,是提起来,再放下去,基本上像一个正弦波,都是周期性的,每个周期都是一步。如果想知道每一步走多长,要搜集资料,唯一做的就是跟距离串起来,我们就是找 23 个“走模”,就是走路走的特别好的人,搜集不同的数据。有了数据以后,我们就可以有建模,大家知道,不管是线性还是非线性,我有一个观点,非线性的函数都是可以用线性逼近,是都有一定的误差。我们用的模型是二维的线性函数逼近,之后就可以把参数找出来,有了模型以后,就可以预测未来了,未来搜集到一些数据,就可以判断出走多远,这是我们做出来的结果。可以看得到,大概在 1600CM 里面,大概有 100CM 的误差,大概是 6% 。算步伐配合地图,就可以做得很有用了。有的人高,步伐大,步伐小,怎么弄呢?这里通常的做法,就是可以搜集小量的数据,就可以有一个系数,假设是一个常数 K ,除非是一个很怪的人,很少有的步走的很小,或者走的很大,有这样的模型,就可以得出结果了。 最后,我们人是一个群体的动物,有什么可以从数据里面产生模型的?我们最近有一个新的研究领域,叫做 Urban Computing ,在中国大家都知道,大家往城市集中,城市提供很多的机会,更重要的是,在今天节能减排的时代里,大家重新思考,认为都市集中不是坏事,都市集中对节能减排是好事,像美国一样住在郊区,要开车的话,还是烧更多的碳,城市化不但是必然的趋势,某个程度来说,是一个好的趋势。 Urban Computing :将城市划分出若干区域,分析出租车在其间的行驶状况,以了解北京交通拥堵的潜在问题 所谓的 Urban Computing ,今天有物联网的概念,能不能长时间搜集数据以后,用数据来了解社会的脉动,了解社会的现象,同时改变我们的城市和我们的生活。这里的想法,基本上跟所有的控制或者反馈很像,搜集数据之后,证明模型,甚至提出证明的方案,最后产生良好的互动关系。这个方面做的努力,第一,就是交通。北京、上海这样的城市,交通是很大的问题。计程车上面装有 GPS ,他们每天在路上,很了解交通状况,有很多的研究今天都是拿计程车来做,北京的计程车数量非常多了,在世界上也只是排第四。总而言之,大部分大城市,都有很多的计程车。在上面装 GPS ,需要导航,这样数据的取得是非常可行的。用计程车的数据我们可以做很多的事情,今天跟大家介绍的是做法,大部分用这种方法做,就是在量每一段路多拥挤,这个不是我们真正的目的,只是一个本地的现象。我们有兴趣的地方是从一个点到另外一个点,到底有多拥挤。对北京市的地图进行了分析,跟之前介绍的技术很类似,就是自动的将北京所有有可能的地点找出来,就可以搜集数据,计程车的平均速度是多少,也可以想象成一个行车效率,就是说真正走了多少距离,除以两点的直线距离。意思就是说,如果是1就是最有效率了,如果大于1,肯定没有效率,会这样做,一定是因为交通拥挤。根据这个信息,我们可以画出这样的图形,可以在这样的坐标轴上画出这样的图形,这个坐标图形上的学术叫做 Skyline ,就是速度最慢,效率最低的点,这个就是有问题的地点,就是有问题的点跟点之间,区域跟区域之间的路程。 我们用这样的东西进行分析,我们今天有了 2009 年、 2010 年的数据,这是在四环边上的一个地方,有一个区域在这边, R1 和 R2 ,基本上连接一起, 2009 年的时候, R1 到 R2 ,塞车的情况很严重。同时发现,在 2009 年的时候,开了一条新路,而且也在四环口加了新的进出口。结果 2010 年完工以后,发现 R1 到 R2 的交通情况大大改善了。就知道这个原因了,原来为什么拥挤,就是因为很多人要进四环,不见得要去 R2 ,现在 R1 的人可以从新开的路口直接上了,特别是往东走的人,就不需要浪费时间了。所以,就证明了北京城市的规划在四环路上做非常好,我们有数据佐证,这是一个很好的设计。另外一个例子,这里国贸,就是R1,国贸的商场,这里的地方,这是我们后海酒吧街,国贸很多的国外朋友很喜欢去。 2009 年的时候,从这里到这里,不管怎么走,都很拥挤,结果在 2010 年的时候,地铁 4 号线通车以后,国贸直接搭乘地铁到酒吧街了,地铁弄完以后,交通就变好很多。证明对地铁 4 号线的规划是正确的。 所以,北京的城市规划是非常好的,经过我们的数据验证。你设计一个东西的时候,你花了钱,不一定会得到你所要的效率,如果这样的规划,对将来做计划的时候,兴趣就会更大。第二,对于未来,我们在城市规划上、道路规划上,有什么样新方案,可以用现在的数据提出建议,在以前是不可能达到的。 “雷人”英语屡见不鲜 最后一个,就是跟我们人有关,就是语言为什么产生?语言的产生是想表示我们的知识和信息。但是语言今天变成我们得到信息,交换信息的一个障碍。同时,语言是与时倶变的,因为有大量的数据,我们今天可以很好的及时翻译,缩短人跟人之间沟通上的障碍。同时,并不只是翻译,也可以在语言的学习上,我们这里有很多的外国友人学中文,或者信息知识上的获取创造都可以用自然语言的模式来提高,这里就是我们的证明(见上图)。我最近新学一个词叫“有木有”,这些词肯定是要不断地搜集数据,从里面得到建模的模式,才有可能获取。至少是今天,如果有任何同学可以找到一本平板印的字典,里面有“有木有”这个词的话,我出五百元悬赏。我相信一定是没有的。 那么,微软亚洲研究院开发了“英库“项目,在座很多同学都知道了,你们觉得很好用,希望你们继续用,你们有什么意见,也给予我们批评指教。去年这个时候,我代表研究院到香港领取一个奖,它是我们的用户投的,非常感谢大家,我们还能够再接再励,推出更好的产品给大家。我们今天加上了口模,就是用 3D 建模,尤其是学英文,除了听以外,看看嘴唇跟牙齿之间怎么动,这个功能也被广泛应用。还做了很多的工作,就是搜索,大家知道,某大社区网页的英文搜索都是用我们 Bing 的,搜索英文的时候,不了解的话,马上就可以到英库上,将中文意思调过来,例句解释都可以拿到。如果要找到一个新词的话,我们的 Bing 马上会给予更多的信息。中国很多的网站,上面直接调用英库上的程序,不用离开他们的网页,就能够帮助你们,对于知识的获取起到最直接的作用。 好,最后我总结一下,科学,我们最近在讲大数据,实际上我们做的根源,所有的科学就是这样来的,观察实验,搜集数据,建模,改进,最后预测,来解释现象和了解现象,预测未来。我今天展示的一个模型,配合计算机科学的进展,可以应用在生活上任何一个角落,我们可以模拟我们自己,模拟万物。我觉得,将来能够做的东西是无穷无尽的。在座的同学,等待你们去挖掘。希望五年十年以后,你们会告诉我你们的发现。我们希望有更多更多的发明,谢谢大家!
3213 次阅读|0 个评论
《Nature》杂志中国论文163篇 1988-2011年
热度 3 xupeiyang 2011-12-22 08:16
因博友的要求,我将《科学》、《自然》、《细胞》(SNC)等期刊的论文统计结果做出来,大家可以参考。 文献统计分析内容包括:文献的国家、城市、年代、期刊、作者、主题分布;文献年代演进趋势图;文献分布世界地图。还可以看到文献的内容摘要。 详细数据见 http://www.gopubmed.org/web/gopubmed/1?WEB01eddcrh8y60kqIsI1hI0 Nature杂志中国论文163 篇.docx
个人分类: 信息分析|2346 次阅读|1 个评论
[主题]距离学习:Distance Learning
jingyanwang 2011-12-20 20:08
read Distance Learning for Similarity Estimation 相似度估计的距离学习: Distance Learning for Similarity Estim K-Nearest Neighbor Finding Using MaxNearestDist
个人分类: topc|969 次阅读|0 个评论
[主题]聚类:Clustering
jingyanwang 2011-12-20 19:57
LEGClust—A Clustering Algorithm Based on Layered Entropic Subgraphs A Redundancy-Based Measure of Dissimilarity among Probability Distributions for Hierarchical Clustering Criteria
个人分类: topc|746 次阅读|0 个评论
[主题]半监督学习:Semi-supervised Learning
jingyanwang 2011-12-17 22:17
read SemiBoost: Boosting forSemi-SupervisedLearning 半监督 Boost : SemiBoost 半监督提升 : SemiBoost 半监督提升 : SemiBoost read Semi-SupervisedLearning via Regularized Boosting Working on MultipleSemi-SupervisedAssumptions 正则提升 : Regularized Boosting 正则提升 : Regularized Boosting read SemisupervisedLearning for a Hybrid Generative/Discriminative Classifier based on the Maximum Entropy Principle 混合分类器的半监督学习 : Semisupervised Learningfor a Hybrid read Linear Neighborhood Propagation and Its Applications read Graph-BasedSemisupervisedLearning 先近邻再远亲: Sequential predictions Algorithm read Semi-SupervisedClassification via Local Spline Regression 局部样条回归 : Local Spline Regression 局部样条回归 : Local Spline Regression 像样条那样入党 : Local Spline Regression read The Sum-over-Paths Covariance Kernel: A Novel Covariance Measure between Nodes of a Directed Graph 统计物理应用于机器学习的完美典范 : Sum-over-PathsCovar 统计物理应用于机器学习的完美典范 : Sum-over-PathsCovariance Kernel read Semisupervised Multitask Learning 半监督多任务学习: Semisupervised Multitask Learning Semisupervised Learning of Hidden Markov Models via a Homotopy Method Semisupervisedlearning of classifiers: theory, algorithms, and their application to human-computer interaction On Classification with Incomplete Data Learning to Transform Time Series with a Few Examples The Effect of Model Misspecification onSemi-SupervisedClassification Nonsmooth Optimization Techniques for Semisupervised Classification
个人分类: topc|1646 次阅读|0 个评论
[主题]点云配准:Point Set Registration
jingyanwang 2011-12-17 21:55
Maximum-Likelihood Registration of Range Images with Missing Data read Point SetRegistration: Coherent Point Drift read Rigid and Articulated PointRegistrationwith Expectation Conditional Maximization read Penalizing Closest Point Sharing for Automatic Free Form ShapeRegistration read Nonlinear ShapeRegistrationwithout Correspondences read 3D Face Recognition Using Simulated Annealing and the Surface Interpenetration Measure read Decoupled Linear Estimation of Affine Geometric Deformations and Nonlinear Intensity Transformations of Images A Similarity Measure for Image and Volumetric Data Based on Hermann Weyl's Discrepancy
个人分类: topc|651 次阅读|0 个评论
我们的研究领域主题分析
xupeiyang 2011-12-10 15:50
医科院信息所国内期刊论文主题分析 李阳 许培扬 * (北京协和医学院医学信息研究所 北京 100020 ) 目的: 通过对 1978 年 ~2011 年医科院信息所研究人员发表并被中国知网 CNKI 学术文献总库中《中国学术期刊网络出版总库》收录的 期刊 论文进行计量分析,旨在揭示医科院信息所研究人员发表期刊论文涉及的研究主题随时间演进情况。 方法: 运用共词分析法和社会网络分析法,采用 MS Excel2003 自带的 VBA 程序及 社会网络分析软件 Ucinet 中的可视化工具 Netdraw ,从关键词角度开展论文主题分析。 结果: 1978 年 ~2011 年,《中国学术期刊网络出版总库》共收录医科院信息所研究人员发表的期刊论文 990 篇; 研究主题主要包括医学图书馆学研究、医学信息分析与评价及卫生政策研究三个方面。 结论: 未来一段时间内医科院信息所将重点开展医学信息资源建设与网络技术、医学信息分析与评价、卫生政策 研究 及卫生信息化四个方面的研究。 医科院信息所 / 中国医学科学院医学信息研究所 ; 期刊论文 ; 共词分析 ; 社会网络分析 ; 信息可视化 ; 文献计量学 A Bibliometrics Analysis of Chinese Journal Articles Published by researchers in Institute of Medical Information Li Yang 1 Xu Pei-yang * (Inistitute of Medical Information, Peking Union Medical College, Beijing 100020) Objective : This study aims at providing some references about the history, evolution of the development trends of research topics in Institute of Medical Information, Chinese Academy of Medical Sciences by analyzing all journal articles published by researchers in this institute since 1978, which is included by China Academic Journal Network Publishing Database(CAJD). Methods: keywords were analyzed by co~word analysis and social network analysis(SNA) with VBA program nested in MS Excel 2003 and Netdraw which is a information visualization tool. Results: A total of 990 journal articles were searched in CAJD; The major research themes are medical library research, medical information analysis or evaluation and health policy research. Conclusion: The research focus of the institute in the future will be Medical information resources construction and network technology, medical information analysis and evaluation, health policy analysis and evaluation, and health informatization. Institute of Medical Information, Chinese Academy of Medical Sciences; Journal Articles; Co-word Analysis; Social Network Analysis; Information Visualization; Bibliometrics 作者简介:李阳( 1986~ ),男(汉),河南省焦作市,北京协和医学院医学信息研究所在读硕士研究生,研究方向:医学信息分析与评价,已发表论文 2 篇。 E~mail:feng8100feng@163.com. 联系电话 : 15201507155. * 通讯作者:许培扬( 1953~ ),男(汉),浙江省诸暨市,大学本科,中国医学科学院医学信息研究所研究员,硕士生导师,研究方向:医学信息分析与情报研究方法。 E~mail: xupeiyang@vip.163.com . 全文见 医科院信息所期刊论文计量分析终稿 2011 12 08.doc
个人分类: 信息分析|3828 次阅读|0 个评论
利用EXCEL做专利分析(八)——可视化——配色(1)
yngcan 2011-12-3 01:27
利用EXCEL做专利分析(八)——可视化——配色(1)
个人认为EXCEL中,配色问题绝不是一个小问题。这是一个EXCEL中的高技技巧。哈哈。 专利的商务图表很让人崇拜,也是打动用户的关键一弹。 那么如何实现配色呢?网上有诸多技巧,我这里不一一列举,我仅仅给大家介绍一个最简单、直观的方法。(独家秘籍) http://colorschemedesigner.com/ 这是一个叫色彩主题设计的网站,专门帮助我们来解决不同主题的配色问题。 简要介绍一下功能,我也不是太清楚。 1.可以设置主色调和2分法,4分法等多种配色方案 2.可以精准选择颜色,而且有冷暖色调选择。 3.选择的颜色首先是可以直接预览的。 4.可以查看你选择的方案和色调搭配的整体效果如何,这里有亮光版和暗光版的选择。 5.当你确定好配色方案后,可以将配色方案导出,包括HTML,XML,TXT格式等 做一个简单示例: 以下呈现我选择的色彩搭配。 相关的色彩具体参数如下,可以用XML文件导出 !-- Color Palette by Color Scheme Designer -- palette !-- Generated by Color Scheme Designer Petr Stanicek 2002-2010 -- url http://colorschemedesigner.com/#5y200o8o8CkAv / url colorspace RGB; / colorspace colorset title =" Primary Color " id =" primary " color id =" primary-1 " b =" 64 " g =" 45 " r =" 183 " rgb =" B72D40 " nr =" 1 "/ color id =" primary-2 " b =" 70 " g =" 61 " r =" 127 " rgb =" 7F3D46 " nr =" 2 "/ color id =" primary-3 " b =" 23 " g =" 10 " r =" 104 " rgb =" 680A17 " nr =" 3 "/ color id =" primary-4 " b =" 122 " g =" 105 " r =" 225 " rgb =" E1697A " nr =" 4 "/ color id =" primary-5 " b =" 156 " g =" 145 " r =" 225 " rgb =" E1919C " nr =" 5 "/ / colorset colorset title =" Complementary Color " id =" complement " color id =" complement-1 " b =" 40 " g =" 163 " r =" 70 " rgb =" 46A328 " nr =" 1 "/ color id =" complement-2 " b =" 54 " g =" 113 " r =" 68 " rgb =" 447136 " nr =" 2 "/ color id =" complement-3 " b =" 9 " g =" 93 " r =" 29 " rgb =" 1D5D09 " nr =" 3 "/ color id =" complement-4 " b =" 101 " g =" 217 " r =" 129 " rgb =" 81D965 " nr =" 4 "/ color id =" complement-5 " b =" 140 " g =" 217 " r =" 158 " rgb =" 9ED98C " nr =" 5 "/ / colorset / palette
个人分类: 专利|7570 次阅读|0 个评论
2011年世界艾滋病日主题:Getting to Zero 朝零努力
xupeiyang 2011-11-30 08:33
12月1日 世界艾滋病日 2011年世界艾滋病日主题“Getting to Zero”“朝零努力” Zero New HIV Infections(零感染) Zero Discrimination(零歧视) Zero AIDS Related Deaths(零死亡)
个人分类: 传染病学|2276 次阅读|0 个评论
专利改变科研生活 --- 专利信息资源主题宣传月活动开始啦
ningbi 2011-11-19 10:13
有些课程真的挺好的,比如专利基础知识等,活动网站: http://www.thomsonscientific.com.cn/2011WOKonline/dii.htm 专利改变科研生活 -- 专利信息资源主题宣传月 在你的科研过程中,你是否漏掉了专利信息这类重要科研情报? 在你的科研过程中,你是否知道哪些科技成果可以申请专利? 对自己的创造发明,你是否知道该如何保护你的权益? 有了专利还不够,您是否能找到相关的企业并将您的点子转化成生产力? 面对专利这一巨大的技术知识宝藏,您知道应该怎样去分析和挖掘它的价值吗? 2011 年 11 月下旬,汤森路透 Web of Knowledge SM 在线大讲堂将开展 “ 专利改变生活 --- 专利信息资源主题宣传月 ” 活动,届时在普及专利基础知识的同时,也将介绍全球最权威的专利数据库,还将向您展示强大的专利分析工具如何深度挖掘技术情报,从而帮助您激发创新潜力,加速技术研发。 活动时间: 11 月下旬 - 12 月下旬 奖项设置 答题竞赛重要提示: 请点击这里查看详情 马上参与 DII 试用:本活动期间,汤森路透将开通 DII 试用帐号,具体试用帐号信息,将在以下讲座中公布,敬请关注并参与! 主题活动日程安排 讲座/活动名称 时间 主讲人 简介 专利基础知识与专利申请 11 月 22 日(周二) 19:00-20:00 彭 斌 您对专利有多了解?专利号都包含了哪些信息?专利文献与期刊论文有哪些不同之处?当我们在实验室里绞尽脑汁进行研究的时候,您是否想过借助专利信息来帮助您?如何从现有技术中寻求灵感,产生新的想法?您是否想过借助专利申请来保护您的发明创造并从中获益?来参加我们本周的培训吧! 利用 DII 寻找研发信息 11 月 24 日(周四) 19:00-20:00 彭 斌 DII 信息资源主题有奖答题竞赛 11 月 24 日 20:00—— 11 月 29 日 19:00 点击进入 Derwent World Patents Index( DWPI) 的价值及应用 11 月 30 日(周三) 19:00-20:00 张 帆 您是否知道大多数世界 500 强企业中的研发人员都在利用 DWPI 专利资源?您是否了解专利局的审查员们在借助 DWPI 进行专利实审?为什么 DWPI 是全球最权威的高附加值的专利数据库? DWPI 对于研究人员的帮助作用在哪里?请加入我们的培训,了解 DWPI 的价值和作用吧! 利用 Thomson Innovation 纵览全球研发动态 12 月 7 日(周三) 19:00-20:00 李慧美 Thomson Innovation 不仅仅是一个专利检索数据库,它是全球唯一整合多种信息资源的创新研发平台。利用它全面的内容您可以了解全球化的研发视野,确保研究的高起点;利用它强大的分析工具,您可以纵观全局并获取技术方案,解决具体研发难题。看看怎样利用这一工具进行专利检索和分析吧! 如何借助 DII 检索化学专利信息 12 月 13 日(周二) 19:00-20:00 彭 斌 化学领域的专利数量众多,价值巨大。在检索化学专利时,您通常采用什么样的方法查询?除了利用化合物名称进行检索,您还可以绘制化学结构式来检索相关专利文献。如果您还不清楚如何使用这一功能,来参加我们的培训吧! 利用 Thomson Data Analyzer 挖掘技术情报 12 月 15 日(周四) 19:00-20:00 李慧美 专利分析需要专业的分析工具来帮忙。通过专业的专利和科技文献分析工具 Thomson Data Analyzer, 您可以清理数据、分析数据、对分析结果可视化并生成分析报告。 DII 信息资源主题有奖答题竞赛 12 月 15 日 20:00—— 12 月 20 日 19:00 点击进入 WOK 在线大讲堂微博群: q.weibo.com/569008 汤森路透官方网址: http://science.thomsonreuters.com.cn
个人分类: 文献情报|3687 次阅读|0 个评论
美国梦还能实现吗?
热度 2 benyang22 2011-11-16 10:52
时代杂志有一期的主题是《美国梦还能实现吗?》(Can you still move up in America?) 主要是说美国梦越来越难以实现了。 来美国二十多年,我自觉是已经实现美国梦了。我从心底里感谢美国,感谢美国给我的机会。我周围也有很多朋友或多或少都实现了美国梦。其中我写过一个 例子 。 后来有读者评论:实现美国梦当然好,很浪漫。但并不是每个人都有能力有运气爬上社会的阶梯。一个国家的责任之一是保证那些在社会底层的人也能过上有尊严的日子。(感觉这个评论真的说到点子上)
个人分类: 多彩社会|4584 次阅读|5 个评论
公告
metanb 2011-11-6 02:14
为了纯化科学网的主题,本博决定今后科研教学以外的内容只保留较短的时间,然后即删除或隐去;此类内容或将同步转到我的新浪博客或新浪微博。
2327 次阅读|0 个评论
怕什么?
热度 5 xupeiyang 2011-10-21 11:32
个人分类: 文化艺术|1481 次阅读|8 个评论
招聘青年教师启事[转]
maczone 2011-10-8 10:15
湖南工业大学包装与材料工程学院招聘青年教师启事 因学科发展需要,包装与材料工程学院拟招聘印刷工程、数字媒体艺术专业教师多名,请有意者按要求投递简历,见附件。简历要求详实,能体现个人成长历史、学习经历、学术成就等,可以随简历添加附件证明材料。 应聘邮件主题请用以下格式: xxxx大学_xx专业_20xx届_姓名_应聘专业_方向 ,否则可能会被系统当作垃圾邮件处理。 注 :所有应聘者在投递简历时,请抄送邮件至haoxihai@tom.com。 包装与材料工程学院 2011.10.2 点击下载文件:包装与材料工程学院招聘青年教师启事
个人分类: 工作|3166 次阅读|0 个评论
小说"清代笔记体小说"(老蠹说书之13)
lxh2009 2011-9-27 21:36
笔记体小说,是中国古代流传下来的一种小说形式,所述故事短小精悍,主题多以民间传说、奇闻异事为主。 清代是笔记体小说的创作高峰时期,其间涌现出了大量的作品。这其中最为世人熟知的当属蒲松龄所著之《 聊斋志异 》,其不少篇目被选入中小学课本,如《 口技》、《促织》、《罗刹海市》、《崂山道士》 等,而拍成电影、电视剧的就更多了,包括 《画壁》、《画皮》、《连琐》、《婴宁》、《聂小倩》 等等,数不胜数。 除此之外,关于清代笔记体小说,老蠹还先后陆续读过一些诸如《 阅微草堂笔记 》( 作者纪昀,也就是传说中的“铁齿铜牙”纪晓岚 )、《 谐铎 》( 沈起凤 )、《 子不语 》( 袁枚 )和《 夜雨秋灯录 》( 宣鼎 )之类的作品。这些也都是清代笔记体小说的代表之作,所以历来很受读者喜爱,流传也很广泛。 本人自号“书海蠹鱼”,其实更多是取坐拥书城生吞活剥食而不化之意,想要炫耀的是遨游书海的快乐,根本忘记了这种“ 衣鱼科衣鱼属的无翅昆虫”原本是图书天敌的属性,因此也 从来不曾有过啮噬、损毁人类知识典籍的企图。 近日重新翻阅《谐铎》,读到其卷二之《祭蠹文》,联想到自己的所谓雅号,不仅莞尔。摘录于下以飨读者: 祭 蠹 文   万卷楼,表叔蒋观察藏书地也。宦游于闽,经午闭置。后告假归籍,曝其卷帙,半为蠹鱼损坏。因命童子拽捕,尽杀乃止。是夜,楼中万声齐哭,几于达旦。 主人患之。予适借榻松韵轩中,因作文以祭曰: ...... 祭毕,而楼中之响寂矣。
个人分类: 老蠹说书系列|5541 次阅读|0 个评论
写书的主题
zhangjinami 2011-9-4 20:40
发现很多畅销的小说都是对人生一个主题的放大,生活中的,爱、恨、情、愁、责任、负担、忠诚、罪孽、忏悔、痛苦、欢乐、感动、死亡等等。 很多的学科 著作也是围绕着一个主题进行讨论。 我们生活中,渗透着各种主题元素,但是有时候我们对这些生活的元素,视而不见或者不加重视,因为人性的很多弱点,比如说:欲望--对吃的欲望,财富追求的欲望、权利的欲望、美色的欲望、荣耀的追求,这一切的欲望使我们忽略了很多生活中的其它元素,我们需要阅读,因为阅读提醒我们不要忽视生活中除了欲望的那些东西,甚至这些东西是人生更加珍贵的。 科学的发现也是如此,作家、艺术家、科学家都是在发现那些被常人忽视的东西,这些东西有时候太重要了。
2209 次阅读|0 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-19 19:09

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部