科学网

 找回密码
  注册

tag 标签: 认知心理

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

人工智能(AI)写歌,抓不住回忆
热度 11 heruspex 2019-1-15 08:05
AI 近年来的成就是硕果累累,在与预测相关的领域中似乎都能大获全胜,如 AlphaZero 下出了颠覆三百年围棋棋谱的创新围棋开局;如在张学友演唱会中通过人脸识别技术多次抓到嫌疑犯。在艺术领域,通过风格迁移技术, AI 也能画出与印象派作家类似的作品。在文学创作方面,微软的机器人“小冰”甚至出了本诗集。在音乐领域, AI 不仅能形成动听的旋律,还推出了一些流行歌曲。甚至还推出了虚拟歌手,如基于日本雅马哈公司的 Vocaloid 软件推出的“初音未来”和我国在其汉化版上推出的“洛天依”。在 B 站上还能听到洛天依的一些原唱歌曲,如“达拉崩吧”。洛天依也因其独特的形象和电子音色的演唱方式收获了不少粉丝。人们不禁有些担忧,是否艺术这块天空,比如写歌,也会于不久后被 AI 占领呢? 要解开这份疑惑,我想用我改编的一首歌来分析下人类和 AI 在写歌上的本质区别。 我是湖南湘潭人,最近因临近春节、老乡群吆喝着要聚会,我平时又喜欢唱唱歌,于是被老乡们怂恿着要到年会唱首歌。我想,也许可以唱首能反映在外打拼的湘潭游子对故乡的思念和回忆的歌,便想到了改编赵雷的《成都》 ( 视频链接见文后 ) 。 没想到自己改编好并唱好上传网络后,反响很强烈, 腾讯视频上没两天时间播放量就过了 8000 次、关键字搜索“湘潭”排名第二,自建的微信公众号两天的转发次数也有 500 多次。我想,应该是歌词引起了老乡们的共鸣吧。 图 1 左:腾讯视频播放次数;右:微信公众号当天转发次数 为什么会有共鸣呢?我这里分析下我改写的歌词 ( 见文后 ) 。 我在歌词中首先提到的是梦,梦里有的是从前的记忆和盼子女快回家的父母。从前的记忆是湘潭因处在丘陵地带,下雨比较多。下雨天,我喜欢踢着街边的水去上学;记忆是家门口有个雨湖公园,当时有围墙,童年的小伙伴们都喜欢爬上爬下去公园里游玩。这些可能是多数老乡们都曾有过的记忆。人一旦有过这些记忆,或多或少都会梦里出现。这是第一组共鸣点。 其次,我写到了每逢佳节倍思亲的感觉。对于在外的湘潭人来说,回家最明显的体会之一是到了湘潭,开窗呼吸到的空气中都弥漫着槟榔味,这是家乡特有的味道。而湘江边的江风、望衡亭的远眺,还有最近装饰一新的窑湾历史文化街区,也是老乡熟悉且难忘的。 当然,到了春节,归心似箭的心情是所有在外打拼的人都有的。这是第二组共鸣点。 另外,不同于成都,湘潭也是个非常特别的、值得每个国人记住的城市,因为伟大领袖毛泽东就是从归属湘潭的韶山市走出来的,还有他的湘潭乌石老乡、彭德怀元帅,还有很多有名的文人墨客。所以,我借用了毛泽东写于 1959 年的著名诗作《七律 · 到韶山》中“为有牺牲多斗志,敢叫日月换新天”中的后一句,来介绍了这位在中国近现代历史上有重要地位和影响力的传奇人物,毛主席。这是第三组共鸣点。 除了值得回忆的人、美景,湘潭还有美食,米粉、臭豆腐、嗦螺的吃法与外地不同,甚至与长沙可能都有区别,如同湖南“十里不同音”一样。还有,每个在外的湘潭游子都挂念着的湘潭特色菜“有紫苏的水煮活鱼”。这是第四组共鸣点。 所有这些,构成了正面介绍湘潭的全景图。 歌词呢,写得比较朴实,没有多少形容词。又因为这是歌不是诗,所以在用词的时候稍微注意了下,希望唱的时候能让听众听起来更舒服一些。比如歌词中,“踢着街边的水去一中”的“一”,“跳下围墙游雨湖”的“雨”都是通过从鼻腔向上冲击头腔来发音,这样可以在相对平淡的音调中形成听感比较高的音,把层次感拉出来;而“我开始计划回程”,则用了像讲话式的唱法,让人觉得有归家的感觉; “流传万代”的“流传”则用了气声送出,以便能更好的表达真情流露。还有臭豆腐和嗦螺的次序,唱的时候,把嗦螺置后更容易形成更好听的开口音,如果臭豆腐置后,就会唱得怪怪的。当然,还有湘潭的名胜“昭山古寺”,我特意把后面的“山”字用 san 而非 shan 发出来,因为南方的湘潭人都这么说的(算了,这句我编不下去了,就是按湘潭话发音的,本来觉得唱错了想重唱,但后来想想,应该也没问题,就当是个性标签好了。) 不管是怎么唱的,这歌里面体现很多与时间相关的元素,儿时的真实记忆、历史的真实记忆,再加上游子盼回家的心情。这让很多老乡仿佛看到了自己从前的影子,于是也希望能分享这段彼此共有的回忆和思念。 反观 AI 写歌,我不否认 AI 可以写出语言非常华丽,甚至难辨人和机器真假的歌词。但是,它能写出回忆吗? 不妨看下,如果要用 AI 写歌,他需要哪些技巧或工具。首先,他必然是要学习的,学习的素材是曾经有过的歌。其次,他必然要服从,写歌词时需要注意的一些基本规则。最后,他要根据旋律来进行匹配、对齐。但是,能引起人形成共鸣的回忆却不是那么好学的。 什么是共鸣?从物理上来比拟, 粗略来说,可以看成是系统所受激励的频率与该系统的某阶固有频率相接近时,系统振幅显著增大的现象,即共振。一首歌要让人产生情感上的“共振”或共鸣,则必然需要有共同的经历,也许只是一个小的动作,一份吃不腻的点心,一件无足挂齿的小事。然而,如果时间跨度长一点,这些本可以形成共鸣的内容,都会被人工智能的算法抹杀掉。因为这些引发共鸣的元素,需要捕捉的不是语法层次上的,而是情感层面的,甚至是包含了相当长时间记忆的、情感层面的元素。 然而,这些元素并不是那么能显而易见的获得。对于现有的 AI 算法来说,能包含时间序列信息的模型是早期的隐马尔可夫模型 (Hidden Markov Model) 、现在流行的深度学习中的循环神经网络 (Recurrent Neural Network) 、长短时记忆模型 (Long-short Term Memory ) 以及它们的各种变种。这些模型的主要特点是具有时间记忆能力和独特的遗忘机制,因此可以按时间的变化来有选择的记忆新事物,遗忘旧事物。但是,如果对于时间跨度很长的事情,这些模型可能都无法形成有效的记忆,因为遗忘机制和对未知事件预测性能的追求决定了它们在取舍上无法像人类一样。 而人类的记忆在回忆上是非常奇特的,比如一首歌,我们可能三四十年都不去唱它,可冷不丁哪天它就从你脑袋里冒了出来,张口就唱了。按 AI 的逻辑,这是占存储空间的无用信息,应该被早早清除的。可是,正是有了这些毫无价值的、不知道存在哪个位置的共同记忆,才让人类在年长后有了茶余饭后的谈资,有了情感上的寄托和共鸣,有了亲情、爱情的维系。不夸张地说,这种记忆模式可能不仅人有,非人智能体也都有,反而 AI 目前还没有。 AI 出现这种局限性,一个可能的原因是回忆和引起共鸣的事情并非是经常需要用到的,从每个人的人生历史来看,都是小甚至极小概率事件,但从一群人比如老乡来看,却又能形成通过情感的“共振”形成一个超过简单累加的、强大的振幅。结果,不管是回忆,还是共鸣,对 AI 来说,目前都还找不到适当的数学模型去刻画它。 在缺乏这种时间大尺度、全局观的情况下, AI 写歌是抓不住回忆的,也就很难让人形成情感上的共鸣。 显然,这一弱点也注定了现有的 AI 还很难真正变得像人类一样,更不用说超越人类了。 张军平 2019 年 1 月 15 日 附 1 :微信链接(点击进入,内有视频和音频) 成都--湘潭版 附 2 :腾讯视频链接(点击进入): 成都--湘潭版 附 3 :歌词: 成都 -- 湘潭版 谱曲:赵雷 歌词改编:张军平 湘潭 总出现梦里 回忆多是从前 梦里 玩耍中的我 天真得像小孩 踢街边的水去一中 跳下围墙游雨湖 魂绕梦萦的 是盼你快回的父母 每逢佳节来临 我都想回湘潭 听那亲切的湘音 嗑那家常琐事 在飘着槟榔味的小城 有我童年的伙伴 湘潭 留着我的 是那颗心 和我在杨梅洲江边走一走 喔。。。 直到窑湾的灯都熄灭了也不停留 我爱深吸江边的风 我爱伫立望衡亭边 走到十八总的尽头 吃碗满溢湘 ( 乡 ) 情的米粉 如今春节已在即 我开始计划回程 没什么能够阻挡我 归家的思念 不管路途多遥远 事情有多繁忙 湘潭 还有我的 一份情 和我 登韶峰 看日出似火 喔。。。 敢叫日月换新天的传奇 流传万代 徜徉德怀乌石故里 重温湘大美好时光 走到城里头的里面 点份臭豆腐和嗦螺 和我在湘潭的江边走一走 喔。。。 看那列车城铁飞驰两岸 从不停留 和我在湘潭的江边走一走 喔。。。 直到两岸的灯都熄灭了也不停留 我会去逛昭山古寺 我会去看关圣殿 停在路边的农家乐 吃有紫苏的水煮活鱼 和我在湘潭的江边走一走 喔。。。 直到两岸的灯都熄灭了也不停留 写于 2019 年 1 月 9 日 延伸阅读: 24. 爱犯错的智能体(二十,完结篇) -- 平衡:机器vs智能? 23. 爱犯错的智能体(十九) – 群体智能与错觉 22. 爱犯错的智能体(十九) – 群体智能与错觉 21 . 爱犯错的智能体(十八):情感与回忆错觉 20. 爱犯错的智能体(十七):灵光一闪与认知错觉 19. 爱犯错的智能体 (十六):庄周梦蝶与梦境学习 18. 爱犯错的智能体 --- 语言篇:可塑与多义 17. 爱犯错的智能体 – 体感篇:我思故我在? 16. 爱犯错的智能体 --- 听觉篇(二):视听错觉与无限音阶的拓扑 15. 爱犯错的智能体 -- 听觉篇(一):听觉错觉与语音、歌唱的智能分析 14. 爱犯错的智能体 – 视觉篇(十一):主观时间与运动错觉 13. 爱犯错的智能体 -- 视觉篇(十):自举的视觉与心智 12. 爱犯错的智能体 -- 视觉篇(九): 抽象的颜色 11. 爱犯错的智能体--视觉篇(八):由粗到细、大范围优先的视觉 10. 爱犯错的智能体 -- 视觉篇(七):眼中的黎曼流形 9. 爱犯错的智能体--视觉篇(六):外国的月亮比较圆? 8、 爱犯错的智能体 - 视觉篇(五):火星人脸的阴影 7、 爱犯错的智能体 - 视觉篇(四):看得见的斑点狗 6、 爱犯错的智能体 - 视觉篇 (三):看不见的萨摩耶 5、 爱犯错的智能体 - 视觉篇 (二):颠倒的视界 4、 爱犯错的智能体 - 视觉篇(一): 视觉倒像 3、 AI版“双手互搏”有多牛? 浅谈对抗性神经网络 2、 童话(同化)世界的人工智能 1、 深度学习,你就是那位116岁的长寿老奶奶! 张军平,复旦大学计算机科学技术学院,教授、博士生导师,中国自动化学会混合智能专委会副主任。主要研究方向包括人工智能、机器学习、图像处理、生物认证及智能交通。至今发表论文近100篇,其中IEEE Transactions系列18篇,包括IEEE TPAMI, TNNLS, ToC, TITS, TAC等。学术谷歌引用2800余次,ESI高被引一篇,H指数28.
11313 次阅读|22 个评论
爱犯错的智能体(二十,完结篇) -- 平衡:机器vs智能?
热度 3 heruspex 2018-12-21 08:24
一个明智的人,仅仅自己研究自然和真理是不够的,他应该敢于把真理说出来,帮助少数愿意思想并且能够思想的人;因为其余甘心作偏见的奴隶的人,要他们接近真理,原来不比要虾蟆飞上天更容易。 ------- 引自拉 · 梅特里,《人是机器》 ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ 自然界总是存在各种平衡。对一件事的极致追求,往往需要用另一件的损失来换。比如,有了钱的时候就没时间,有了时间的时候又没有钱,因为“鱼和熊掌不可兼得”。 宇宙万物,在微观层面的平衡表现为量子力学中的不确定性原理,也称为测不准原理,是测量粒子的精确位置与精确速度上的不可兼得,他保护了量子力学。而在宇观,有一个光速不变性原理, 30 万公里的速度限定了人类探索宇宙的空间范围,他同时也保护了宇宙物理学。那人工智能领域里的平衡、研究方式能是怎样的呢?研究现状又存在哪些瓶颈呢? 我想从五点展开讨论: 1、 人工智能的不确定性原理 2、 由粗到细的结构发育 3、 智能测试 4、 智能体实验的伦理 5、 人工智能困境 一、不确定原理 在人工智能领域,与物理中有过几个类似的不确定原理。深度学习之前曾一度流行的稀疏学习理论里,科学家们希望通过对数据特征的稀疏化来获得可解释性。但是,其解释性的代价是构造了具有随机性、稠密的变换基函数,如高斯函数。这一思路是稀疏与稠密、时间与空间的不确定性。我们在傅里叶变换、小波变换以及稀疏学习中都能看到这一不确定原理的影子,时间域细节清晰了,频率域就稠密,反之亦然。但这种不确定性原理只提供了寻找可解释变量的方式,能处理的变量规模相对有限,对智能的启示还不明显。 图 1 拉特 飞 ·扎德 ( 来自 Wiki) 另一个是模糊理论 的创始人、加州大学伯克利分校的拉特飞·扎德 (Lotfi A. Zadeh, 1921. Feb. 2 - 2017. Sep. 6) 教授(见图 1 )在 1972 年提出的、解释复杂系统的 不相容原理 (Incompatibility Theory) 。他认为: “随着系统复杂性的增加,我们对其特性作出精确而有显著意义的描述能力会随之降低,直至达到一个阈值,一旦超过它,精确和有意义二者就会相互排斥。” 不相容原理表明,随着复杂性的增加,预测和可解释性之间将存在平衡或折衷。然而,纵观人工智能的发展史,复杂性的定义一直在变迁。最早复杂性被认为是模型参数的数量,后又被视为神经网络的网络结构复杂程度。统计学习理论提出后,在分类问题上又转为“能分类任意数据组合的”模型划分能力。值得指出的是,这种划分能力并不与参数个数成线性关系的,有可能一个参数也具有无穷大的划分能力。结果,单从复杂性的角度来度量这种平衡或刻画不确定性,尽管直观,但还存在复杂性不容易确定的问题。 我在《深度学习,你就是 116 岁的长寿老奶奶》中指出过,可解释性和可预测性之间存在着平衡,因为它是统计和个体之间的平衡。要追求预测性能,总可以找到不具统计解释但却性能优异的个体,而统计往往又会因为平均而牺牲个体的优异性能。这是统计和个体形成的预测与可解释性之间的不确定性,估且将其称为“平猫不确定原理”。 如果令模型的预测 P 与最优预测 P* 之间的绝对值差异为 ∆ P =|P-P*| ,令模型的可解释性与最优的可解释性 I* 之间差的绝对值差异为 ∆I=|I-I*| ,令 C 是一个足够小的常数,则会存在一个预测和可解释之间的不确定性,即: 前者可以通过对个体性能的追逐获得足够近的小值,而后者可以通过对平均性能的追逐获得足够近的小值,但两者之间存在折衷,不可兼得。 而现阶段我们对可预测性的追求更多一些,因为他与工业界关注的性能密切相关,能够直接带来 GDP 的产出,也是引发了第三波人工智能热潮的主要原因。但是,只追求预测性能,会使得其更像是机器、更像是人工智能领域的“飞机”,是“弱人工智能”, 与我们最终期望实现的“强人工智能”还有不小的距离 。 如果我们想要构造具有这种折衷或平衡的智能,有没有可行的路呢? 二、由粗到细的结构发育 除了宇宙可能是从零开始的以外,没有什么其它东西是凭白无故产生的。人的智能从胚胎发育开始,然后有了视觉、听力、触觉等感官和身体器官的发育,并最终有了智能体的形态。再经过漫长的儿童期和教育,智能才得以逐渐完善。在这一过程中,人类的智能经历了由粗到细的结构变化,而平衡似乎就隐藏在其中: 1 、人在思维中,存在快思维与慢思维两种方式,常以快思维为主 。而快思维的频繁使用应该与最初的粗糙或粗略学习有密切关系。试想,人在走路的时候,有谁会关注路面的纹理细节呢?即使人的身份识别,早期儿童心理学发现,小孩往往更容易记住父母而非陌生人。但如果母亲用帽子将其轮廓遮挡后,小孩会出现短时的认知障碍。这些都表明,粗略式的学习和记忆是早期智能发育的基础。因为他可以让人类更快速地了解环境和目标。在保证足够预测精度的同时,节省了大量的计算资源和耗能。 2 、这种粗放式的认知模式可能被固化到后期的认知中,对快思维起了关键作用。值得指的是,并非只有人类才有这种快思维。非人的动物或智能体都具备,所以在常识智能方面人和其他非人智能体存在着有共性的结构发育方式。 3 、 我们也可以推测,这种共性的发育是被嵌套在基因里,通过遗传完成的。所以,似乎人类和非人智能体最初的学习模式、甚至于情感的表达方式都并非全是主动完成的,而是被基因编码所诱导的。从这个角度来看,人和非人智能体似乎就是一台机器。那么,弄明白基因的这种按时表达,也许对于理解智能的发育和建构是关键的,甚至有可能在未来改变智能体的学习模式。但人又不完全是机器,因为人类在漫长的演化中,引入了漫长的儿童期、独特的教育和语言,并通过群体的交互保证了种族的稳定和繁衍。 4 、如果以上推测是合理的,那么结构的表达大概是怎样一个次序呢?首先,对于正常发育的人来说,视觉应该是最重要和优先发育的,然后才是其他辅助的感官器官的发育。因为视觉本就是从大脑发育中分离出来的,可以视为大脑的一部分。其次,当具体概念得到由粗到细的认知后,才开始建构更抽象的语言。既使是情感的建立,也是从直觉式的情感开始,然后才有更细腻的、被修饰了的理性情感。在其他认知能力上,发育的模式应是类似的,其建构非常象我们常说的金字塔 ( 见图 2) 。如果在研究人工智能的过程中,本末倒置的去建构人工智能体,比如重点关注抽象的、如自然语言的结构分析,而不给其提供视觉或其他感官器官的发育研究成果作为支撑,很有可能研究出来的是缺乏真正智能的机器。 5 、不仅在具体到抽象中存在金字塔式的由粗到细认知结构,在每个层次如视觉、听觉等也应有类似的层级结构。智能体在使用这些结构时,能自适应地按需选择是用粗糙、还是精细、还是两者折衷的模型来完成推理、预测等认知任务,以获得在快思维和慢思维间的平衡。 图 2 埃及金字塔 三、如何判断有智能? 假定若干年后,人造的智能体具备了由粗到细、金字塔式的结构,那如何判定其是否具有智能呢?不妨回看下经典的、一正一反的两个智能测试方案。 在人工智能领域,图灵测试是最经典的智能测试方案,它由艾伦·图灵 (Alan Turing) 在 1950 年的论文《计算机器与智能》中提出 。他设想了一种环境,如图 3 ,在测试者与被测试者隔开的情况下,测试者通过某种设备如键盘向被测试者随意提问。经过多次测试后,如果超过 30% 的测试者不能确定被测试者是人还是机器,那么这台机器就通过了测试,并被认为具有人类相仿的智能。 图 3 图灵测试 ( 来自 Wiki) 自此以后,不计其数的科研人员设计了各种程序,希望能通过图灵测试,以证明其能达到甚至超越人类的智能。然而,情况并没有想象的乐观。事实上, 30% 的指标,还是图灵当年基于对人工智能前景看好,预测在 2000 年就能实现的。但现在看来,我们离这一目标还有些不小的距离。 除此以外,图灵测试里设置的提问环节,或多或少都假定了机器和智能体具备了高层或抽象智能,因此自其测试被提出后,人类对问题回答 ( 俗称 Q/A) 的研究一直常盛不衷。但是,这一测试对并没有涉及常识智能甚至情感的鉴别。而从结构发育的角度来看,如果要建构智能体,这两者的鉴别尤其重要。 图 4 中文房间 另一个有名的测试是中文房间 (Chinese room ,或称为 the Chinese room argument) ,如图 4 。它由美国哲学家约翰·希尔勒( John Searle )在 1980 年提出 。 在中文房间的测试中,希尔勒假定了有个完全不会说中文、只能说英文的人在一间房里。房间除了门和一个小窗口,其余全封闭。不过,他随身带了本具有中文翻译能力或程序的书,房间里还有足够的纸、笔和柜子。测试者将中文纸条通过窗口递进房间,而屋里的人可使用他的书来翻译并以中文回复。尽管完全不懂中文,但却可以让房间外的人以为他是会说流利中文的。 这个测试表明,即使房间里的人对中文一窍不通,但仍然可以通过运行翻译程序来骗过测试者,让测试者对机器产生智能的印象 。与图灵测试不同,中文房间是希望推翻强人工智能对智能的定义,即“只要计算机设计好适当的程序,理论上来说,就可以认为计算机拥有了它的认知状态,并且能像人一样进行理解活动”。 从中文房间的测试不难发现,它主要质疑的是预测行为与智能的等价性。但是,智能不仅仅只是预测。因此,我们应该要在比预测更宽泛的定义和环境下测试智能。 另外,这两个测试都采取了隔离,它迫使测试不得不借助于高层的抽象智能如语言来完成交互。其次,这两个测试似乎都假定了与人的智能的逼近。 回看本科普系列中介绍的犯错机制和常识智能等,可以发现常识智能、犯错都是智能体中必然存在的。尤其是犯错机制,从某种意义来说,他是使得智能体世界具有多样性的原因之一,也是有群体存在的前提之一。所以,智能测试应该不限定于抽象智能,更应该包含常识智能和对犯错情况的一般性测试。 另外,其它非人智能体同样具备了一些基本的智能,包括情感智能、快思维方式和慢思维方式。更何况,如果没有语言和工具的引入,人在自然界的进化中, 本属于极易被淘汰的一种生物。 因此,采用更一般性的智能测试条件:开放环境、不限定人的智能模拟,是评测智能有否的关键。 基于这些考虑,这里提出一个也许可以合理来检验是否具有智能的方案,估且称为“平猫测试”: 将一个机器猫 ( 也可以是其它任意形态 ) 放在透明的盒子里或开放环境里,测试者可以与它交互,可以观察、分析它的行为。在确信它的预测能力足够好的前提下,如果它的犯错程度是可接受的,情绪表达、自我意识会让 超过一定比例如 30% 的测试者 感觉与人或非人智能体相差无几时,则可以认为它具有智能。 只要它满足了以上条件,我们就可以认为它是智能体。注意,这里是不要求其具有任何我们已知的智能体形态,但要通过测试,测试者需要确信这只机器猫有智能体该具备的某种平衡。如果只是预测能力方面有异常优异的表现时,而对其它智能相关的指标牺牲过大时,此时不能认为其具有智能,而只能认为是具有机器的预测能力。 要构建能通过这一测试的智能体,我们必须在有智能体形态的智能体上寻找线索。那么,在哪里找呢? 四、如何研究智能 --- 智能测试体的选择与伦理 谈强人工智能,一般我们认为是可能制造出真正能推理和解决问题的智能机器,并且,这样的机器能被认为是有知觉,有自我意识的。因为这样的定义,多数人工智能研究者会将其向人的智能看齐,需要研究人或像人的生命体的智能发育。这自然会带来比较严重的伦理问题,因为研究人的智能途径之一是要对人的大脑中进行深层次的探索。可是不管是脑电极形式还是基于核磁共振的方式,都会或多或少损害人脑的神经元细胞。这是大家不愿意涉及强人工智能的原因之一。 当然,退而求其次似乎更合理。于是,科研人员选择了与人类在形态上最为接近的猴子与猩猩来做实验。不管是手势的使用,还是对语言的理解,似乎都有一些相似之处,选择它们似乎是最佳选择。为了人类的未来,它们做些牺牲也无可厚非。所以,在这两类动物上进行的很多实验,经常能看到要么把猴子关在笼子里,要么开颅插好电极固定在架子上,测试其对各项指令的反映程度,试图发现脑区活动与智能的线索。 然而,这也许并非是现阶段研究智能最有效的方式,也可能并非是最好的实验品。因为成本太贵,能做得起猴子猩猩的实验室可以说都是非富即贵的。所以,才会有研究人员宁愿直接在人身上直接做相关测验,因为可能更经济。实际上,真正与人类有良好情感交互的,不是猴子猩猩,而是宠物狗。经过几千年的驯服,狗早已经能够非常好的理解人类的情感,甚至部分语言。从常识智能和基本情感来看,狗已经具备了和人类几乎一样的能力。更何况,狗的数量远多于猴子猩猩,且不存在不可逾越的伦理问题。 事实上,如果不是因为语言和教育,人类在自然界的位置应该是属于弱小的行列。所以,综合这些信息,从这个角度出发,我们并不需要把研究的测试体限定在人和猴子猩猩上,而是有着大量可供选择的测试体,来帮助我们理解目前还不太明了的常识智能和情感。 然而,即使提供了大量的测试体,现阶段着手研究强人工智能也并非是一蹴而就、水到渠成的,因为我们还处在人工智能的困境中。 五、人工智能困境 在这一波人工智能热潮中,有相当多的学科都投入了人工智能的研究中。尽管产业界形成了显著的进展,尤其在安防相关的行业,也有通过图灵测试的所谓报道,但我们似乎并没有看到多少与真正智能相关的影子,困难主要在哪里呢?这里从几个主要方向上谈些自己初浅的观点, 希望能给大家一些思考和线索: 1 、机器学习 在本轮人工智能热潮中,最亮眼的主角无疑是深度学习,或更宽泛一些的机器学习。他对于弱人工智能以及在产业界的应用的推动是显而易见的。然而,机器学习是否真能帮助理解真正的智能呢? 我们不妨将机器学习的技术概括成程咬金的三板斧:正则化、加圈、加层,这样也许会比较容易理清头绪。 第一板斧是正则化,其观点是认为我们要研究的问题求解不存在唯一性,往往是一对多的求解。 Tikhonov 将其称之为 病态问题 (ill-posed problem) 。要让病态问题良态化,最自然的做法就是引入约束项或正则化项。从病态问题良态化的思想提出至今,这一板斧挥了六十多年,随着对数据的结构持续不断、更新的认识,我们提出了各种正则化的方案,从模型参数的复杂性、到空间的光滑性、到模型结构的复杂性、到特征的稀疏性,诸如此类。但似乎这些努力最终都转化为预测任务,而并没有对智能给出更明晰的解答。可能的原因是:如果给定了一个限定体积的球作为搜索空间,那能寻找的解空间必然只能在此球内去找。不管增加多少的约束项来使问题良态化,该良态化获得的全局最优解也只能是这个球张成的解空间上的局部最优。可是,如果一开始球就给错了呢?如果这个球只是相当于盲人摸象中摸的其中一条腿呢? 第二板斧是加圈,其主要思想是假定有观测到的世界变迁可能有一个或多个小人在暗中控制中,且这些变迁的变量和小人之间存在较复杂的相互关系,由此我们可以构造要么是有明确指向关系的有向图模型、要么是无明确指向的无向图模型,当然也可以混搭。这一板斧的优势在于方便解释,因为关系都是明确的。要丰富对世界各个侧面的理解,最自然的做法就是增加能描述更细粒度关系的圈和圈与圈的边了。但这一方法在变量过于复杂时,又容易出现关系混乱、计算量过大的问题,在现阶段也很难构造出可以自我生长的模型。 第三板斧是深度学习的加层。既可以往深了加,也可以往宽了加,还可以跳着加,只要你想得到就行。加层的历史按性能的改善可以分两阶段,相对浅层的经典神经网络时代和 2012 年深层的后神经网络时代。尽管有两个时代,从理论方面来看,他的变化却并不大。但从工程技巧来看,逐层变特征学习的策略让其获得了巨大的可寻优空间,再加上大数据的支持,使得其在预测能力相关的任务中,目前处于独孤求败的地位。其它门派只能在小样本环境中找点自留地。但是, ( 深度 ) 神经网络模型从 MP 模型开始,到非线性变换函数的引入、到反向传播算法的提出,到深层结构的发展,这一结构的主要长处还是预测,因为有广义逼用定理的支持。它并没有考虑模型的可塑性、可发育性,也没有触及本文中提及的智能所需要的平衡。 因为预测是机器学习的重中之重,所以,我们在此框架下能够追求的更多是弱人工智能方面的成就,也确实看到了不少相关的成果。但在真正智能的探索方面,机器学习还缺乏相关的理论支持。 2 、 脑科学 与机器学习主战场在预测不同,脑科学更关注大脑的发育以及与智能的关系。在近几十年来,脑科学在微观层面,已经进入了细胞、分子水平;在宏观层面,随着各种无创伤脑成像技术的使用,如正电子发射断层扫描术 (PET) 、功能性磁共振成像技术 (fMRI) 、多导程脑电图记录术和经颅磁刺激术等的使用,已经可以对不同脑区数以万计的神经细胞的活动与变化进行有效的分析 。 然而,由于目前各种探测技术在空间和时间两方面的成像分辨率都并不理想,我们的分析仍然是雾里看花的方式。尽管这种探测方式远比 19 世纪初曾盛行的“颅相学”科学多了,但我们对神经细胞集群每个单元的活动仍知之甚少,更不用说,将单元的信息组合起来理解大脑对知识、信息的加工和编码过程 。其次,现在的研究对大脑中的意识也缺乏有效的了解办法。比如,尽管我在前文中提到过梦境的复述方法,但仍没有办法能真正复现大脑在梦境中的场景和故事。另外,如何从简单的神经活动升华为我们平日思考所用的快思维、慢思维,也都还缺少有效的研究方案。不仅如此,如果从机器学习的角度来看,由于脑的活动都是个体的,脑科学中诸多实验的可重复性都偏低,难以形成有统计意义的结论。基于以上原因,如果用唯物主义的讲法来归纳脑科学的情况,那就是:我们已有一些条件来理解脑活动中量变的过程,却还不明了什么时候量变会引起质变。 3 、统计学 统计学对人工智能贡献最大的,当属频率派和贝叶斯两大流派,主要不同在于要不要利用先验信息。比如每一次买彩票的情况就可以看成是下一次彩票时可用的先验信息。 自英国学者贝叶斯发表了“论有关机遇问题的求解”一文、并提出了贝叶斯公式后,就有了贝叶斯学派。该学派认为任何一个未知量都可以通过重复实验的方式来获得一个先验的分布,并以之来影响总体分布和推断。而在贝叶斯派形成之前,曾经一统江湖的频率派从来就是立场坚定反对这种特别带主观性质的做法。当两大门派形成后,便为了主观还是客观描述未知量,有了一场吵了近 250 年,至今还在吵的架 。 另外,为了追求可分析,统计学界偏好采用线性模型求解,以便获得相对干净的答案。但是,现实世界却存在大量的非线性问题。 所以,不管两个学派谁对谁错,要研究真正的智能、寻找可解释性的线索,就需要统计学的这两个学派能提供更多有效的、非线性的理论、方法和工具。 4 、数学 对我来说,数学是最美丽的,几千年的努力已经让其成为了人类历史上最完备的学科,没有之一。数学之美在于简洁,往往一两个公式、一个定理就能把连篇累牍的内容讲清楚。然后,这种简洁和完备性的获得也是有代价的,很多时候是通过大量放缩、牺牲小项来得到的。而研究人工智能,在达到一定预测性能后,我们需要了解的,也许就是这些在放缩过程中被牺牲掉的小项。因为我们在处理实际问题时,大多数情况是有噪的,不确定性的。 另外,我们也需要思考一个问题:智能是否需要严谨的数学?也许并不要!如果我们将智能狭义的理解为人类的高级智能的话,那是必需的。但这也只是在需要进行严密思维、慢思维的时候才用到着。大部分的常识智能是不依赖于这类高级智能,即不需要进行太多的数学关联,就能形成。比如大自然中的绝大多数动物,哪种动物会像人一样学过数学?可为什么仍然能很好地适应环境?这说明我们在仿生智能时,从数学上建模可能并不见得是等同于真正智能的感知和预测模式。 图 5 “ 薛定 谔 猫” 佯谬 5 、物理学 谈到物理学与人工智能,必须提下波动力学之父、曾提出过“薛定谔猫”佯谬 ( 见图 5) 的奥地利物理学家埃尔温·薛定谔。他于 1944 年出版的书《生命是什么 --- 活细胞的物理学观》开启了分子生物学的大门,也有说其对人工智能的早期发展起了重要作用。他认为物理学和化学原则有助于解释生命现象,而基因的持久和遗传模式的稳定可以用量子理论来说明。该书也促使英国物理学家克里克从粒子物理的研究转行到生物学,并与美国生物学家沃森一起在 1953 年提出了 DNA 双螺旋分子结构模型,解开了遗传信息的复制和编码机理。 而现代物理学中,与人工智能可能最密切相关的是量子计算。从机理上来看,量子比特的量子叠加态特性,可以避开现有计算机发展中摩尔定律的影响,避免现有 CPU 发热问题,以指数级的效率大幅度提升计算能力。然而,量子计算在理想情况下的主要优势是加速计算。但速度快的同时,他也为每个量子位的状态引入了概率或不确定性。这使得其在研究人工智能时,有可能失去原本机器学习很容易获得的精确性能。比如聚类中最经典的 K- 均值算法,经典机器学习能轻松达到的性能,利用量子计算的框架来处理,可能效果反而会变得差强人意。另外,智能的本质问题应该不是通过提高计算效率就能解决。 6 、遗传学 遗传学解释了基因的复制、交叉、变异,近年来在基因测序方面也取得了长足的进步。从已知的情况看,基因的结构很象是一个超乎寻常的程序员编制的程序,固定的基因序列中包含了可以表达功能的编码区和负责多个其他能力如调控的非编码区。不仅如此,基因似乎有一种按时表达或调控的能力。这种编程技巧目前还无法在人类已有的程序中找到对应的。 不仅如此,目前对于分析非编码 区 DNA 序列还没有一般性的指导方法。在人类基因组中,并非所有的序列均被编码,即便是某种蛋白质的模板,已完成编码的部分也仅占人类基因总序列的 3~5% 。非编码区的调控机制人类还远没到能百分之百说得清楚的地步。 说个极端的例子,一个受精卵分裂成两个相同的,两变四,四变八,依此类推,上面的发育成了大脑、上身,下面的发育成了脚,可是这种细胞与细胞间的方向性是如何被调控机制获得的呢? 所以,对非编码区按时调控的深入分析,也许对于理解智能体的结构发育有着重要的作用。 正如 1975 年获得诺贝尔生理学或医学奖的美国科学家 Dulbecco 于 1986 年所说:“人类的 DNA 序列是人类的真谛, 这个世界上发生的一切事情,都与这一序列息息相关” 。但要完全破译这一序列以及相关的内容,我们还有很长的路要走。 7 、认知心理学 心理学中与智能研究相关的主要是认知心理学。从广义来讲,与人认识相关的都是认知心理学的研究范围。狭义理解,主要是信息加工相关的心理学。它将人的认知与计算机类比看待,希望从信息的接受、编码、处理、存储、检索的角度来研究人的感知、记忆、控制和反应等系统。 从 20 世纪 50 年代中期开始,到 1967 年美国心理学家奈瑟出版《认知心理学》一书形成了独立的流派,至今已有近 70 年的历史。其学科中也衍生了强调整体大于部分的格式塔心理学、 皮亚杰的结构主义等众多分支。因为门派众多,这里仅以此两个分支为例来简要讨论在人工智能研究中的意义和存在的问题。 在视觉方面,格式塔心理学总结了一些规律,如涌现、多视角、聚类、旋转不变性等,强调整体与部分之间的差异,并非简单的累加,甚至整体可能大于部分之和。另外,顿悟学习、学习迁移、创造性思维的研究也是其重要方向之一。其不足在于,忽视了对生理基础的研究,部分实验缺乏足够的证据。另外,格式塔理论发展出来的观点不太容易量化、程序化。结果,尽管大家觉得它有一定的道理,但近几十年在计算机视觉和机器学习研究领域可以见到的相关论文仍然非常少。 皮亚杰倡导的儿童发育心理学和结构主义是另一条探索智能发育的道理,主张认识的同化和顺应,即将本能反应向不同目标的范围扩大的同化,以及根据环境变化而对行为产生改变的顺应 。他对儿童在感觉运算、前运算、和具体运算阶段的观察分析,视角非常独特,也开启了儿童发育心理研究的大门。皮亚杰的结构主义不足在于 1 )受研究的个体数量和年龄跨度的限制,难以获得更一般性的归纳总结; 2 )偏好用问题回答的方式来研究,难以对语言未完全掌握的儿童进行有质量的询问。而且,如我之前所述,问题回答本已是高层和抽象智能,远离了智能金字塔的基础。 如果可以多审视下格式塔心理学和皮亚杰的结构主义,也许对于我们重新思考智能体的发育,尤其是理解犯错机制会有着重要的启示作用。另外,也许可以考虑研究宠物的认知心理,尽管它不如人那么聪明,但宠物狗的认知能力并不会比一两岁小孩的弱多少,而且宠物狗的一生长时间是停留在与儿童相仿的认知能力下的。 所以,尽管认知心理学可以利用计算机模拟人的抽象思维能力,但在早期发育和金字塔结构的研究这一块还存在大的空间有待挖掘。 8 、社会学 在未来,人工智能体必然是以群体形式来存在和发展壮大的,所以有必要研究群体行为的各种内在因素。与这一问题最密切相关的,是研究社会行为与人类群体的社会学。 自 1838 年由法国社会学创始人奥古斯特·孔德首次提出“社会学”的概念, 19 世纪 40 年代由埃米尔·迪尔凯姆、卡尔·马克思、马克斯·韦伯三大社会学巨头共同创立, 社会学至今已经形成了从微观的社会行动和人际互动、到宏观的社会系统和结构的广泛研究范围。在群体行为的结构功能、符号互动、社会冲突、社会交换、社会心理、社会统计学、社会伦理等方面,社会学都有着深入而丰富的研究成果。 尽管如此,社会学在形式化这些成果方面还存在困难,这使得仿真社会学中的群体行为各要素有一定难度。而如果希望了解未来人工智能体社会的各种变化,程序化这些要素又是必然的。另外,社会学关注的主要是人。而未来的人工智能社会组成肯定不限于只有人类。那么,如果要提前布局和预测,需要将非人类智能群体行为的研究也纳入智能的研究范畴中。 到此,爱犯错的智能体系列就告一段落了。总体来看,研究人工智能、大脑的功能一点也不比研究宇宙简单。从我列举的、并不算完全的方向来看,研究人工智能的相关学科之间的差异比较大。研究机器学习的,可能对脑科学、社会学知之甚少,研究脑科学、社会学又对机器学习的核心理论与算法一知半解。结果, 单靠一臂之力或一个方向的力量,孤立开来各自做研究,可能就只能盲人摸象,看到局部,却依然不明智能路在何方。也许,打破彼此间的鄙视链,交叉合力、优势互补,或许能找到关于智能的答案。 参考文献: 1. 拉 · 梅特里 . 人是机器 . 商务印书局 , 2011. 2. Zadeh, L. A. Fuzzy sets.Information and Control.8(3): 338–353,1965 doi : 10.1016/S0019-9958(65)90241-X 3. Zadeh. L. A. Outline of a new approach to the analysis of complex systems and decision proce sses.IEEE Trans. Systems, Man and Cybernetics, SMC3(1): 28–44, 1973. 4 . Kahneman, D. Thinking, Fast and Slow. Farrar, Straus and Giroux, 2011 5. Turing, A. M. Computing Machinery and Intelligence : Oxford University Press on behalf of the Mind Association , 1950. 6. Searle, J. 1980a. Minds, Brains, and Programs. Behavioral and Brain Sciences 3, 417-424. 7. Tikhonov, A. N. On the solution of ill-posed problems and the method of regularization, Dokl. Akad. Nauk SSSR, 151:3, 501–504, 1963. 8. 杨雄里 . 当前脑科学的发展态势和战略 . 2018. https://www.sohu.com/a/221020764_465915 9. Efron, B. Bayes’ theorem in the 21 st century. Science, 340(7):1177-1178, 2013. 10. Dulbecco, R. A turning point in cancer research: sequencing the human genome. Science, 231(4742): 1055-1056, 1986. 11. 皮亚杰 . 结构主义 . 商务印书局, 1984. 张军平 2018 年 12 月 21 日星期五 注:本系列已授权清华大学出版社,将于明年出版。如需引用本科普系列的内容,请采用以下格式引用,谢谢! 张军平 . 爱犯错的智能体,清华大学出版社, 2019. 延伸阅读: 23. 爱犯错的智能体(十九) – 群体智能与错觉 22. 爱犯错的智能体(十九) – 群体智能与错觉 21 . 爱犯错的智能体(十八):情感与回忆错觉 20. 爱犯错的智能体(十七):灵光一闪与认知错觉 19. 爱犯错的智能体 (十六):庄周梦蝶与梦境学习 18. 爱犯错的智能体 --- 语言篇:可塑与多义 17. 爱犯错的智能体 – 体感篇:我思故我在? 16. 爱犯错的智能体 --- 听觉篇(二):视听错觉与无限音阶的拓扑 15. 爱犯错的智能体 -- 听觉篇(一):听觉错觉与语音、歌唱的智能分析 14. 爱犯错的智能体 – 视觉篇(十一):主观时间与运动错觉 13. 爱犯错的智能体 -- 视觉篇(十):自举的视觉与心智 12. 爱犯错的智能体 -- 视觉篇(九): 抽象的颜色 11. 爱犯错的智能体--视觉篇(八):由粗到细、大范围优先的视觉 10. 爱犯错的智能体 -- 视觉篇(七):眼中的黎曼流形 9. 爱犯错的智能体--视觉篇(六):外国的月亮比较圆? 8、 爱犯错的智能体 - 视觉篇(五):火星人脸的阴影 7、 爱犯错的智能体 - 视觉篇(四):看得见的斑点狗 6、 爱犯错的智能体 - 视觉篇 (三):看不见的萨摩耶 5、 爱犯错的智能体 - 视觉篇 (二):颠倒的视界 4、 爱犯错的智能体 - 视觉篇(一): 视觉倒像 3、 AI版“双手互搏”有多牛? 浅谈对抗性神经网络 2、 童话(同化)世界的人工智能 1、 深度学习,你就是那位116岁的长寿老奶奶! 张军平,复旦大学计算机科学技术学院,教授、博士生导师,中国自动化学会混合智能专委会副主任。主要研究方向包括人工智能、机器学习、图像处理、生物认证及智能交通。至今发表论文近100篇,其中IEEE Transactions系列18篇,包括IEEE TPAMI, TNNLS, ToC, TITS, TAC等。学术谷歌引用2800余次,ESI高被引一篇,H指数28.
11152 次阅读|9 个评论
爱犯错的智能体(十九) – 群体智能与错觉
热度 2 heruspex 2018-12-7 07:41
跨界 我是理科生 混进了一诗歌群 学习与赏析 诗歌中的意象与意境 有天好奇地问了句 为什么 诗歌一天能写好多 科研一年才一点点 灵感怎么差那么多? 于是 群里炸开了锅 有人说 科研哪要灵感 有人说 科研和科学研究 你知道区别吗 有人说 你做的是科研吗 一点数学也没有 我只好 展示了一些 我在 数学鄙视链 最底端的 统计学成果 还有 物理教学的 一点心得 结果 整个群里 只有 两个理科生 在激烈地 辩论着 偶尔会有人发表情包䁔场 群主最后 不得不出面 嗨,两位同学 这里是文学群 请不要讨论不相关的内容 平猫 2018 年 12 月 1 日 个体成群后,才便于延续和壮大。人类和非人智能体在结成群体的进程中,从生存需求的共生到精神需求的依赖,经历了蜿蜒曲折的变化和调整,最终形成了精彩纷呈、各式各样的群体。而聚集成群的个体,会与独立存在或独处时,有一些明显的区别 。那群体的行为是如何体现的呢?它对智能有何影响,又有哪些错觉呢? 一、群体智能 人类对群体行为的研究年代比较悠久。我国著名科学家钱学森先生在上世纪90年代曾提出了“综合集成研讨厅”的体系。他强调专家群体应以人机结合的方式进行协同研讨,共同对复杂巨系统的挑战性问题进行研究。而将群体行为关联至智能学习则常从两个方面出发,一是分析宏观的群体表现,一是审视微观的群体行为。宏观主要从非人智能体的角度着手,以观察动物的群体行为为主。 天上的飞鸟比较容易看到的,但是形成能变换各种形状的飞鸟群却已不多见 ( 图 1) 。不多见的原因与人类曾过度使用化学药品和肥料有关,美国科普作家蕾切尔·卡逊在其 1962 年的科普书《寂静的春天》介绍过。不过偶尔还能见到些,所以 1995 年 Eberhart 和 Kennedy 博士就分析了飞鸟集群觅食的行为。他们发现当鸟群需要的食物处在鸟群生活的某个区域时,在搜索食物时,每只鸟不仅会受自己飞行的路径影响,还会受和它相邻鸟群的局部飞行路线,以及鸟群以群体的整体飞行路线所影响。鸟群会通过共享这些个体和群体的信息,并通过不断交换和更新这些信息,最终鸟群能用“最优”的效率找到食物。基于这一观察, Eberhart 和 Kennedy 博士提出了一套群体智能算法,称为鸟群优化算法 (Bird Swarm Optimization) 。如果把每只鸟假设成一颗粒子,一群鸟群则构成粒子群,则鸟群算法还有个更一般的名字,叫粒子群优化算法 (Particle Swarm Optimization ,简称 PSO) 。 不仅天上的飞鸟有群体行为,地上的走兽穴蚁也有,而其中最方便观察、能频繁见到、密度又极高的群体是蚂蚁 ( 图 1) 。于是,意大利的学者 Dorigo 和 Maniezzo 等观察了蚂蚁的觅食行为,在上世纪 90 年代提出了蚁群系统 (Ant System 或 Ant Colony System) 。不同于飞鸟,蚂蚁是通过一边行路一边释放“信息素”的物质 ( 英文为: pheromone 。通俗点讲,是体味的一种 ) 来形成群体觅食行为的。蚂蚁会沿着“信息素”浓度高的路径来行走,同时它走过的时候也会留下自己的追踪“信息素”,进一步强化了可能到达食物的最短路径。同时, “信息素”会随时间的增长而挥发,以保证路径搜索不易僵化,失去灵活性。通过信息素的反复增强和淡化过程,蚁群就能沿最短路径到达食物了 。 蚁群和鸟群优化算法是文献中最经典的两个群体智能算法。事实上,非人智能体的群体行为有很强的多样性,如果留意观察各种群体的行为表现,还能找到更多很有新意的群体智能算法。 举例来说,美国德州奥斯丁议会大桥有群蝙蝠群。据估计,桥下生存了 150 万只墨西哥无尾蝙蝠 ( 图 1) 。每到傍晚时分就会出洞,成群飞行去觅食,已是当地最负盛名的旅游景点。对飞行类群体智能行为感兴趣、希望找到新算法的不妨去观察观察。海洋中的鱼群也自有其特点。较小的鱼偏好成团,形成比较大的形状,如图 1 。与飞鸟不同,研究表明,小鱼爱成群的原因是较个体而言,鱼群的体积要大得多,能够让潜在的捕食者误以为是比它大的生物体,从而不敢冒然攻击,也就让小鱼多了生存的机会。除了觅食和生存行为,迁徒行为也可以研究。比如大雁南飞时的,头雁引航的人字形队现象。在迁徒中,头雁与其它从雁在决定路线方面的决策权方面显然存在大的差异。 图 1 :从上到下,从左到右:鸟群、蚁群、蝙蝠群、鱼群 当然,动物的群体行为也并非始终优于个体,常常是机会与风险并存。比如,蚁群靠追踪“信息素”来觅食的行为就不是百分之百安全。假如有一只引路的工蚁碰巧离开了有“信息素”的路径,跟着它集体觅食的蚂蚁都会离开路径,极端情况下会形成如图 2 的蚂蚁乱转 (Ant Mill) 的循环圆圈,最终导致蚂蚁因为体能耗尽而集体死亡。 这是与群体优势相背的 群体错觉 。 再比如小鱼的鱼群现象,有些捕食者就会故意利用这个习性。如杀人鲸 (Killer Whale ,也称虎鲸 ) 为了提高吃小鱼的效率,会有意识地分散开将小鱼们围起来,驱使小鱼被动在包围圈内形成密集的鱼群,然后虎鲸便会轮流冲入圈中饱餐一顿。 这是不同智慧级别的群体智能的对决结果。 图 2 左: 蚂蚁 乱 转;右:虎鲸在学习捕食鱼群技巧 不仅非人智能体存在值得研究的群体行为,微观层面中也有。 二、微观和非生命体的群体算法 微观的层面可以分析群体行为的,一种是物理学中经常提及的布朗运动,即微小粒子的无规则运动。这种运动从单个微粒来看是无规则的、无序的,但从群体或整体来看却能形成运动中的动态平衡。最早是英国植物学家 R ·布朗从花粉中观测到这一现象。尽管解释很多,真正有效的解释还得归功于维纳于 1863 年提出的分子振动假说和爱因斯坦的分子运动论原理。 1926 年法国人贝兰和斯维德伯格因为实验验证了爱因斯坦的假说而获得诺贝尔物理学奖。 在布朗运动的基础上,科学家提出了模拟退火 (Simulated Annealing) 的智能算法。它模拟了金属退火中的加温过程、等温过程和冷却过程,通过增强和减弱随机游走的分子的布朗运动强度 ( 如图 3) ,使其最终形成有序的全局平衡或最优解 。 除了分子的群体行为外,科学家们也看好基因。因为在算法层面上,进行群体的“基因编辑”都是相当安全且无伦理问题的。进化论告诉我们,基因的演化有三种模式:复制 (reproduce) 、交叉 (crossover) 和变异 (mutation) 。那么,如果要“编辑”出一个最优的“基因”,我们完全可以让成千上组“基因”通过这三种方式来实现优胜劣汰,最终收敛到期望的解。不过需要注意的是,在演化过程中,复制是根本,变异只能偶尔为之。这种基于基因群体行为的方法被称为遗传算法 (genetic algorithm) 。 不仅微粒和基因有群体行为,甚至毫无生命特征的钞票,也有人观察到了有趣的群体流通行为。 2002 年德国物理学家 Dirk Brockmann 发现,尽管在绝大多数时间里,钞票只在一个较小的区域里交换,但是仍有一小部分钞票会流通到较远的地方,如图 3 所示。他将这种流通模式被称为列维飞行模式( Levy flight pattern ),并认为其流通性质表明小概率的事件有时会产生较大的影响 。 图 3 :布朗运动中的随机游走与列维飞行模式 不论采用的是哪种方法,从本质上都有一个隐含假设在其中。既认为个体的活动具有随机性,但纳入群体后,最终这种局部或个体的随机性可以收敛到全局平衡有序的环境。基于这一假设,以上提及的非人智能群体智能、微观群体算法和遗传算法常被用于目标的寻优,目的是为了帮助需要迭代求解或梯度寻优的算法获得最优解。需要注意的是,由于这类算法或多或少都带有比较强的启发式,因此不太容易找到好的理论性证明,如数学家们偏好的存在性、收敛性和唯一性等以及统计学家偏好的泛化界。即使有一些理论性的证明,也只是在给了较多假设条件后的有限结论。尽管如此,这类方法在工程上仍然形成了不少好的应用成果。 三、多样性与集成学习 要发挥群体的优势,关键是多样性必不可少,因为差异大的时候更容易形成互补性。如蚁群算法中常假定每只蚂蚁具有独特的个性。不仅单个物种内部有互补性,跨物种间也存在互补性,甚至更明显。比如两种能独立生存的生物间的原始协作关系 (Protocooperation) ,可以保证双方都能获利。图 4 中寄居蟹与附着于寄居蟹匿居的贝壳上的海葵、鮣鱼利用吸盘附着在鲨鱼体表与鲨鱼,都是这类原始协作关系。海葵借助寄居蟹、鮣鱼借助于鲨鱼扩大了活动范围和觅食机会,反过来海葵和鲨鱼又分别给寄居蟹和鮣鱼提供了保护。还有对一方有利,对另一方无关紧要的偏利共生 (Commensalism) ,如常受海葵保护的双锯鱼。人类与宠物狗的共生也比较有意思。人从宠物狗中得到了情感的慰籍,老年人甚至把它做为已自立门户的子女的替代品。而宠物狗也不仅仅是得到食物,还从人类这里学习了很多人类的行为规范。值得再次强调的是,机器智能目前还无法替代宠物狗的共生功能。而在人工智能领域,也有不少研究是在学习和利用这种跨物种间的互补性,如利用地面机器人与无人机的互补性来实现对未知环境的快速探路。 而 2017 年出台的《新一代人工智能发展规划》中,也强调了要着重研究“多人多机联结,使之涌现出更强大智能”的群体智能。 图 4 : 左:寄居蟹与海葵;右: 鮣鱼与鲨鱼 在通讯中也能见到利用多样性和互补性的应用。如在信道的误差纠编中,为了保证信息在传输中不发生错误,最简单的操作就是多传输几次。尽管每一次都有可能出错,但只要出错的位置不同,总能通过 少数服从多数 的方式来大幅度降低传输犯错的概率,最大程度地保证信号传输的正确性。 机器学习界把利用集体或群体来增强性能的策略叫做集成学习 (Ensemble learning) 。要在集成框架下获得好的性能,基本假设是每个子体学习器要有一定的预测能力,比如至少要比扔硬币随机猜的性能好一点,同时分类器之间要有足够大的多样性或差异性。在这一思想下,大量的集成学习方法被发展。以分类任务如人脸识别为例,早期端对端的深度学习还未流行时,一般都从三个角度来实现群体的集成。或是改变输入的特征,形成多样性;或是变更学习器的多样性,或是动最终输出函数的集成方式 。虽然基本套路并不复杂,但俗话说得好“三个臭皮匠抵个诸葛亮”。在 2012 年深度学习没有形成大的性能提升前,集成学习模型形成的群体优势几乎是打遍了“所有与数据相关的竞赛”而无敌手。而 2012 年后,尽管深度学习成为主流,但仍然能见到集成学习的三板斧,有些是转化成了深度学习中网络的结构变化,有些仍是通过把多个深度模型结合来继续用群体优势拔得竞赛的头筹。 图 5 :三个臭皮匠顶个诸葛亮 如果分析以上这些群体智能学习,不难发现,这些群体算法要么是针对某个目标的优化来考虑的,要么是针对某个目标的预测来实施的。研究非人智能体的群体算法时,科学家们着重观察的现象似乎主要与其群体的生存密切相关。反观人类,在成了地球主宰后,早已不再仅仅满足于生存需求,还衍生了生理、安全、社交、尊重和自我实现共五个层次的需求,被称为马斯洛需求层次理论。而这些高层次的需求在人工智能的学习中却很少被涉及。 图 6 :马斯洛需求层次理论 � � 如果要研究人工智能,必然要考虑人工智能体形成社会和群体、而非个体时的情况。那我们不妨看看,人类智能体在生存需求以上,群体生活时会存在哪些错觉。如果人工智能体希望模拟人的群体行为,也许就能从这些错觉中得到一些经验的借鉴。 四、群体错觉 一旦有了社会,生存需求就退居二线了。此时的群体不再满足于以“预测”为终极目标的,对知识的渴求会逐渐占上风,尤其是信息量大的知识。比如“太阳从东边升起”这种自然规则,按概率来说,就是百分之百能成立的。然而他却是没有知识含量的。因为 按信息论之父香农的定义,信息是事件出现概率的倒数的负对数比。简单来说,百分之百出现的,信息等于 0 。对习惯快思维的人类来说,这类信息会和路面的细节一样被直接忽略。如果事件出现的概率很小时,反而蕴含了大的信息量。比如马路上突然有人打架,于是路人们会一拥而上,观战拿手机发朋友圈。这是信息论下 “ 对知识的渴求 ” 表现出来的群体本能反应。 可是假如不是打架,而是刑事事件时,旁观者愿意主动施救的反而可能变少,尤其是在人来人往的场所。这是因为当在场的人太多时,帮助的责任就被大家平分,平分到连旁观者都意识不到,以至于给人造成了“集体冷漠”的感觉。这不是信息量在起作用,而是责任分散效应的群体错觉。我国的“三个和尚”故事中讲的“一个和尚挑水喝 , 两个和尚抬水喝 , 三个和尚没水喝”,就是责任分散效应的体现。 也有人期望通过群体的力量获得集成学习般的性能提升。然而,“物以类聚、人以群分”,即使现代社会也是如此,如朋友圈中的五花八门的群,常是因某一方面的共性而形成的群体。在这种群体时,执异见的更容易被孤立而非接纳。不仅群体有排斥现象,甚至有时还会有智商、情商的拉低效应。比如如果参加传销团体,人会不由自主失去自我意识,导致本应正常的智商无法表现,变成智力水平低下的生物。这些现象是群体的拉平错觉 。 群体智能在少数服从多数问题上也存在误区。因为群体经常表现的是普通品质,并不能胜任需要很高智力才能完成的工作 ,但却可能因这一规则而扼杀智慧。比如在早期科学还处在启蒙阶段时,哥白尼因坚持日心说而被教会烧死,而伽利略为了保全性命不得不牺牲掉自己对这一观点坚持。这些都表明多数投票策略可能存在的风险,因为真理并一定都掌握在多数人手里的。这是统计中在缺乏先验信息时,采用群体平均权重引发的错觉。 这也反映了另一个现象,在群体社会中,成群并非对所有人都是最优的,因为“牛羊才会成群,狮虎只会独行”。 毕淑敏说过“孤独是一种兽性”。它反映了独来独往的自信和勇猛。适当享受个体的孤独,还能更有效的管理时间和自由的探索。 群体错觉还有不少,它间接或直接地导致了社会的多样性和层次性。这些是我们在研究人工智能群体行为时需要注意的,也是人工智能体未来形成人工智能社会时需要考虑的。 到此为止,我已经从诸多层面介绍了人类的错觉。我们不禁要问,人类如此爱犯错,为什么还能主宰世界呢?机器智能会替代人类成为主宰吗? 参考文献: 1 、古斯塔夫·勒庞 著,冯克利 译 . 乌合之众:大众心理研究 . 中央编译出版社, 2005. 2 、 Kennedy, J., Eberhart, R. Particle swarm optimization. In: Proceedings of the IEEE International Conference on Neural Networks. 4: 1942–1948, 1995. 3 、 Dorigo, M., Maniezzo, V., Colorni A. Ant system: optimization by a colony of cooperating agents. IEEE Transactions on Systems, Man, and Cybernetics, Part B (Cybernetics), 6(1), pp: 29-41, 1996. 4 、 Kirkpatrick, S., Gelatt Jr, C. D., Vecchi, M. P. Optimization by Simulated Annealing. Science. 220 (4598): 671–680, 1983. 5 、 https://en.wikipedia.org/wiki/Genetic_algorithm 6 、 Brockmann, D., Sokolov, IM. Lévy flights in external force fields: from models to equations. Chemical Physics 284 (1-2), 409-421, 2002. 7 、 Zhou Z.-H. Ensemble Methods: Foundations and Algorithms. CRC Press. Jun 6, 2012. � 张军平 2018 年 12 月 7 日 � 延伸阅读: 22. 爱犯错的智能体(十九) – 群体智能与错觉 21 . 爱犯错的智能体(十八):情感与回忆错觉 20. 爱犯错的智能体(十七):灵光一闪与认知错觉 19. 爱犯错的智能体 (十六):庄周梦蝶与梦境学习 18. 爱犯错的智能体 --- 语言篇:可塑与多义 17. 爱犯错的智能体 – 体感篇:我思故我在? 16. 爱犯错的智能体 --- 听觉篇(二):视听错觉与无限音阶的拓扑 15. 爱犯错的智能体 -- 听觉篇(一):听觉错觉与语音、歌唱的智能分析 14. 爱犯错的智能体 – 视觉篇(十一):主观时间与运动错觉 13. 爱犯错的智能体 -- 视觉篇(十):自举的视觉与心智 12. 爱犯错的智能体 -- 视觉篇(九): 抽象的颜色 11. 爱犯错的智能体--视觉篇(八):由粗到细、大范围优先的视觉 10. 爱犯错的智能体 -- 视觉篇(七):眼中的黎曼流形 9. 爱犯错的智能体--视觉篇(六):外国的月亮比较圆? 8、 爱犯错的智能体 - 视觉篇(五):火星人脸的阴影 7、 爱犯错的智能体 - 视觉篇(四):看得见的斑点狗 6、 爱犯错的智能体 - 视觉篇 (三):看不见的萨摩耶 5、 爱犯错的智能体 - 视觉篇 (二):颠倒的视界 4、 爱犯错的智能体 - 视觉篇(一): 视觉倒像 3、 AI版“双手互搏”有多牛? 浅谈对抗性神经网络 2、 童话(同化)世界的人工智能 1、 深度学习,你就是那位116岁的长寿老奶奶! 张军平,复旦大学计算机科学技术学院,教授、博士生导师,中国自动化学会混合智能专委会副主任。主要研究方向包括人工智能、机器学习、图像处理、生物认证及智能交通。至今发表论文近100篇,其中IEEE Transactions系列18篇,包括IEEE TPAMI, TNNLS, ToC, TITS, TAC等。学术谷歌引用2800余次,ESI高被引一篇,H指数27.
9646 次阅读|6 个评论
爱犯错的智能体(十八):情感与回忆错觉
heruspex 2018-11-28 07:13
两岁的路比对小区里的雌比熊很是着迷。为了能听到她的声音,他会长时间地后腿直立着、前脚扶着窗檐傻傻地站很久。后来,那主人把雌比熊送走了。他才接受事实,慢慢淡忘了。过了许久,有天遛好回家路上,碰巧碰到雌比熊的主人,路比仰头闻了下,似乎想起了什么,居然跟着那主人到了他家楼下,隔着门在那站了许久。我想,路比大概是回忆起他那触不到的爱情了吧。 因为一时心软,换来了时时的照顾和遛遛的它。既养之,就爱之,我也顺便观察和思考它的发育和情感表现。走路,路比和我们一样,都是潜意识地直觉反应,不会去关注路面的细节。而作为人类驯化了数千年的动物,狗可能也是最能理解和分享人类情感的动物 。但狗的感情流露更加直接、毫不掩饰。两相比较,让我有些明白,人类的基本情感表达、快思维和非人智能体的区别并没有那么明显,很多方面甚至是相似的。那么,情感是什么呢?它有多重要呢? 一、情感 情感是人或智能体与机器最明显的区别之一。古文中将情感做了细分,认为人有七情六欲。七情的定义,儒家、佛教、医家略有不同。《礼记·礼运》中道:“何谓人情?喜、怒、哀、惧、爱、恶、欲,七者弗学而能。”而我们常说的七情指喜、怒、哀、乐、惧、爱、恶。六欲的记载最早见于《吕氏春秋 . 贵生》:“所谓全生者,六欲皆得其宜者。”后人将其对应到人的眼、耳、鼻、舌、身、意的生理需求或愿望,即见欲(视觉)、听欲(听觉)、香欲(嗅觉)、味欲(味觉)、触欲(触觉)、意欲。 不管是哪种情感,人类和非人智能体最基本的情感,都是源于直觉,源自这种快思维方式的表达。渴和饥饿时,新儿生会自然地通过大喊大叫大哭来表达;而动物的愤怒和害怕则是为了防御和保护 。这些是求生的本能,不需要事先学习任何复杂的数学运算和人情世故。甚至于爱,从其本原的意义来看,也是一种本能,是为了能更好的向后代传递基因而形成的、促进智能体相互做优化选择的本能。 随着人的成长,通过父母、家人、学校的教育和社会的融入,情感的表达逐渐从基本的本能和生存需求向更高层次发展,并糅合到生活的各个毛孔。人类学会了记载、传播情感,能把情感写进文字、唱入歌声、播到音乐中。人类也能通过这些来分享、体会他人的情感。人类还学会了控制情感,把情商 ( 控制情感、情绪的能力 ) 锤炼成成功的三要素之一,与智商、时商 ( 管理时间的能力 ) 相提并论。古人在情绪控制上也给出了不少善意的建议,如清代画家郑板桥的“难得糊涂”和北宋文学家范仲淹在《岳阳楼记》中的“不以物喜,不以物悲”。 但情感、情绪如何在大脑中表现的呢?文献上众说纷纭,马文明斯基在其书《情感机》中,认为这种看上去简单的情感表达可能是由复杂的多个小资源来组成的,不同的情绪由不同的小资源 (resources) 组成。他认为简单是表像,复杂是隐事实 。这有些像苹果手机的设计理念,简单的操作留给用户,而背后的复杂则留给工程师们。也许大脑经过漫长的演化后最终也以这一形式来表达了它的功能,包括情感、情绪。 那么,这种复杂是如何在大脑中形成其结构的呢?明斯基给了些线索,即结构是层次的,首先有直觉的情感,然后才有高层、抽象的情感 。如果我们将该线索和之前谈到过的由粗到细的结构、以及快思维和慢思维方式结合起来,再审视下情绪的控制方式, 似乎能找到一些端倪。 虽然人类已经学会用社会规则来约束和控制自己,从而使得真实的情感不容易被表露出来,但有时会失控。比如家长看到小朋友作业做得慢,有些父母就很容易把原本象拳头一样收拢的情绪打开来、暴露出自己的暴躁脾气。从某种意义来看,这就是快思维接管慢思维、本能或直觉压倒自控能力的后果。 不仅从脾气控制上能看到情绪的变化,人类还有可能从肌肉的细微变化分析真实情感的表达。有研究曾发现,某个有自杀倾向的人在视频前一直表现得很开心。然而,心理学家通过回放视频,发现其中有两三帧该患者有极度痛苦的表情。心理学家将这种短暂易逝的表情称为微表情。因为 1 秒可以录制 30 帧,所以 2-3 帧持续时间的状态很难通过主动控制情绪,或慢思维控制来获得,而更可能是潜意识下真实情绪的表现。结果,有效识别微表情也就成为检测人的真实表情或情绪的可行策略之一 。 反过来再看下,现有人工智能框架下的情感分析模型,似乎更关注预测能力,不管是用深度学习还是经典的机器学习方法。即使是分析自然语言中的情感,也很少考虑情感可能具有的结构性。只关注预测的弊端在于,我们实际上并没有真正理解情感。结果,基于这类模型获得的情感很难让人体会到真正的情感。举个例子,日本某机构曾经研制过一个可回答问题的服务机器人,然后将其放在幼儿园中。一开始,小朋友们都非常开心,愿意跟机器人一起玩,询问它各种问题。但过了几天后,服务机器人就被闲置在一边了。因为小朋友们很快就发现了,这只是一台机器,而不是能产生有互动性、可以分享情感的智能体。显然,在情感的生成和构造机理还没完全弄明白之前,我们现有技术能做出的机器人,还远不如宠物狗更能让人产生情感上的依赖和责任。 二、人与机器的回忆 除了以上所述情感,还有一种对人类和非人智能体至关重要的,那就是回忆。因为每天都在接触新事物,人类需要定期清理大脑中的硬盘,留出空间学习新知识。可是并非所有的内容都会被格式化,因为我们需要有东西回忆来维系情感。在多数情况下,人类会构建用于回忆的文档,保留每条信息中有意义的、关键的,去掉可忽略的细节。回忆的内容可以是一张人脸、一段场景,诸如此类。然而,回忆具体存在哪里,就我所知,仍不是很清楚,也许真是在记忆的最深处。 但它能帮我们回想起过去。比如有些人偶尔可能在梦中回想起那触不到的爱。有些人看到一个许久未曾谋面的人或听到某段很久以前曾听过的音乐时,会感觉很熟悉,有种“似曾相识燕归来”的感觉,然后会突然把人的各个细节或音乐回想起来。有的时候甚至会令人难以置信,走在路上,突然就哼起一段已经三十年未曾唱过的歌曲。可是,在大脑容量有限的情况下,人类智能体为什么要存储这种如果不想起、也许一辈子都用不着的东西呢? 再比较看看现有的人工智能技术是如何处理记忆的。机器常把要回忆的知识视为一个时序序列,早期常采用隐马尔可夫模型来模拟对时序信息的记忆。简单来说,就是模型中会有好几个与时间相关的状态,其中当前时刻的状态依赖于前一个或多个时刻的状态。也有采用在线学习的方法来形成记忆。而近年来的深度学习,针对时序数据的处理,主要采用 RNN( 循环神经网络 ) 、 LSTM( 长短时记忆网络 ) 和 Conv-LSTM( 卷积 - 长短时记忆网络 ) 等。这些模型的目的都是为了能尽可能根据新的数据分布的变化,来有效地调整模型,来改进对新数据的预测能力。从统计上来看,即我们不太希望数据与数据内在的分布总是被假定成一致的,总是假定每个数据是独立从相同的内在分布中采样得到的,即独立同分布性假设。而是希望数据的采集更贴近实际情况,即数据分布会随时间而改变。因此,模型在建构过程中不可避免地会引入遗忘机制。 可是,现有机器遗忘内容的方法与人类及其他非人智能体的处理有本质区别。因为机器的“遗忘”是为了适应新数据的分布,而不会考虑保留的信息对回忆、情感的意义。 而人类保留信息的目标并非完全是为了适应新的数据分布,而是用这些片段来帮助自己回顾个人的人生、体会曾经的酸甜苦辣。这些都造成了人与机器的本质性区别,即机器缺乏对真实情感的需求。所以,机器遗忘机制在方法论上隐含的假设应该是: 机器不需要回忆,他只需要按人类既定的指标要求,实现精准预测即可 。 三、回忆错觉 人的记忆还有个很独特但也有趣的现象,即回忆错觉。虽然现在有很多多媒体如照片、视频可以帮助人类形成了连续性的回忆,但人对以往的记忆存在不连续性,且常发生在 2-3 岁以前。这与大脑在发育过程中,由粗到细的认知结构产生了较显著的变化有关,导致原有的记忆无法通过后来形成的认知模型还原或恢复。 这是认知模型变化导致的回忆缺失 。 另外,人在存储回忆信息时具有主观性,有时会不自觉地选择值得记忆的去记忆,而舍弃那些不愿意再想起的,因此,会不可避免地形成选择性回忆或 主观回忆缺失 。比如我因为初高中的成绩惨不忍睹,对那段时间能回忆起来的东西就很少,除了记得父母不太愿参加家长座谈会以外。 尽管有回忆,人的回忆也并非百分百可靠的,可能还会人为的给自己的回忆贴上莫须有的东西。最近网上有个贴子似乎能佐证这一点,就是乔羽填词、韦唯原唱、宋祖英唱红, 1991 年为第四届中国少数民族运动会创作的会歌《爱我中华 》。对多数人来说,歌词应该是这样的: 五十六个民族五十六支花 五十六族兄弟姐妹是一家 五十六种语言汇成一句话 爱我中华爱我中华爱我中华 嘿罗嘿罗嘿罗嘿罗嘿罗嘿罗 可是,歌词第一句实际是这样的:“五十六个星座五十六支花”。但是,几乎很少有人会记得是“星座”而不是“民族”,因为数字“五十六”的原因,人的记忆会非常自然地把它与“民族”挂钩,而非讨论了半天也没明白为什么是作者选择的“星座”。这也是回忆错觉的一种,称为曼德拉效应(英语: Mandela Effect ),是指很多人都发觉对同一事物的记忆与事实有出入的现象。一种可能的解释是人在删除信息后,重建的时候更容易将记忆的与最紧密相关但不一定正确的内容联系,并还原完整的信息。 更有甚者,还有可能把自己的回忆强行建立在不真实的记忆上。正如哲学家尼采所说,“慌言说了一千遍也就成了真理”。莱昂纳多主演的烧脑电脑《禁闭岛》中就塑造了具有这种回忆的角色:精神分裂的莱蒂斯,为了逃避现实中的痛苦经历,在精神中塑造了另一个自己,并孕育了一个完整的故事和“回忆”。 图1: 《禁闭岛》剧照 图2 :左:美国前 总统 罗纳德 · 威 尔逊 · 里根;右:“光纤之父”高 锟 除了这些,还有一种令人揪心的、“回忆低级格式化”导致的回忆障碍,那就是 Alzheimer 症 ( 阿尔茨海默病或老年痴呆症 ) 。 它的特点是,人会一点一点把自己的回忆抹掉,如美国前总统里根后来记不得自己曾当过总统, “光纤之父”的高锟在 2009 年获得诺贝尔物理学奖时已经不记得自己在光纤的成就,还有更多患者会在患病后记不起自己的家人。据估计,全球有超过 3500 万人患有老年痴呆症,每 7 秒就新增一人患上此病,而中国则拥有世界上最多的老年痴呆症患者。有研究表明,这可能是基因长期演化形成的一种“自毁”机制。只是以前在正常的自然环境生存时,人类的寿命还活不到需要启动这种“自毁”机制,因此患病数量远少于现在。还有研究发现,在痴呆症患者的大脑里有“老年斑”现象 ( 即 纤维状类淀粉蛋白质斑块沉积,英文名 Senile Plaque ) ,并以此来推测老年痴呆症发生的风险。遗憾地是,到目前为止,人类也没完全明白它的机理,不少相关的研究仍是空白。 图: 左:正常神经元;右:大脑中的老年斑或纤维状类淀粉蛋白质斑块沉积(网图) 不管是否存在回忆错觉,生理的、心理的,回忆都是人类维系情感的重要组成部分,而情感又是人和非人智能体区别于机器的重要标志。 要设计一个真正逼近智能体的人工智能体,也许不应只依赖于大数据、 GPU 的算力,毕竟我们对智能体的了解还太浅太少。哪怕是一只从没学习过数学、两岁小比熊具备的情感,现有的服务机器人尽管考虑了各种复杂的数学模型,仍然还只能望及项背。这里面显然不纯粹是计算能力的问题,更关键的是对情感甚至智能形成的基本原理缺乏颠覆性的思路。 我不怀疑现有的人工智能模型可以以足够高的精度来预测智能体的情感状态,但我比较怀疑这些模型是否能真正明白什么是情感?什么是回忆?如果在建模时,缺乏从直觉情感到深层次情感的递进建模过程,缺乏形成智能体个体与众不同的多样性,那么还原出来的情感也只能是机器的机械表现。 也许,我们可以考虑重拾“观察”这个古朴的研究方法,去深入了解情感的发育,比如儿童的情感发育。考虑到人类儿童期过于漫长,也可以观察下最能理解人类情感、成熟又比较快的宏物狗的情感、常识发育。 到目前为止,本系列讨论了个体在视听觉、语言、认知、情感等方面存在的多种多样的错觉。但是,要促进智能体的相互发展,必然要组成群体、构成社会。那么,智能体形成的群体有没有错觉呢? 参考文献: 1 、尤瓦尔·赫拉利 . 人类简史 . 中信出版社, 2014. 2 、 Marvin Minsky. The Emotion Machine: Commonsense Thinking, Artificial Intelligence, and the Future of the Human Mind. Simon Schuster, 2006. 3 、徐峰,张军平 . 人脸微表情识别综述 . 自动化学报 , vol. 43, no. 3, pp. 333-348, 2017. 张军平 2018 年 11 月 28 日 延伸阅读 20. 爱犯错的智能体(十七):灵光一闪与认知错觉 19. 爱犯错的智能体 (十六):庄周梦蝶与梦境学习 18. 爱犯错的智能体 --- 语言篇:可塑与多义 17. 爱犯错的智能体 – 体感篇:我思故我在? 16. 爱犯错的智能体 --- 听觉篇(二):视听错觉与无限音阶的拓扑 15. 爱犯错的智能体 -- 听觉篇(一):听觉错觉与语音、歌唱的智能分析 14. 爱犯错的智能体 – 视觉篇(十一):主观时间与运动错觉 13. 爱犯错的智能体 -- 视觉篇(十):自举的视觉与心智 12. 爱犯错的智能体 -- 视觉篇(九): 抽象的颜色 11. 爱犯错的智能体--视觉篇(八):由粗到细、大范围优先的视觉 10. 爱犯错的智能体 -- 视觉篇(七):眼中的黎曼流形 9. 爱犯错的智能体--视觉篇(六):外国的月亮比较圆? 8、 爱犯错的智能体 - 视觉篇(五):火星人脸的阴影 7、 爱犯错的智能体 - 视觉篇(四):看得见的斑点狗 6、 爱犯错的智能体 - 视觉篇 (三):看不见的萨摩耶 5、 爱犯错的智能体 - 视觉篇 (二):颠倒的视界 4、 爱犯错的智能体 - 视觉篇(一): 视觉倒像 3、 AI版“双手互搏”有多牛? 浅谈对抗性神经网络 2、 童话(同化)世界的人工智能 1、 深度学习,你就是那位116岁的长寿老奶奶! 张军平,复旦大学计算机科学技术学院,教授、博士生导师,中国自动化学会混合智能专委会副主任。主要研究方向包括人工智能、机器学习、图像处理、生物认证及智能交通。至今发表论文近100篇,其中IEEE Transactions系列18篇,包括IEEE TPAMI, TNNLS, ToC, TITS, TAC等。学术谷歌引用2800余次,ESI高被引一篇,H指数27.
7303 次阅读|0 个评论
爱犯错的智能体(十七):灵光一闪与认知错觉
热度 3 heruspex 2018-11-20 07:35
公元前 245 年,古希腊叙拉古城的赫农王命令工匠制作一顶纯金的王冠。工匠完工后,国王感觉不放心,对着重量没变的王冠左看看,右看看,总怀疑工匠把里面的金子换成其他材料了。可是,没证据又不好明说。跟大臣们说起此事,他们也只能面面相觑。于是,国王按一大臣的建议,请来了当时最有名的数学家阿基米德帮助鉴定。阿基米德看了半天,也没弄明白要怎么测。又冥思苦想了多日,还是没看出一丝端倪,便想泡个澡舒缓下心情。跨进装满水的浴盆后,他发现水的涨落似乎和他的站起坐下有关,而且坐下时还能感受到水向上对身体的托力,身体也随之变轻了。他恍然大悟,原来可以用测量固体在水中排水量的办法,来检测物体的体积。那也就能根据王冠的密度与体积之间的关系,来推测王冠是否造假了。 一瞬间他豁然开朗,跳出了澡盆,连衣服都忘记 穿 了,一路大声喊着 ” 尤里卡!尤里卡” (Eureka ,希腊语: εύρηκα ,意思是我知道了 ) 。阿基米德由此破解了王冠称重的难题,发现了工匠欺骗了国王。更重要的是,他因此发现了浮力定律,即物体在液体中得到的浮力,等于物体排出液体的重量。 图:阿基米德与浮力定律 科学发现靠什么呢?有不少重大的发现靠的是灵光一闪,如阿基米德洗澡时想到的浮力定律或阿基米德定律,俄国化学家门捷列夫玩扑克牌时发现的元素周期表。这种感觉可以用宋朝夏元鼎《绝句》中的“踏破铁鞋无觅处,得来全不费工夫”来形容。我国管灵光一闪叫“顿悟”,西方则把它称之为 Eureka effect( 尤里卡效应,或称为 Aha Moment 和 Eureka Moment) 。 与人皆有之的、来自潜意识自然反映的直觉不同,顿悟虽然也是潜意识的反映,但相对神秘。目前在学术界,关于顿悟的发生仍然争论不休。一是其在脑区发生的精确位置未知,一是在何种环境下能发生也未知。所以,阿基米德只好泡澡来启发思考,而量子电动力学的创始人之一费恩曼则爱在泡酒吧的同时顺便做研究。 从文献的总结来看,顿悟这种思维方式包括两个部分:首先是在某一问题上已经经过进行了长时间的思考,但陷入了困境。尽管尝试了能想到的各种可能性,仍不得其门而入。突然某一天在某地,令人意想不到的就有了灵感,并快速找到了问题的答案。而且,该灵感不必要依赖于原来已经僵化的解题逻辑或结构,甚至需要“跳出三界外”,才有可能获得。 一般认为,它有四个特点: 1 )它是突然出现的; 2 )对该问题的求解是流畅、平滑的; 3 )通常有正面效应; 4 )经历顿悟的人相信它的解是真实和正确的。这四个特点往往需要组合在一起才能见效,如果分开了就很难获得灵感或顿悟 。 尽管关于灵感仍无合理的解释,但可以推测它的形成机制不是突然凭空在大脑中加速形成的,应该与人类已经学习好的某些结构具有关联性。那么,它和我们哪种思维方式比较相似呢?如果能找到其中的关联,也许我们就能设计具有类似创造能力的人工智能体。 我们不妨了解下人类认知中普遍采用的两种思维方式:快思维和慢思维,以及快思维中存在的直觉统计错觉 。 一、认知错觉 人类经历了长时间的演化,发明了语言、制造了工具、 建立了几尽完备的数学理论体系,并通过其他智能体不可能具备的、长时间的学习来帮助提高知识水平。然而, 很多高阶能力并不见得会在日常生活中起主导作用。比如,我们虽然会在大学学习微积分,但绝大多数情况下,我们只需要知道用电子表格填下数字就行了。甚至在需要缜密计算时,有时候人类还是会凭自己的经验或直觉来优先进行判断。 举个极端情况的例子, 为什么在股市中专家的建议经常不怎么管用呢?实际上,多数专家在做分析时,都是按《经济学原理》来指导和建议的,目的是对投资组合进行利益最大化。总不能说经过了千锤百炼的经济学原理有严重不足吧,可为什么股民很多还是很容易被割韭菜呢?因为实际上偏好理性决策或慢思维的人并不多,尤其在股市瞬息万变的时候,能做深层次思考、计算的机会也少,股民往往会凭自己的直觉或快思维来做快速决策。可是,这些决策很多时候是远离了专家建议的最优决策。 美国普林斯顿大学的心理学教授卡纳曼和其前同事特沃斯基对人的两种思维方式进行了深入研究。他们从 直觉统计学 (Intuitive Statistics) 的角度出发,发现了一系列有趣的现象,于 1974 年在 Science 发表了一篇社会科学领域引用最高的关于不确定性判断的论文 ,后进一步形成了 展望理论 (Prospect Theory ,也有称前景理论 ) ,并因为这些成果卡纳曼于 2002 年获得诺贝尔经济学奖 ( 注:特沃斯基过早去世,因而没能获奖 ) 。尽管获得的是经济学奖,但其理论体系详细地是阐述了智能体在认知上存在的认识误区。 他们发现人在做很多复杂任务判断时,并不会用缜密的思维去计算每个事件的概率,反而会借助于少量的启发式技巧来做更为简单、快速的判断。这些判断策略在绝大多数情况下是有效的,不然人很快就会在自然进化中被淘汰。但是,这种判断策略有时会导致严重和系统性的错误,而人类却不见得会意识到,即使是受过训练的专家也是如此。 比如我们在判定物理量如距离和大小的,常通过启发式的规则来做主观的概率评估。看得越清楚的物品通常会被认为距离更近,反之更远。虽然这种规则在一定情况下是有效的,但也可能会带来系统性误差。如在“立霾”后,就很容易把距离估得远一些,以致于有可能需要依赖听觉来辅助识路。而类似的系统性偏差在概率意义的直观、启发式判断中广泛存在着。 根据卡纳曼和特沃斯基的理论,人类在快思维中,会有三种评估概率的启发式策略: 1 ) 代表性 (representativeness) ,常用于“当人被询问要判断一个目标或事件 A 属于类别或过程 B 的概率”的情形。 2 )实例或场景的 可用性 (Availability) ,常用于“当人被询问要评估一个类的频率或者一个特定发展的可能性”时。 3) 从锚点的调整 (Adjustment from an anchor) ,常用于“当一个相关值可用时的数值预测”。这三种启发式策略高度的经济,一般也有效,但它们容易产生 系统偏差 和 预测偏差 。具体来说: 1 )代表性 (representativeness) : 当测试者被给予不同的概率比例暗示时,比如做问卷调查时,告诉测试者,某人是图书馆员的概率是 60% ,农夫为 40% 。在无其它信息时,测试者会使用这些概率来判定一个人的职业;但在缺乏概率信息时,如果引入某段毫无价值但却有代表性的描述时,比如告知平时常见的图书馆员的衣着打扮,测试者就很容易被这个暗示影响,导致不正确的结论。这是由于人对于 结果的先验概率的不敏感性 形成的。 另外,由于人们对事件发生的可能性进行评估时往往依赖于直觉,因此很少考虑事件的样本数量影响。如小样本情况下产生的波动性要明显大于大样本。但人直觉上却很容易认为两者的波动性是一致的。这是人对于 样本规模存在不敏感性 引起的。 对于机会,人类也存在误解,常以为远离随机性的事件不是太可信。事实上局部有规律的行为并不会否定全局随机性,但它却会误导人们形成不合逻辑的推理。这种误解被称为 赌徒谬误 (gambler’s fallacy) ,它让人们以为一系列事件的结果会隐含某种自相关的关系。比如 A 事件的结果影响了 B 事件,就推测 B 是依赖于 A 的。比如最近天气转晴,连续几天大太阳就会让人高概率担心周末会下大雨。而赌徒则认为如果一直手气不好时,则会以为再过几把就能翻盘回本甚至赚钱。 不仅如此,在做预测时,人类更多会偏好用自己选择的材料做判断,而非真正需要预测的结果,即 对可预测性不敏感 。比如在招聘时面试官容易受面试表现影响,即使面试者的材料准备得更充实可信,但面试官还是会过分相信自己的判断, 形成验证性错觉 (Illusory of Validity) 。而这种错觉最终会被 均值回归 (Regression toward the mean) 检验并现形。其原因在于,人的表现容易受运气成份影响,导致某个时刻的发挥异常精彩或失常。但时间一长,就会回到正常的表现上去。这也能解释为什么现在上海和一些地方的中考要考察初二开始的月考和期中期末成绩,本质上是为了避免“一锤子买卖”引起的验证性错觉。 2 )可用性 (Availability) : 我们评估事件的概率或某类别发生的频率时,会根据曾经经历过或知道的事情和例子来联想。比如我们会根据在新闻中报道的飞机失事,来判断飞机失事率的高低,而较少考虑飞机与其他交通工具的实际失事比例。又比如,我们会根据周边的同龄人或熟人有心脏病出意外的情况,来评估自己可能得心脏病的风险。这种判断的启发式称为 可用性 。然而,可用性往往受频率或概率以外的因素影响,如搜索集的有效性、可想象性 (imaginability) 、错觉相关性 (illusory correlation) 和示例的可遍历性 (retrievability) ,导致产生 预测偏差 。 关于 搜索集有效性 ,卡纳曼和特沃斯基曾做过一个实验。他们询问测试者英文字母 r 或 k 在第 1 个字母还是第 3 个字母出现的次数更多。多数人回答是前者,因为直觉上更容易想到第 1 个字母为 r 或 k 开始的单词,而要想到第 3 个出现的单词时,则需要费点脑筋。而实际上作为辅音, r 或 k 会更多出现在第 3 个字母上 。 在 可想象性 方面 , 如果评估示例不在记忆中的类别的概率,此时人则需要按某个规则来估计。这种情况下,人会生成多个示例,然后评估其可能性。比如,我们在做商业计划时,会想象可能碰到的各种风险以评估其失败的概率。由于想象的信息并非真实情况,所以会引起偏差。 人也在产生 错觉相关性, 如对两件共同发生的事情。卡纳曼和特沃斯基曾让几个假装的精神病人画画,然后让测试者根据诊断结果判断他们是否有偏执狂或疑心病,以及判断画的画有没有独特的视角。从测试者判断结果来看,测试者大概率会形成有相关性的判断,如认为疑心病与独特视角之间存在相关性。这称为 错觉相关性 。其原因是因为之前形成的成对相关性的印象,会导致了随后产生预测偏差。 3 )调整和锚定效应 (Anchoring Effect) : 当我们在做决策时,会将某些特定的数值或状态作为起始点,而后的调整会因为此起始点而受限,从而影响到最终的决策方案。其原因在于我们给了最初的信息或起始点,比如给予那些明显的、难忘的证据过多的权重和重视,就容易产生歪曲的认识。比如我们常说的第一印象就是一种锚定效应。《唐逸史》中所说的唐明皇时期,钟馗为终南山人(镇宅赐福圣君)因为相貌丑陋应举不中,羞愧之下触殿阶而死。这是为第一印象所累。正面的锚定效应也有,比如光环效应,一个帅哥和自信的讲者,总能让人听报告时觉得物超所值,当然也更容易被报告忽悠。这还是为第一印象形成的锚定效应所累。 为了证实锚定效应, 1974 年卡纳曼和特沃斯基曾做了一个有名的实验。他们要求测试者估计非洲国家在联合国的席位百分比。首先,测试者需要旋转一个有 0-100 数字的罗盘,根据停下来的数字做初始决定。测试者将被告知所选择的数字比实际值大或小,然后测试者可以向上或向下调整估计值。结果,他们发现这些随机选择的数字对最终结果有明显影响。初始值为 10 和 65 的两个小组,最终调整的平均值为 25 和 45 。由此可见,初始状态设定后,确实会引起锚定效应,限制人解决问题的范围。 因此,深入理解这些启发式规则,有助于改进在不确定情形时人的决策和判断能力。也需要注意,这些不足并不是否定我们人类的直觉能力。正如大部分时间我们都是健康的,但偶尔也会生病。 直觉也是如此,并非一直都是对的。即使统计学家也不见得会是一个好的直觉统计学家。近年的研究表明,除了这些启发式规则外,技能也有助于形成直觉判断和选择,如专家更依赖于其长期的训练获得的经验,而会相对少的依赖启发式规则。有的时候,技能和启发式规则会交替产生影响,促进人们形成快思维方式 。 尽管在很多情况下,直觉都是由个人的偏好如喜欢不喜欢、而不是精细的思考或推理来驱动。但当直觉思维得不到解决方案时,人类会自然转向一种更缜密、需要点努力的慢思维方式,或称之为理性思维阶段。此时,通过漫长学习期获得的知识才会更多地派上用场。 总之,在实际生活中,人类更习惯于快思维,只在困难问题才考虑慢思维,两者经常在无缝地交替使用着,但很少会思考其中的差异和潜在的风险。 二、认知错觉与顿悟 既然人类智能体普遍具有快和慢两种思维方式,人类还有独特的顿悟能力。而且顿悟的最终迸发似乎又是一种接近快思维的方式。那么,我们现有的人工智能模型有没可能复制这些机制呢? 如果只考虑预测性能,人工智能模型的“慢”的思维方式在某些领域确实已经占了上风。 2017 年以来各大人工智能顶会上的论文投稿数量巨增,人脸识别、图像检索领域的识别率已优于人类的能力,这些都可以佐证人工智能在利用复杂模型进行预测的方面有了明显的突破。但是,“快”的思维方式这块则还有明显的差距。 其原因一是缺乏人类学习的可塑性。结果,人工智能模型只能沿着固化的模型结构来完成指定任务。二是缺乏对“不同结构、不同模态的网络之间的联系”的学习。三是未考虑认知错觉或直觉统计学的可借鉴性。 如果以现有的深度学习模型作比拟,也许可以将认知错觉当成一种浅层思维方式。即在深度模型被充分训练和拟合后,在做快速判断时,并不一定需要经过深层次的结构来实现判断。而是像现在深度模型一样,在训练好的浅层区有一个直接联到输出端的跳连接 (skip connect) 。换个角度来说,如果假定人类构建的模型具有由粗到细的结构,当大脑中枢认为在比如 80% 的识别率也能保证其正常生存时,就会直接从相对粗糙的浅层位置跳连接到最终的结论输出端,以促进快思维的形成。 另外,要实现顿悟式的学习,也许可以考虑利用不同结构间的相似性。比如 AlphaGo 下围棋时,就不是完全依赖常规的规则判断,而是创新性地借助了图像处理和计算机视觉的办法来帮助分析围棋棋局的胜负。这从某种意义来看,这是一种 跨模态的结构学习 。那么,一个自然的问题是,这种结构迥然不同、却面向相同任务的模型之间有没有可能通过自动学习来获得呢?如果可能,也许人工智能体实现顿悟就有希望了。 当然,我们也不能忽视梦可能对顿悟形成的作用。数学家 Henri Poincare 庞加莱曾说过“作为一种无意识的思考方式,它却能帮助形成突破困境的结果。” 除了顿悟和认知错觉,智能体还有什么感觉也可能以浅层思维或快思维模式为主呢? 参考文献: 1. https://en.wikipedia.org/wiki/Eureka_effect 2. Kahneman, Daniel. Thinking, Fast and Slow. Farrar, Straus and Giroux, 2011 3 . Amos Tversky, Daniel Kahneman. Judgment under Uncertainty: Heuristics and Biases. Science, 185(4157):1124-1131, 1974. 4 . Daniel Kahneman; Amos Tversky. Prospect Theory: An Analysis of Decision under Risk Econometrica, Vol. 47, No. 2. (Mar., 1979), pp. 263-292 张军平 2018 年 11 月 20 日 延伸阅读: 19. 爱犯错的智能体 (十六):庄周梦蝶与梦境学习 18. 爱犯错的智能体 --- 语言篇:可塑与多义 17. 爱犯错的智能体 – 体感篇:我思故我在? 16. 爱犯错的智能体 --- 听觉篇(二):视听错觉与无限音阶的拓扑 15. 爱犯错的智能体 -- 听觉篇(一):听觉错觉与语音、歌唱的智能分析 14. 爱犯错的智能体 – 视觉篇(十一):主观时间与运动错觉 13. 爱犯错的智能体 -- 视觉篇(十):自举的视觉与心智 12. 爱犯错的智能体 -- 视觉篇(九): 抽象的颜色 11. 爱犯错的智能体--视觉篇(八):由粗到细、大范围优先的视觉 10. 爱犯错的智能体 -- 视觉篇(七):眼中的黎曼流形 9. 爱犯错的智能体--视觉篇(六):外国的月亮比较圆? 8、 爱犯错的智能体 - 视觉篇(五):火星人脸的阴影 7、 爱犯错的智能体 - 视觉篇(四):看得见的斑点狗 6、 爱犯错的智能体 - 视觉篇 (三):看不见的萨摩耶 5、 爱犯错的智能体 - 视觉篇 (二):颠倒的视界 4、 爱犯错的智能体 - 视觉篇(一): 视觉倒像 3、 AI版“双手互搏”有多牛? 浅谈对抗性神经网络 2、 童话(同化)世界的人工智能 1、 深度学习,你就是那位116岁的长寿老奶奶! � 张军平,复旦大学计算机科学技术学院,教授、博士生导师,中国自动化学会混合智能专委会副主任。主要研究方向包括人工智能、机器学习、图像处理、生物认证及智能交通。至今发表论文近100篇,其中IEEE Transactions系列18篇,包括IEEE TPAMI, TNNLS, ToC, TITS, TAC等。学术谷歌引用2800余次,ESI高被引一篇,H指数27.
9342 次阅读|7 个评论
爱犯错的智能体 (十六):庄周梦蝶与梦境学习
热度 2 heruspex 2018-11-13 07:40
凌晨一点多,又度过了节奏明快、高强度工作的一天。熄灭灯,安静地躺到床上,闭上眼睛,调整下呼吸。没几分钟,一阵熟悉的感觉袭来,身体开始向大脑发出睡眠的信息。那感觉,就象是舞台上的灯光在谢幕后一排一排地关闭,躯体表层的感官细胞似乎也如潮水退去般逐层在“停止”它们的功能。很快,与床垫的接触感消失了,身体的沉重感无踪了,随之而来地是下坠感,身体一直往下坠。好在不会像第一次出现时那么惊慌失措,我甚至有些享受这种急速下坠体验,因为我已经能控制身体的姿态。我也知道再坚持一会,就能旋转着穿越一条长长的、漆黑的隧道,跃入繁星点点的天空,自由、缓慢地飞行了。 这是我偶尔能在快要入睡时,零距离观察自己做梦的体验。对于梦呢,历史上有各种各样的诠释。早期文明认为梦是人类能进入另一个真实的、物理世界的唯一通道。现代理论则一直在争论做梦的意义,有认为其只是生理机制,也有认为它是心理必需,或是两者的组合。著名的奥地利心理学家西格蒙德·弗洛伊德对自己的梦进行过近两年的自我分析,从压抑和性的角度出发,于 1900 年出版了经典名著《梦的解析》。曾与他合作、后又分道扬镳的瑞士心理学家卡尔·古斯塔夫·荣格在其自传《荣格自传:回忆、梦与省思》中也对梦给予了不同视角的分析 。咱古代也有一本居家旅行必备、民间流传甚广、靠梦来卜吉凶的《周公解梦》。而汉语成语对梦有更简洁的解释:“日有所思,夜有所梦”。 梦在《周礼·春官》中还被分成了六种类型:正梦、噩梦、思梦、寝梦、喜梦和惧梦。多数书中对梦的分析集中在精神层面、因果分析或心理治疗上。但是, 睡眠、梦对智能体的学习有何作用或启示呢? 一、睡眠周期 睡眠对智能体来说,是必不可少的休息方式。在睡眠期间,智能体会降低对外界刺激的反应和与周边环境的交互,相对抑制感知系统的活动以及所有随意肌 (voluntary muscle) 的活动,利用这段时间对全身各种系统进行保养调整。由于不用进行剧烈运动,能耗的需求也降低了。但能耗并非没有,如八小时睡眠后人的体重可能轻个 7 至 8 两甚至更多,所以,充分睡眠是有助于减肥的。 智能体在睡眠时的活动,没有日常生活时激烈,但也不象昏迷或其他有意识障碍方面的疾病那么缺乏活力。根据眼动的频率,睡眠可以区分成非快速眼动相睡眠 (Non-Rapid Eye Movement ,简称 NREM) 和快速眼动相睡眠 (Rapid Eye Movement ,简称 REM) 两个明显不同的模式。据说 NERM 睡眠能改进记忆能力,而 REM 可以增强创新性的问题求解能力。正常情况下,成年人会先进入 NREM ,才转到 REM ,平均时间约 90 分钟。再重复这一睡眠周期,一次良好的睡眠约有 4-6 个周期。对于 NREM ,美国睡眠医药协会还将其细分成 3 个小的阶段,因此一个睡眠周期包括五个阶段, N1-N2-N3-N2-REM ,其中 N3 被称为 delta 睡眠或慢波 (slow-wave) 睡眠,而在自然醒阶段 REM 的比例会增加。前四个阶段的次序有时会出现变化,如图 1 。但如果先出现 REM ,再有 NREM ,那可能就是身体过于疲劳了。 图 1 五阶段的睡眠周期示例 值得一提的是,虽然大部分的梦发生在 REM 阶段 ,近年来的研究表明,梦也会在其他阶段发生,只是频率要少得多。梦境多是以第一人称的形式出现,并会伴有各种“感觉”,如视觉和移动。目前最主要的做梦理论之一是 John Allan Hobson 和 Robert McCarley 在 1973 年提出的激活 - 合成假想 (activation-synthesis hypothesis) 理论 。该理论认为梦是在 REM 阶段,由大脑皮层中神经元的随机触发引起,然后前脑再创建一个故事来将这些无意义、荒谬的传感信息融合并使之有意义。这一理论解释了许多梦的古怪本质,但也只能解释梦的部分现象。据不完全统计,人的一生平均有六年的时间会用来做梦。那是否可以利用下做梦来帮助智能体改善学习效率呢?还是像民国女作家萧红建议的,“生前何必久睡,死后自会长眠”,把睡眠时间缩短些呢? 二、梦境学习 假设梦除了休息、帮助我们调适情绪、抒发内在的心情和担忧的功能外,还是一种学习方式,那么它和我们人工智能中常见的学习模式有何区别呢? 粗略来说,涉及到学习的人工智能方法主要有两种,一种称为监督学习 (supervised learning) ,也有称为有教师学习的,一种称为无监督学习 (unsupervised learning) 或无教师学习,俗称自学成材。监督学习的特点是学习的时候,每给一个样本,就会赠送个标签。比如人脸识别中,张三就是张三图像的标签。如果给 10 个人的 10 张人脸加上各自的标签,就有 100 张有标签的人脸图像。这些图像可以构成一组训练集,帮助训练一个人脸识别的模型,使之能对未知的人脸图像有好的识别性能。训练集的多少往往决定了识别性能的优劣。比如目前已经在国内的很多高铁站、机场布置的人脸识别或认证系统,其性能稳定和优异的原因之一是训练集里的样本规模非常大。而另一种学习方式,非监督学习,则无需标签输入。它主要是根据样本集合中的某种结构或相似关系来将样本聚成多个类别。比如图 2 所示、格式塔心理学中提到的、根据点的疏密程度来自动聚类,就是人或智能体的一种无监督学习模式。 图 2 :无监督学习。左:自动根据黑白程度聚类;右:根据疏密性聚类 除此以外,介于监督和无监督之间的为弱监督学习。举例来说,我们手机拍照后会留下大量的照片,这些照片很少会贴上标签或说明。类似地,在互联网上,也存在大量的未标注样本。在不依赖人力对样本进行过多标注,结合这些未标注样本的信息和少量有标签样本一起来训练预测模型的方式,就是弱监督的一种,即半监督学习。还有基于这三种模式衍生出来的其他学习方法,但大同小异。 与人工智能常见的这些学习方法相比,梦有以下四个不同的特点。 第一,学习是需要样本或特征输入的。按激活 - 合成假想理论,梦境中输入的特征随意性较大。而且,从大多数报道的情况来看,梦境中的视觉图案模糊,不如真实视觉系统获得的细腻。 Horikawa 等曾试图在测试者睡眠刚开始时,通过叫醒并纪录对梦境的文字回忆来重建视觉信息 。但这仍是一种间接方式,真正的图像还很难直接从人脑中提取出来。另外,梦在多数情况下是灰度的,没有颜色。当然有些艺术天赋好的,偶尔也会梦到彩色,甚至很精细的彩色图像。值得指出的是除了视觉外,其它“感官”系统也会参与梦的构成。 第二,梦是很少重复且容易被忘记。据说醒来 5 分钟后,我们会忘掉 50% 梦的内容。 10 分钟后, 90% 的内容会忘掉。可能的原因是 1) 梦中的影像并不强烈、模糊,缺乏细节描述, 2) 与常规的学习模式不同,梦也没有传统学习中常见的关联和重复性。所以,不像白天的行动那么不容易忘记,使得梦很少被认为是一种潜在有效的学习方法。 第三,梦有助于创新性成果的产出。 一个广为流传的传说是,德国化学家凯库勒 (Kekule) 曾在梦中看到旋转的碳原子,其长链像蛇一样,头尾相连成圆圈。因此他悟出了苯环的环状结构,形成了世界有机化学界最轰动的成果之一。据说,很多音乐家如贝多芬也能在梦中寻找到灵感。不过因为梦里的故事都只能由当事人来表述,所以很难获得客观性的实证。 第四,梦不是特定任务的学习,每个梦的故事线都不同,且具有时间的连续性。需要注意的是,这一故事线不管是贴近现实还是异常奇幻,都与做梦的主体曾经有过的经历相关。比如没坐过火箭,人就不可能有与火箭驾乘感一致的真实体验。 显然,直接利用平时的梦来促进学习的难度是很大,但并非说完全用不了。举例来说, (Hobson,2009) 的研究认为 REM 睡眠与体能相关技能的学习相关,而与死记硬背之类的记忆关系较小 。对这种相关性,他们从“婴儿和幼儿较成人有更多的 REM 睡眠”获得了事实上的支持。 不仅如此,国外还有研究团体专门研究如何让梦参与学习。粗略来说,可以分成三类。一种是提高梦的召回率,即把梦境里的内容尽可能记下来,属于被动式学习。其方式也相对简单粗暴。比如在睡前,暗示自己要记住自己的梦;或者把笔和纸或手机放床边,方便随便醒来记下;或者试着慢慢地醒来以维持在最后一个梦的情绪里;或者多喝点水以确保半夜能从梦中醒来。 第二种为主动式梦境学习。与平时的做梦方式不同,这是一种特定的做梦形式,叫 清晰梦境 (Lucid dreaming) 。直观来说,做梦的人能意识到他在做梦,他能控制梦中人的姿态、梦境的叙事方式和环境。比如多数与飞行相关的梦都是清晰梦境的结果。研究表明,这种梦境有可能能帮助智能体学习。据估计,在美国只有不到 10 万的人能有清晰梦境的能力。 清晰梦境的研究最早可以追溯到 1959 年, Johann Wolfgana Goethe 大学希望发展一套有效的技术来诱导梦境。到 1989 年,德国梦研究家 Paul Tholey 提出了反射技术 (Reflection) ,并成功诱导。该技术的不足是,整天都得询问自己是醒着还是睡着了。 随后,斯坦福大学清晰研究院 (Lucidity Institute) 的 Stephen LaBerge ,和 Lynne Levitan 等学者也就此进行了广泛的研究。他们提出的“现实测试” (Reality Testing) 和“ 清晰梦境的记忆诱导 ” (Mnemonic Induction of Lucid Dreams ,简称 MILD) 目前是清晰梦境研究领域最成功的技术之一。不像反射技术, MILD 只需在晚上进行提醒。它要求实验者睡觉前需暗示自己记住梦,然后集中注意力识别什么时候在做梦以及记住它确实是梦。然后再沉思重新进入最近的一个梦,并思考它确实是梦的一些线索。同时,还可以想象在梦里将会做什么。最后,不断重复“识别什么时候在做梦”和“重新进入一个梦”的步骤,直到睡着为止。 另一种 主动式梦境学习 是梦境孵化 (Dream Incubation) ,即学会在 某个要发生的 特定梦境主题里种下一颗种子。比如反复暗示自己要做一个关于化学实验的梦。那些相信能 通过梦 境来求解问题的人,可以利用这一技术来诱 导梦 境 到特定的主题。与清晰梦 境 的 主要区别在于,梦境孵化将注意力集中到了 更特定的问题上。 基于以上的讨论,不难推测, 除了 常在心理学和生理学中讨论的功能如发展个性、增强自信、克服恶梦、 改善大脑健康 外,梦境学习可能有助于形成创新性的问题求解。如果条件成熟,清晰 梦 境甚至可能变成一种 “世界的模拟器” 或“大脑中的平行世界”。它 允许人类在更安全的环境下学习各种技能,学习生活在可以想象的任意 世界,经历和选择各种可能的未来。不仅如此, Stephen LaBerge 还尝试过用眼动来辅助,让做梦的人与观察员实现梦中 交流,尽管这种交流还十分有限。 另外, 梦 境中的学习效率可能比我们以为的要高,其原因是 睡眠状态中的时间 是主观而非客观的。比如唐代《枕中记》,卢生的 “黄粱一梦” 竟然在一顿饭的睡眠时间里,享尽了一生的荣华富贵。虽然是小说里的夸张手法,但或多或少也表明了,人们主观感觉到的梦境时间要比客观时间长。 因此,利用可以做梦的六年时间进行高效学习也不是不可能。 睡眠中学习,说不定在未来星际旅行中也能起重要作用。毕竟就我所知,现在还没有哪部科幻片和科幻小说讨论过如何充分利用睡眠和做梦机制来帮助学习的。 三、庄周梦蝶与缸中之脑 我相信每个人都会做梦,不管是否能够记住,都会有错把梦当成现实的时候或者“醒来后”发现实际还在梦里的经历。 关于梦的这种错觉,古今中外都曾有过一些很有意思的哲学层面的思考。举例来说,战国时期的道家代表人物庄周在其作品《庄子·齐物论》中曾有一段描述: 昔者庄周梦为胡蝶,栩栩然蝴蝶也,自喻适志与,不知周也。俄然觉,则蘧蘧然周也。不知周之梦为胡蝶与,胡蝶之梦为周与?周与胡蝶,则必有分矣。此之谓物化。 这段故事谈到了庄周梦见自己变成了蝴蝶,以至于在梦中不记得自己是庄周,直到醒来后才方知自己是庄周。于是,他产生了一个困惑,究竟自己是庄周梦见的蝴蝶,亦或是蝴蝶梦见的庄周呢? 图 3 庄周梦蝶 ( 左 ) 与缸中之脑 ( 右 ) 在古代,这种疑问在世界上有多个版本,如印度教的玛雅错觉 (Hindu Maya illusion) ,帕拉图的山洞寓言 (Plato's Allegory of the Cave) 以及 1641 年笛卡尔在《第一哲学沉思录》中冥想的邪恶恶魔 (Evil Demon) 。 在当代,美国著名哲学家希拉里•普特南在其 1981 年著作《理性,真理和历史》中提出了缸中之脑 (Brain in a vat) 的问题 : 假定某人 ( 比如你自己 ) 被邪恶科学家实施了手术,大脑被剥离出来并与身体分离,放在如图的培养液中,然而利用先进技术将大脑的神经末梢连接至计算机上。计算机会根据预设的程序来向大脑发送它需要的各种信息,使大脑产生一切都正常的幻觉。这种情况,对你来说,一切都和平时无异。你喜欢的人、事、物,你爱的运动、身体感觉都通过计算机来百分百逼真的还原,偶尔还会给点大脑之前保存的记忆,让你有怀旧的感觉。也可以通过计算机模拟复杂场景,让你产生参加鸡尾酒会、和朋友交谈、开怀畅饮的幻觉。 在这个情形下,你如何确保你自己不是在这种困境之中呢? 事实上,有不少影视作品与这一哲学问题相关。如 1999 年开始上映的《黑客帝国》及其系列,剧情里“正常的现实世界”实际上是由“矩阵”的计算机人工智能系统控制着。再如 2010 年克里斯托弗·诺兰的电影《盗梦空间》,即使到了剧终,那旋转的陀螺还是让人猜不透是在现实还是梦里。 2018 年 1 月上映的电影《移动迷宫 3: 死亡解药》中,米诺被 WCKD 组织控制着,连着外部计算机的大脑就像缸中之脑,使得他长时间活在恐怖幻觉之中,饱受精神折磨。在 2018 年 3 月上映的电影《升级》 (Upgrade) 里,人工智能芯片被移植到男主角身上后,成功地将男主角的大脑困在“缸中之脑”中,给其营造了一个虚幻的世界,而真正的躯体则被人工智能芯片接管了。 图 4 《黑客帝国》的矩阵 ( 左 ) 与《盗梦空间》的剧照 ( 右 ) 在这些假设中,之前提及的笛卡尔的名言“我思故我在” 似乎已不是那么明显的成立。因为缸中之脑也能“思考”,但它的“自我”认知却可能是被人为加到大脑上诱发的错觉。结果,这一哲学问题长期困扰了很多对人工智能及相关领域感兴趣的研究人员。甚至刚逝去不久的物理学家霍金也曾于 2016 年 4 月在媒体上表示过“在区分梦和现实上,人类还无能为力,只有等我们能真正了解意识和宇宙后,才有可能” ( 原文: but we humans just don't and perhaps can't know if we are living in our dreams or reality, at least not until we start to understand more about consciousness and the universe ) 。 如果目前的能力还无法做到有效区分,那么抛开哲学问题不提,我们应该可能通过梦境实现与现实相等价的学习。我们也可以利用这种不可区分性,在未来战争中形成新型攻击模式,即对敌人实施“缸中之脑”式的攻击,从而让其为攻击方服务而不自知。 不管何种攻击,这都源自大脑在神经和认知方面的错觉。那实际生活中,认知存在错觉吗? 张军平 2018 年 11 月 12 日 参考文献: 1. 希拉里·普特南著,童世骏,李光程译 . 理性、真理与历史 (Reason 、 Truth 、 and History). 上海译文出版社, 2005 2. https://en.wikipedia.org/wiki/Sleep 3. Lee Ann Obringer How Dreams Work 27 January 2005. HowStuffWorks.com. https://science.howstuffworks.com/life/inside-the-mind/human-brain/dream.htm 4. Hobson JA. REM Sleep and dreaming: Toward a theory of protoconsciousness. Nature Reviews Neuroscience, 2009 5. T. Horikawa, M. Tamaki, Y. Miyawaki, Y. Kamitani. Neural Decoding of Visual Imagery During Sleep. Science, 340(6132): 639-643, 03 May 2013, DOI: 10.1126/science.1234330 延伸阅读: 18. 爱犯错的智能体 --- 语言篇:可塑与多义 17. 爱犯错的智能体 – 体感篇:我思故我在? 16. 爱犯错的智能体 --- 听觉篇(二):视听错觉与无限音阶的拓扑 15. 爱犯错的智能体 -- 听觉篇(一):听觉错觉与语音、歌唱的智能分析 14. 爱犯错的智能体 – 视觉篇(十一):主观时间与运动错觉 13. 爱犯错的智能体 -- 视觉篇(十):自举的视觉与心智 12. 爱犯错的智能体 -- 视觉篇(九): 抽象的颜色 11. 爱犯错的智能体--视觉篇(八):由粗到细、大范围优先的视觉 10. 爱犯错的智能体 -- 视觉篇(七):眼中的黎曼流形 9. 爱犯错的智能体--视觉篇(六):外国的月亮比较圆? 8、 爱犯错的智能体 - 视觉篇(五):火星人脸的阴影 7、 爱犯错的智能体 - 视觉篇(四):看得见的斑点狗 6、 爱犯错的智能体 - 视觉篇 (三):看不见的萨摩耶 5、 爱犯错的智能体 - 视觉篇 (二):颠倒的视界 4、 爱犯错的智能体 - 视觉篇(一): 视觉倒像 3、 AI版“双手互搏”有多牛? 浅谈对抗性神经网络 2、 童话(同化)世界的人工智能 1、 深度学习,你就是那位116岁的长寿老奶奶! 张军平,复旦大学计算机科学技术学院,教授、博士生导师,中国自动化学会混合智能专委会副主任。主要研究方向包括人工智能、机器学习、图像处理、生物认证及智能交通。至今发表论文近100篇,其中IEEE Transactions系列18篇,包括IEEE TPAMI, TNNLS, ToC, TITS, TAC等。学术谷歌引用2800余次,ESI高被引一篇,H指数27.
10752 次阅读|6 个评论
爱犯错的智能体 --- 语言篇:可塑与多义
热度 2 heruspex 2018-11-7 07:46
人之初,性本善;性相近,习相远。苟不教,性乃迁;教之道,贵以专。昔孟母,择邻处;子不学,断机杼。窦燕山,有义方;教五子,名俱扬。养不教,父之过;教不严,师之惰。 子不学,非所宜;幼不学,老何为? 玉不琢,不成器;人不学,不知义。为人子,方少时;亲师友,习礼仪。 --- 《三字经》 作为国学启蒙书籍之一,《三字经》在知识的简洁表达上做到了极致。聊聊数笔,人的性格养成、子女教育、礼义廉耻就言简意赅的表达了。在让人知道学区房重要性的同时,也反映了另一层事实,后天的学习可以帮助近乎“白纸”、最初相近的人类形成了多样性的“远”。 从人工智能的角度来看,这种表述方式很符合 1978 年 Jorma Rissanen 提出的最小描述长度原则 (Minimum Description Length ,常简称为 MDL) 。直观来说,就是在给定表达集合的前提下,产生最大压缩效果而又不丢失信息或知识的表达是最好的。虽然背后的原因可能是毛笔字太难写,能少写就尽量少写。反观现在流行的说唱,似乎可以称为最少时间描述,因为需要在最少的时间完成最大的信息量传递。 虽然《三字经》强调学习的重要性,但关于语言是如何习得的,却没有涉及。 一、语言学习的次序与可塑性 对于新儿生来说,获得语言能力的时间比获得视听觉能力的时间要晚不少。在最初的 2-3 个月期间,新生儿最多会说些简单的象声词,会哭会笑。到七坐八爬的时间段,开始能理解大人的简单对话,尤其是当内容与新生儿可以接触到的物体相关时。但要学会说话,还得耐心地等到 1 岁半左右。 2 岁以后,才能发音或清晰或含糊的跟成人交流了。 由此可见,在人类的智能发育中,尽管从出生开始就沉浸在相对单纯的语言环境中,儿童的语言习得却具有很明显的滞后性。这种滞后性一方面与声带练习需要时间有关,而 这种练习可能是为了配合人类由粗到细学习模式、演化的结果;另一方面也可能与人脑在建构具体到抽象概念的认知结构的次序有关,即更抽象的语言学习需要建立在,能通过感官感觉到的概念的基础之上,如通过视觉、听觉、触觉获得的概念。 在交流变为通畅后,儿童的语言学习就开始快步前进了,最后会进入稳定期,一如成人一样。不过并非年龄越大,学习语言的能力就越强。比如,在外语学习方面,有一个比较有趣的拐点错觉,即 12 岁以前学习外语往往被认为是黄金时期。夸张地讲,儿童在全英文环境下获得的英文提升能力的效率,大概是成年人在相同环境下的六倍左右。 这似乎与直觉有些相悖,因为成人的学习能力、学习方法、注意力都能做得更有效。但是,儿童学习外语的优势恰恰又在于这个弱势,即他仍处在一个没有完全把母语的语言结构固化的阶段。由于没有固化,就不容易受到母语的影响,就有可能形成两个相对更独立的语言认知模型。反观成年人的外语学习,多数人在阅读英文文献时,可能都会下意识地先在大脑里翻译成中文再去找对应的英文意思。结果,成年人要完全脱离母语去思考英文就需要更长的调整时间。这说明成年人的多语言结构中母语具有更强的优先级,且对新语言的学习会形成明显的干扰。而儿童的母语结构的优先级则不明显,因而在语言学习时有更强的可塑性。很有意思的一点是,这种可塑性是在构造由粗到细的学习模式的中段而非终段发生的。 如果比较下当今人工智能对新模式的学习策略,就能发现,多数是在模拟终段的学习。不管是零样本学习 (zero-shot) 、少量样本学习 (few-shot) 、迁移学习 (transfer learning) 还是领域自适应 (domain adaptation) ,它们都假定了有某一已知的、(接近)固化的结构在其中,或是分布、或是几何结构、或是其它某种假设。如果能研究下人类智能中段的学习模式,说不定能让目前极容易固化的机器智能得到更强的可塑性。 二、语言学习中的整体与局部认知 语言学习有其基本的规律,首先要学会的是识字。儿童识字的过程是从看图说话开始的,读书是从图画书逐渐过渡到少图甚至无图的书籍。这说明了具体与抽象的匹配在人的前期认知建构非常重要。那人在识字时是如何记忆每个字符的呢? 一种可能是基于由粗到细、由整体到局部的记忆模式,因为这与人的视觉发育机理吻合。可以用来佐证整体记忆的例子是如下的乱码阅读: The nghit bferoe lsat,jsut berofe dnienr, wihle my ftaehr was lkooing trhugoh the envenig pepar,he sdduelny let out a cry of srpusrie. Letar he epxinaeld: 'I had tohhugt taht he had deid at laset tewtny yares ago. But can you bleeive taht my fisrt tcheear, Mr. Crossett, is sitll liivng? ' 这段文字选自曾经的某中学英语高中第二册第一课。打乱字母次序后,看上去很混乱,但稍微懂点英文的,应该能不太费力的将每个拼错的单词自动纠正,并把全文正确读出来。它表明人在记忆英文单词或句子时,会优先进行整体认知。只要单词中的第一和最后一个字母次序保持不变,人就可以准确识别。整体认知的情况在汉语中同样存在。不妨阅读下面这个句子: 研表究明,汉字的序顺并不定一能影阅响读,比如当你完看这句话后,还没发这现里的字全是乱的。 显然,只要没改变每个短句的第一和最后一个汉字,相邻字的次序交换也不会影响阅读和对句子意思的理解。整体认知也能解释惯用简体字的国人为什么能比较轻松地识别多数繁体字。因为多数情况下,繁体字与简体字的字型是相近的。甚至当汉字产生字体变化时,如楷体、宋体、行书,基本也不影响人对汉字的理解。当然,“医生体 ”除外。 另外,整体认知也方便人识别和记忆未知的汉字。当识别结构相似、发音也相同的汉字时, 如“喽”和“楼” ,“景”和“憬”,“援”和“媛”时,就能够快速地获得正确的发音。如果观察 儿童早期的文字识别,可以发现,当他们遇到不认识的字时,会在大脑中寻找相似字型的字来匹配,并推测未知字的发音。但当遇到 结构相似、发音不同的汉字时,如“锦”和“绵”、“流”和“毓”、“途”和“徐”,则可能形成错误推广。这些错误和正确的推测,表明 儿童在建构语言记忆模型时,可能会将字型结构类似的字放在相近的记忆模型中,以提高学习的效率。 三、语言 断句和释义 的歧义性 认知心理学的分支之一、格式塔心理学强调了整体认知的重要性。然而,这一理论目前还没有形成太好的量化机制或程序化方法来,它使得机器对需要整体认知的问题还一筹莫展。除此以外,语言的歧义性也使得人类在语言理解上,较机器更灵活和智能,甚至多了些茶余饭后的文字游戏。如以下示例: 1 、自然语言处理领域常用来示例的歧义句: 南京市长江大桥 是 ” 南京市 / 长江大桥 ” 还是 “ 南京市长 / 江大桥 ” ? 2 、最近网络中流传的两个段子: 1) 改编自金庸的《神雕侠侣》: 来到杨过曾经生活过的地方,小龙女动情地说:“我也想过过过过儿过过的生活。” 2) “行”字 句: 人要是行,干一行行一行,一行行行行行; 要是不行,干一行不行一行, 一行不行行行不行 3 、古诗新解:唐代诗人杜牧的千古名作之一、七绝诗《清明》: 清明时节雨纷纷,路上行人欲断魂; 借问酒家何处有,牧童遥指杏花村。 如果不按古诗的格式、而是按散词的形式来断句,就会多一层俏皮的感觉: 清明时节雨,纷纷路上行人,欲断魂。 借问酒家何处?有牧童,遥指杏花村。 不仅如此,我们还可以将此诗改写成微型独幕剧: 时间:清明时节 天气:雨纷纷 主要人物:路上行人 精神状态:欲断魂 台词:借问酒家何处有 ? 另一主要人物:牧童 动作:遥指 台词:杏花村 可见汉语在语意表达上是相当丰富的。汉语的多义性让这类例子已不胜枚举,再看两例同义 / 反义和多义的例子: 1 、同义 / 反义: 当中国女排获得世锦赛冠军时,媒体既有“中国女排大胜美国女排”,也有“中国女排大败美国女排” 报道,那到底是大胜还是大败呢? 2 、多义性: 上司:“你这是什么意思?”小明:“没什么意思。意思意思。”上司:“你这就不够意思了。”小明:“小意思,小意思。”上司:“你这人真有意思。”小明:“其实也没有别的意思。”上司:“那我就不好意思了。”小明:“是我不好意思。” 请问以上“意思”分别是什么意思? 这些都是机器理解中文自然语言的难点,而国人因为有背景知识的支持,理解起来就相对容易些。 除了语言自身的特点,视听觉系统也会对语言的理解有着重要的作用。 四、视听觉对语言的影响 俗话说“千言不如一画”,对于视觉优先的人类而言,图画能提供更丰富和具体的信息。可是,如果语言搭上图画的包装,将字面的意思用图画的形式表述出来,那即使是人,也得思考半天才能理解语言的意思。比如根据苏轼的一首诗《晚眺》来书写的图 1 。原文是: 长亭短景无人画,老大横拖瘦竹筇 回首断云斜日暮,曲江倒蘸侧山峰 图 1 则将诗中的形容词“长、短、大、横、瘦、断、斜、曲、倒、侧”等通过视觉的方式融入到诗里的名词中,让原本已经很美的诗更加添了一丝画面感。 图 1 : 苏轼的《晚眺》 要让机器来理解这种有画面感的诗,需要分析字体的大小关系、方向性、断字情况、反向书写、局部字体变化与诗词的关系。这些无形中加大了机器处理语言的难度,更不用说理解字画的意境了。 不仅视觉能影响人对语言的理解,听觉也能影响。同样的语句,重音不同,想强调了的内容就差不少 。比如: 明天别忘了带笔记本电脑去单位! 如果重音在“明天”,则是强调时间;如果在“别忘了”,则是强调记性;如果在“笔记本电脑”,则是强调带的物品,如果在“单位”,则是强调要去的场所。 可见视听觉的融入会不同程度地影响对语言的理解,导致机器分析的难度上升。 五、语言与音乐的循环游戏 除此以外,对语言的巧妙设计还能衍生出不少有趣的结构,如回文诗。汉语回文诗有很多形式,如从诗的末尾一字读至开头一字可成新诗的通体回文、下一句为上一句回读的双句回文、每句前关句与后半句互为回文的就句回文、诗的后半篇为前半篇回复的本篇回文、先连续至尾再从尾连续至开头的环复回文等等。 虽然什么时候开始有已无从考究,但从古诗词中可以找到不少回文诗。举例来说,传说北宋时期,苏小妹与长兄苏东坡六月荡舟西湖时,收到她丈夫秦小游捎来的、如图 2 的叠字回文诗书信,“静思伊久阻归期忆别离时闻漏转静思伊”。 图 2 秦少游的连环诗《相思》 苏小妹冰雪聪明,很快便悟出其中奥妙,将诗解读出来: 静思伊久阻归期,久阻归期忆别离。 忆别离时闻漏转,时闻漏转静思伊。 并回诗一首“采莲人在绿杨津一阕新歌声濑玉采莲人”。苏东坡见状,不甘寂寞,也即兴提笔赋诗一首“赏花归去马如飞酒力微醒时已暮赏花归”。 比较类似的回文诗是明末浙江才女吴绛雪写的四首《四时山水诗》,均是由十字组成的辘轳回文诗。其中,春景诗由“莺啼岸柳弄春晴夜月明”解读为: 春景诗: 莺啼岸柳弄春晴, 柳弄春晴夜月明。 明月夜晴春弄柳, 晴春弄柳岸啼莺 而夏景诗“香莲碧水动风凉夏日长”、秋景诗“秋江楚雁宿沙洲浅水流”、冬景诗“红炉透炭炙寒风御隆冬”均可通过上述方式解读成诗。 宋代李禺写的夫妻互忆回文诗《两相思》也很有意思,正着读是《思妻诗 》 : 枯眼望遥山隔水,往来曾见几心知? 壶空怕酌一杯酒,笔下难成和韵诗。 途路阻人离别久,讯音无雁寄回迟。 孤灯夜守长寥寂,夫忆妻兮父忆儿。 倒过来读就变成《思夫诗 》了: 儿忆父兮妻忆夫,寂寥长守夜灯孤。 迟回寄雁无音讯,久别离人阻路途。 诗韵和成难下笔,酒杯一酌怕空壶。 知心几见曾往来,水 隔山 遥望眼枯。 清代诗人李旸写的诗《春闺》则是一首通体回文诗: 垂帘画阁画帘垂, 谁系怀思怀系谁? 影弄花枝花弄影, 丝牵柳线柳牵丝。 脸波横泪横波脸, 眉黛浓愁浓黛眉。 在英文中,也有很多回文,称为 Palindrome 。如用来纪念美国前总统西奥多 . 罗斯福在任内取得巴拿马运河开凿权的句子 ”A man, a plan, a canal-Panama!” 就是典型的回文,正反都是一个意思。 我们甚至在音乐作品中,也能见到回文的影子。如巴洛克时期著名的德国作曲家、管风琴演奏家巴赫( Johann Sebastian Bach , 1685 年 3 月 21 日- 1750 年 7 月 28 日)的作品《音乐的奉献》 ( 英语: The Musical Offering; 德语: Musikalisches Opfer, BWV 1079) 中的 “Thema Regium”(“ 国王的主题 ”) 。 这 首曲子源自于 巴赫与腓特烈二世在 1747 年 5 月 7 日波茨坦国王住处的一次会面。因为巴赫的作曲很有名,国王席间便为巴赫提供了一段长而复杂的音乐主题,命他作首三声部赋格。完成后,国王又让其作首六声部的。巴赫回家两个月后,便完成了国王的任务,称为《音乐的奉献》组曲。其中“国王的主题”很特别, 它的旋律即可以正着演奏,也可以逆着演奏,且可以将正的和逆的作成两个声部同 时 演奏,因而叫“ 镜 像卡 农 ”。因 为这样 的旋律走向很像螃蟹走路,也 将其称为螃蟹卡农, 而非回文的命名。还有人把这种旋律看成是一种莫比乌斯带上的循环。据说巴赫业余时间喜欢读他同时期的、但已声名大震的数学家莱布尼兹的著作,说不定他这种数学味很浓的组曲的灵感来自于莱布尼兹,因为后者曾说过“音乐是数学在灵魂中无意识的运算”。 图 3 : 《国王的奉献》 乐曲片断和二声部乐曲 螃蟹卡农链接: https://v.qq.com/x/page/l0616bmt8hk.html 所以,研究语言在儿童期的学习过程以及与视觉、听觉相关目标的学习次序,可能对于我们构建真正的智能体是有启示性作用的。我们是否应该一开始就从高层语义的语言着手来设计智能体,还是应该按金字塔式的结构,对视听觉及其他感官系统的构建给予更高的优先级呢?而能否将文字游戏中隐藏的各种奥妙解开,也许是真正理解语言的途径之一。 如果不看、不听、不摸、不说,智能体还能学习吗?请听下回! 参考文献: 侯世达著,郭维德等译 . 哥德尔、艾舍尔、巴赫:集异壁之大成 . 商务出版社, 1996. 张军平 2018 年 11 月 6 日 延伸阅读: 17. 爱犯错的智能体 – 体感篇:我思故我在? 16. 爱犯错的智能体 --- 听觉篇(二):视听错觉与无限音阶的拓扑 15. 爱犯错的智能体 -- 听觉篇(一):听觉错觉与语音、歌唱的智能分析 14. 爱犯错的智能体 – 视觉篇(十一):主观时间与运动错觉 13. 爱犯错的智能体 -- 视觉篇(十):自举的视觉与心智 12. 爱犯错的智能体 -- 视觉篇(九): 抽象的颜色 11. 爱犯错的智能体--视觉篇(八):由粗到细、大范围优先的视觉 10. 爱犯错的智能体 -- 视觉篇(七):眼中的黎曼流形 9. 爱犯错的智能体--视觉篇(六):外国的月亮比较圆? 8、 爱犯错的智能体 - 视觉篇(五):火星人脸的阴影 7、 爱犯错的智能体 - 视觉篇(四):看得见的斑点狗 6、 爱犯错的智能体 - 视觉篇 (三):看不见的萨摩耶 5、 爱犯错的智能体 - 视觉篇 (二):颠倒的视界 4、 爱犯错的智能体 - 视觉篇(一): 视觉倒像 3、 AI版“双手互搏”有多牛? 浅谈对抗性神经网络 2、 童话(同化)世界的人工智能 1、 深度学习,你就是那位116岁的长寿老奶奶! 张军平,复旦大学计算机科学技术学院,教授、博士生导师,中国自动化学会混合智能专委会副主任。主要研究方向包括人工智能、机器学习、图像处理、生物认证及智能交通。至今发表论文近100篇,其中IEEE Transactions系列18篇,包括IEEE TPAMI, TNNLS, ToC, TITS, TAC等。学术谷歌引用2800余次,ESI高被引一篇,H指数27.
11450 次阅读|4 个评论
爱犯错的智能体 – 体感篇:我思故我在?
热度 1 heruspex 2018-11-1 07:32
我思故我在? 这是笛卡尔的一句很有名的哲学命题,意思是我思考了,我便证明了我的存在,证明了我躯体的存在。可是,我们是如何确定我的躯体是我自己的,而不是别人的呢?我们有没有可能将其他物体如桌子、椅子、甚至虚拟的物品认为是自己身体的一部分呢? 一、肢体与智能的发育 人类对外部世界尤其是远距离的感知主要通过视觉、听觉来完成,而执行任务则无法仅通过这些感知系统或只靠思考就能实现,虽然人类一直期待能理解和掌握《星球大战》中尤达大师的原力 ( The Force ) 。记得小朋友小时候曾在外面玩过一款基于脑电波来控制“迷你足球”射门的对抗游戏。当她戴上测脑电波的头盔,手握好金属棒,便开始集中注意力思考,最终轻松战胜了一位比她高半个头的小男孩。后问其经验,告知:“无他,手用力抓紧金属棒即可”。虽然近年来在原力的探测上已经有了很长足的进步,如日本的科研机构一直在研究脑电波控制轮椅。但现有的脑电波检测设备、甚至那些可侵入大脑的检测设备都还无法真正对大脑的思维模式形成全方位的了解,离真正的实用化还有相当的距离。 古人和其他智能体就更不能理解原力了。在无法直接利用原力的情况下,肢体自然就成了执行智能体任务的首选。而直立行走,又让人类向高级智能体迈出了重要一步。尤其在学会农耕种植、有策略的捕食猎物后,负责解决生存压力的肢体便被解放出来,多余的时间可以用来聊八卦、发展语言 、玩音乐、跳广场舞;而筷子的使用可能会让国人在移动增强智能体的路上走得更快。因为当西方人还在一手拿刀一手拿叉吃饭的时候,国人已经可以边吃饭、边拿手机做各种拓展知识的训练了,如玩手游、吃鸡。所以,肢体也是智能发育的一个关键因素。然而,肢体的作用并非一出生就从人类这个智能体上显现了。 在最初出生的阶段,人类的肢体几乎毫无作用。相比小鹿出生就能行走来说,新生儿最多能挥挥肉肉的小手、蹬几下腿,理应是食物链上最弱势、最易被淘汰的。但偏偏人类不太需要在生存上考虑太多,因为父母的保护已经足够了。如果观察新生儿的发育,就能发现多数新生儿的肢体要到“七坐八爬”这个阶段才开始施展逐渐其能力。到一岁左右的时间,新生儿才懂得直立行走。 可是,从智能体的角度来看,肢体发育的严重滞后性也许并不是劣势,反而在帮助人形成由粗到细的发育结构中,起了关键作用。因为有了肢体发育的滞后以及视觉由粗到细的发育,新生儿才能相对方便和快速地对各种目标建立大概的视觉印象。 在此基础上,新生儿的肢体才开始对目标有了接触。在原有的粗糙印象上,建立了目标的三维结构,了解目标的旋转不变性, 学习了目标离自身的远近感。再学会精准地抓取物品,通过触觉感受物体的精细纹理。继而学会了对物体的自动分类,以及目标之间的相互匹配和关联。再长大一点,就到了可以写作业的年龄了。 肢体尤其是上肢帮助人类衍生了太多生存以外的功能,玩乐器和各种依赖器械的体育运动。它也促进了交流和理解,帮助表达人类的情绪。网络随便查查,便可发现不少分析人类动作和微动作的文献。 它还让人对形体有了审美方面的意识。如男性照镜子时总觉得自己像肌肉男,女性则总觉得自己太胖了。在某种程度上,这可以看成是性别差异形成的身材错觉。 肢体发育成熟后,甚至能够脱离视觉和听觉的影响,依然可以独立完成多种任务,比如在黎明来临前闭着眼准确地把床台柜上提醒上班的闹钟关掉再继续睡。这说明肢体已经具备了类似全球定位系统 (GPS) 般的精确定位能力。 如果不信,大家不妨试试闭上眼睛,将一只手放在额头上,另一只手的食指碰到鼻子,再把食指碰到另一只手的小指。相信大家都能完成。这个过程没有借助视觉,是大脑通过神经对肢体运动的精确预测和控制来完成的。学术上称其为本体感觉 (Proprioception) ,是身体运动器官如肌肉、股腱、关节等在不同状态(运动或静止)时产生的感觉。 看似轻而易举的运动功能,他的获得其实经历了一段长的学习过程,从视听觉、触觉的感知到不借助这些感知器的本体感觉,再通过对躯体各种运动模式的反复学习,烙印在大脑皮质运动功能区,最终固化。现在我们能研究的智能机器人,多依赖于视觉、红外、超声等传感设备,如果关闭这些, 他还能像人类一样只依赖本体感觉来正常抓取物体吗?这应该是值得研究的问题。 我们也很难想象,没有肢体的发育,智能体能发育到怎样的程度。所以,有科学家认为,肢体是智能发育的必要组成部分。如果只研究大脑,不分析肢体的作用,不帮助肢体学习运动功能,可能无法完全理解智能。比如 Michigan 大学的翁巨扬教授研究的自主发育 (Autonomous Mental Development) ,就将肢体发育看成是智能体自主发育的重要环节之一。 可是,肢体是如何被认同为自己的,而不是别人的呢?这涉及到肢体认知上存在的一些错觉。 二、幻肢和出体错觉 自已的肢体之所以被认同为自已的,而非他人的,是一系列感知系统的协同作用获得的,包括视觉、听觉和本体感觉等。但如果在这些联动环节上出了问题,就有可能产生肢体错觉。它包括生理缺失引起的、本体感觉引起的和人为诱导的三种错觉。 生理缺失的错觉,称为幻肢错觉 (Phantom Limb) ,常发生在截肢后的患者身上。患者会感觉被切断的肢体仍然存在,且在该处尤其是离截肢位较远的远端会非常疼痛。根据临床报告,有 50% 以上的截肢病人术后有幻肢痛的经历。痛感的感受有多种,有电脉冲式的电击痛感,也有切割痛感、撕裂或烧伤痛感。截至目前,对幻肢痛的发生原理,有两种相对合理猜测。一是认为截肢后会出现大脑皮质功能重组 (cortical reorganization) ,一是认为体表某些区域 如双侧面部、 颈部 、上胸部和上背部存在诱发幻肢痛的触发区 (Trigger Zone) 。但总 体 来看, 仍无统一的意见,也没有有效的办法来治疗幻肢痛。 本体感觉引起的错觉,则是由于协调机制出了问题导致的。其中最著名的错觉是亚里斯多德错觉 (Aristotle Illusion) 。如果将两个相邻的手指,如中指和食指,交叉后去摸自己的鼻子或者物品如一颗豌豆。有些人会感觉有两个鼻子或两颗豌豆。原因是大脑从没有考虑过相邻手指可以交叉后摸物品,因此仍会像平时一样,将手指外侧传感来的信号单独处理,导致知觉分离,产生两个物体的错觉。 还有一种错觉与多传感器集成 (Multisensory Integration) 的不一致有关,它涉及到人是如何认知自己的躯体是自身的。瑞典 Karolinska 研究所的 Henrik Ehrsson 教授及其研究小组对“人是如何将肢体视为身体的一部分、为什么我们会感觉自我在躯体内”这一问题进行了长期的研究 。他认为人对自身的认知是多传感器集成,既视觉、触觉和这些感觉以外的体感系统 ( 本体感觉 ) 共同感知的结果。因此,如果将这几种感知方式剥离开来,也许就能让人产生身体的错觉。为验证其理论,他尝试做了一系列的试验。 他首先发现的现象是基于橡皮手错觉的,如图 1 。首先,实验员移动每个参加者的左食指,使其触摸到右边橡皮手食指的关节,同时,实验员触摸参加者右手的食指。实验中需保证触摸这两只手的动作要尽可能同步。当两只手触摸物体的频率在1赫兹 时,过了 10 秒左右后,人就能产生橡皮手是自已的错觉。实验员也发现异步触摸或非一致性模型(如使用毛笔而不是橡皮手的物品),则错觉不容易出现。 图 1 :橡皮手错觉 而后,他做了进一步的实验。他给测试者戴上一个有显示器的护目镜,并在测试者的身上放置一个摄像头,让测试者视觉上看到的是身后摄像头拍摄的情形。然后他左右手各拿一个小棍,左手的棍子可以触到测试者身上,右手则是对着摄像头虚空挥舞,如图 2 。 图 2 :出体错觉实验的设置 在训练一段时间后, Ehrsson 教授拿着锤子对于摄像头挥过去,结果测试者产生了身体错觉,有明显的向后仰的情况。这说明,测试者把摄像头“看到”的当成了“自我”。他将这个现象称为出体错觉 (Out-of-body Illusion) 。除此以外,他又做了一组实验,在一个虚拟人的头上安装了一个向自己身体下方看的摄像头,对测试者也同等处理。结果发现,如果对虚拟人的腹部进行锤击时,测试者也会误以为是对自己的身体在锤击。他推测这是由于第一视角导致的“自我”的互换。同时,当测试者产生“身体交换错觉”时,他们也观测到测试者参与动作的视觉引导位置、腹外侧运动前皮层 (ventral premotor cortex) 会变得很活跃。这种“自我”的互换甚至在不同尺度的情况下也能实现。比如,让测试者平躺着,戴着护目镜,然后在摄像头前放一个人形的玩偶,但尺寸只有约 30 厘米长。重复这一过程后,如触摸玩偶的手、用很小的积木去撞玩偶的脚,都让测试者误以为是在自已身上的操作。但是,他也发现如果用桌子、椅子来替代时,则不会有这种自我的反应。 基于以上实验和观察, Ehrsson 教授认为要想让人产生完全“自我”的身体错觉,需要四个基本要素,第一视角、拟人的身体、看和感觉刺激的同步以及看和感觉刺激的空间一致性。满足这四个条件,我思,很有可能看到的就不是真正的自我了。那这些错觉对智能体的研究有何可借鉴的地方呢? 三、虚拟现实、外骨骼与身材 不妨看看当下的两项人工智能相关新技术,一项是大家熟知的虚拟现实 (Virtual Reality ,简称 VR) 及其推广技术。如将真实世界与虚拟世界无缝集成,将计算机生成的场景、信息叠加到现实世界中,就是增强现实 (Augmented Reality ,简称 AR) ,如谷歌眼镜。如果在虚拟环境引入现实场景,在虚拟、现实世界与用户之间形成交互的反馈回路,则为混合现实 (Mixed Reality ,简称 MR) 。不管是 VR, AR 还是 MR ,都希望提高用户的沉浸感和体验环境的真实性。有些还会在戴上虚拟现实眼镜的同时,增加立体声音刺激。在商场中能见到的、与虚拟现实相关的娱乐设备,还会增加辅助设备如旋转椅或可接触身体的机械传动装置如背部的触摸杆,来让人有更真实的体验。 而这些技术,很少有考虑过如何将“自我”错觉有效地融入 VR, AR 或 MR 中。但从上小节的内容不难看出,“自我”错觉能帮助获得更好的、身临其境般的体验感。在理想情况下,甚至有可能实现像史蒂文·斯皮尔伯格拍摄的电影《头号玩家》的情景:在虚拟的世界中你能真正感觉到“自我”的存在和意义。虽然每个人在这个世界中只是个动画人物,但如果该人物的躯体和自身的躯体在“多传感器集成”意义下,变得不可区分时,那人类在未来虚拟世界的生活时间就很可能会等同甚至超越真实世界了。 图 3 :头号玩家与钢铁侠 其次, “ 自我 ” 也能增强外骨髂的应用。汽车驾驶员都知道,要让驾驶水平达到人车一体的感觉,拿到驾照只是开始,至少开过二三千公里后才会有“人车一体”的感觉。而未来人类如果希望获得行动能力和人力不可及能力的提升,装备外骨骼可能是一种最直接有效的办法。而如果希望更快速地让人习惯和使用外骨髂、形成人与外骨骼一体化的体感, “自我”错觉的界入显然是有帮助的。有些实验者,可以通过控制让测试者错误以为自己有 “第三只手”。另一个极端的例子是针对截肢患者的肢体接入。如果将“自我”错觉引入,则会让患者认同自己的假肢,从而可能避免幻肢痛的困扰。不过从 Ehrsson 教授报道的实验结果来看,目前“自我”错觉的持续时间还不长,还难以实现长时间的“自我”认同 。因此,要利用“自我”错觉来治疗幻肢症还有很大待完善的空间。 但可以肯定的是,充分利用好“自 我”认知的错觉,将会有利于我们更灵活地使用如“钢铁侠”般的外骨髂装备。 另外,“自我”认知的错觉还能影响人对身材的满意程度,减少与满意程度相关的疾病,如厌食症。最新的研究表明,人视觉上感知的身材满意程度与触觉获得的是不同的。因此,未来也许可以考虑利用多传感器集成的方法来减少人对身材不满意的错觉,从而减少相关疾病的发生 。 说不定在若干年后,当电池续航时间、通信效率、载重问题得到有效解决后,我思,真不一定只是故我在了,也许还有虚无缥缈的我在,也许还有三头六臂的我在,也许还有其他千奇百怪的我在了。 如果把视觉错觉、听觉错觉、躯体错觉都看成是身体传感方面的错觉,那有没有更抽象、更高一级的错觉呢?下回书表! 参考文献: 1 、尤瓦尔·赫拉利 . 人类简史 . 中信出版社, 2014. 2 、 Weng J., McClelland J., Pentland A., Sporns O., Stockman I., Sur M., Thelen E. Autonomous mental development by robots and animals. Science 291 (5504): 599-600, 2001. 3. Ehrsson, H. H., Spence, C. and Passingham, R. E. ‘That's my hand!’ Activity in the premotor cortex reflects feeling of ownership of a limb. Science, 305(5685): 875-877, 2004 4. Ehrsson H. H., Holmes N. P.,Passingham R. E. Touching a rubber hand: feeling of body ownership is associated with activity in multisensory brain areas. Journal of Neuroscience, 25(45): 10564-10573, 2005. 5. Ehrsson, H. H.The experimental induction of out-of-body experiences. Science, 317(5841): 1048, 2007 6. Ehrsson H. H., Rosén B., Stockselius A., Ragnö C., Köhler P., Undborg G. Upper limb amputees can be induced to experience a rubber hand as their own. Brain, 131:3443-3452, 2008. 7. Ehrsson H. H. How many arms make a pair? Perceptual illusion of having an additional limb. Perception, 38: 310-312, 2009. 8. Slater M., Perez-Marcos D., Ehrsson H. H., Sanchez-Vives M. V. Inducing illusory ownership of a virtual body. Frontiers in Neuroscience, 3:214-220, 2009. 9. Kilteni K, Andersson B. J., Houborg C, Ehrsson H. H. Motor imagery involves predicting the sensory consequences of the imagined movement. Nature Communications, 9(1):1617, 2018. 10. Preston C., Ehrsson H. H. Implicit and explicit changes in body satisfaction evoked by body size illusions: Implications for eating disorder vulnerability in women. PLoS One, 13(6): e0199426, 2018. 张军平 2018 年 11 月 1 日 延伸阅读: 16. 爱犯错的智能体 --- 听觉篇(二):视听错觉与无限音阶的拓扑 15. 爱犯错的智能体 -- 听觉篇(一):听觉错觉与语音、歌唱的智能分析 14. 爱犯错的智能体 – 视觉篇(十一):主观时间与运动错觉 13. 爱犯错的智能体 -- 视觉篇(十):自举的视觉与心智 12. 爱犯错的智能体 -- 视觉篇(九): 抽象的颜色 11. 爱犯错的智能体--视觉篇(八):由粗到细、大范围优先的视觉 10. 爱犯错的智能体 -- 视觉篇(七):眼中的黎曼流形 9. 爱犯错的智能体--视觉篇(六):外国的月亮比较圆? 8、 爱犯错的智能体 - 视觉篇(五):火星人脸的阴影 7、 爱犯错的智能体 - 视觉篇(四):看得见的斑点狗 6、 爱犯错的智能体 - 视觉篇 (三):看不见的萨摩耶 5、 爱犯错的智能体 - 视觉篇 (二):颠倒的视界 4、 爱犯错的智能体 - 视觉篇(一): 视觉倒像 3、 AI版“双手互搏”有多牛? 浅谈对抗性神经网络 2、 童话(同化)世界的人工智能 1、 深度学习,你就是那位116岁的长寿老奶奶! 张军平,复旦大学计算机科学技术学院,教授、博士生导师,中国自动化学会混合智能专委会副主任。主要研究方向包括人工智能、机器学习、图像处理、生物认证及智能交通。至今发表论文近100篇,其中IEEE Transactions系列18篇,包括IEEE TPAMI, TNNLS, ToC, TITS, TAC等。学术谷歌引用2700余次,ESI高被引一篇,H指数27.
10412 次阅读|2 个评论
爱犯错的智能体 --- 听觉篇(二):视听错觉与无限音阶的拓扑
热度 1 heruspex 2018-10-26 09:15
小朋友小时候,我们请了一位家里外婆辈份的亲戚帮忙来照顾。虽然长我一辈,年龄却比我小。不过还好,亲戚家在湖南省的华容县,那边的人管这个辈份的都称为“家 (Ga) 家 (Ga) ”,所以,叫起来也不会太尴尬和别扭,反正外人听不懂。小朋友学语言很快,一切都很正常。可是 GaGa 老是叫不好,总发成 DaDa 。她自己也没觉得有什么不对,我们纠了几次,没什么效果,只好听之任之了。还好,随着小朋友一天天的长大,终于有一天她自己纠正过来了。 ~~~~~~~~~~~~~~~~~~~~~~~~~~~~ 上一篇说过,人在辨声方面有“鸡尾酒会效应”的能力。一个人不需要借助视觉的帮助就可以在酒会中选择性地聆听需要听的声音,而把其他声音弱化甚至屏蔽掉。谷歌则尝试结合视频与语音来提高人声分离的性能。那么,视觉与听觉之间会不会相互影响呢? 一、视听错觉 第一个证实有相互影响的实验来源于一次意外。早在 20 世纪 70 年代中期,英国 Surrey 大学的心理学家 Harry McGurk 和他的助手 John MacDonald 做了个实验。他们用不同的口语因素给视频配音,想研究不同时期儿童对语言的理解程度。在配音的时候,一个本应发“ ga ”的音节错配成了“ ba ”的音,测试者听完后坚持认为听到的音节是第三节音素“ da ”而不是视频中说出来的原音节。对于这个意外,他们分析后认为,在听觉系统和视觉系统收集的信息存在相互矛盾时,人类会优先相信视觉通道传输进来的信息。因为与视觉系统相比,听觉系统获得的信息没有那么强的确定性。他们将这一现象称“麦格克效应” (McGurk effect) 。该成果发表在 1976 年的《自然》杂志上 。 麦格克效应: https://v.qq.com/x/page/i0624sd97n4.html 随着研究的深入,科学家们发现这种视听觉相互影响的“麦格克效应”在很多方面都有体现。如儿童早期发音的学习上。如果视觉和听觉没有得到好的整合,儿童就容易产生错误的发音。另外,视力不好的人,如果摘下眼镜,也很可能出现“麦格克效应”,会感觉自己的听力也同时下降了。 2007 年, Körding 等进一步研究了视听觉相互影响的情况。他们在 5 个平行的位置上均放置了发声和闪光设备,然后在不同或相同的位置同时给出声音和闪光,让 19 位测试者判断发声的位置和闪光的位置。实验设置和结果如图 1 所示 。 从图上可以看出,当光和声音分别处理、没有相互干扰时, 19 个测试者的反应是稳定且合乎正确分布的。而当灯光和声音同时出现后,能看出 1 )闪光位置的判断几乎不受影响,和没有声音的时候分布一致; 2 )声音的位置影响明显。尤其最后一列,其声音似乎容易被光线影响,而形成轻微向左的误判。这表明声音的不确定更多一些,更容易被闪光影响。所以,这两个实验都证明了,视觉确实会影响听觉的认知。 � � 图 1 :视听觉线索的组合 。 (a): 实验架构。每个测试,一个视觉和一个听觉刺激同时被给出,测试者通过按按钮来报告感知的视觉刺激和听觉刺激位置。 (b): 视觉对在中间位置发出的听觉刺激的感知位置影响被显示。不同颜色对应在不同位置的视觉刺激 ( 从左到底,颜色从暖色调转为冷色调 ) 。只有声音的模型以灰色表示。 C) 对于 35 种刺激条件,测试者 ( 实线 ) 以及理想观测者的预测 ( 破折线 ) 的平均响应。左边第一列虚线为五个闪光位置;第二列为无音频的响应,从左至右的折线表示响应位置。在无音频时响应很精确。 上方第一行指五个声音位置;第二列为无视频响应,从左到右的折线表示响应情况。 二、无限音阶的拓扑 听觉反过来会促进视觉上的感知。我们在观赏影视作品时经常能感受到。比如在家看恐怖电影时,一到令人发悚的情节, 胆小点的就会情不自禁把音量关小或干脆把耳机拿下来,说明视听觉的双重作用确实增强了影片的恐怖程度。 另外,在音乐中,还有个奇怪的旋律。他通过两个或多个声部的交替,能产生无穷递进的感觉,让人误以为声音一直在往高处走。这就是谢帕得音阶 ( Shepard tone) ,也称为无限音阶。 相比音乐的历史,这种音阶出现的时间并不早。它是美国斯坦福大学的心理学家谢帕德在 1971 年的心理学实验中发明的,所以称为谢帕得音阶。它由不重合的多个八度音组合在一起,形成多个声部。 2017 年克里斯托弗 • 诺兰执导关于 1940 年二战历史事件“敦刻尔克大撤退”的电影《敦刻尔克》时,为了能为海边撤退的场景来营造一种无始无终的紧张感,便送给作曲家汉斯 • 季默一个手表连续敲击的录音。季默受此启发,便以与之类似的谢帕德音阶为基础,创作了电影的背景乐。事实证明,这段配乐非常完美地加强了撤退时的紧张感,让观众有了身临其境、坐立不安的感觉。 谢帕德音阶 : https://v.qq.com/x/page/g05479i6hs5.html 为了帮助理解,我写了个类似的两声部例子来解释谢帕德音阶的构成,如图 2 所示。其中,第一列的低音部是慢慢渐强,而第二列的高音部分则慢慢减弱,到最弱音时,再同时增加一个相同音量但低八度的音进来。按此规律,两列的旋律一直循环播放。结果,在第一列的低音到最强处,刚好能接上第二列高音的最弱音。于是两个声部就实现了自然的过渡,低声部的过渡到高声部,高声部也过渡到低声部。结果,如果按此规律增加更多的声部进来,那么,旋律中总可以一直听到至少两种声调在同时升高。而大脑会形成听觉错觉,认为这些音调一直在往上走。 图 2 两声部的无限循 环,左列为低音的渐强,右列为高音的渐弱;左列到B4时,刚好能接上右列的C5;同理,右列弱至B5时,会再增加一个同样小声的B3音进来,从而可以自然过渡到左列的C4上。 有趣的是,这种循环,我们不仅能在音乐中看到,还能在很多方面见到类似的。比如艺术作品中,前面提到过的荷兰著名画家艾舍尔就画过一系列无限循环的作品。如图 3 所示的水的循环流动、楼梯的“循环”、还有画里画外的蜥蜴。这些都是现实世界不可能实现的无限循环。 图 3 艾舍尔的各种循环画: 无尽的水流;无尽的楼梯;画里画外的蜥蜴 而在日常生活中,理发店的旋转灯筒也有着无限循环的影子,如图 4 所示。这种灯筒何时出现的无从考证,说法很多,有说是世界大战时期,有的是大革命时期。 一种说法是为了纪念一位为国家 ( 法国 ) 做出贡献的理发师,旋转灯筒的红白蓝三色其实是法国的国旗。 图 4 : 理发灯箱与针式打印机色带 另一种说法是:据说在中世纪,因为对人体的认识不足,人们认为生病是体内元素不平衡造成的。只有释放出多余的元素,才能恢复健康。血液显然是最容易放出的一种元素。不过很多医师觉得这个工作比较低贱,不愿意动手放血,就委托理发师代办。所以,理发师就选三色柱作为他们行医和理发的标志。其中,三色柱中的红色代表动脉,蓝色代表静脉,白色代表纱布。他们甚至还发明了专门用于切割血管的刀片,叫“柳叶刀” (Lancet) 。这也是现在一本顶级医学期刊的名字。放血疗法也一度成为非常流行的治疗方法,就连美国总统华盛顿也是因感冒想用此法治疗,结果于 1799 年死于失血性休克。 不管来自何种典故,灯箱的旋转,会让人产生循环往复、一直向上的错觉。这是在理发店的无限循环。 事实上,这种循环性,我们在上世纪曾广泛使用、现在主要用于打印各种增值税发票的针式打印机上也能见到。大家可以拆开色带看看,就会发现色带两面都是一直在交替着打印的,如图 4 ,因为这样可以提高色带的利用率。这是打印机里的无限循环。 这种循环的几何结构有个数学味更浓的名字,叫莫比乌斯带 (Mobius Band) ,它可以将纸按图 5(a) 所示方法折成。类似地,普林斯顿大学教授、作曲家和音乐理论专家 Dimitri Tymoczko 在假定十二音律是一个圆形循环的基础上,认为 两音符组成的音程关系可以表示成如图 5(b) 的莫比乌斯带而非甜甜圈的几何结构 。 \0 \0 图 5 : (a): 莫比乌斯带折法:将纸按箭头方法对折后再粘在一起,便可以获得 (c) 的结构; (b) 两音符音程关系可以视为莫比乌斯带 (c) 莫比乌斯带上的蚂蚁 ( 艾舍尔 ) 图 5(c) 中,艾舍尔画的蚂蚁图也是莫比乌斯带。它有个很意思的特点,如果让一只不会飞、只能生活在二维空间的蚂蚁沿着莫比乌斯带爬行。假如这个带子足够宽,蚂蚁只能向前爬,那么它可以一直向前爬下去,却不能发现这个带子是否有正有反。用更严谨的话来表达,假定你在一个点上竖一根垂直的杆子,或者称为曲面上该点的法向量,然后将杆子保持与纸面的垂直一直向前挪动,结果你会发现当杆子运动到背面该点位置时,这根垂直杆子的方向与最初正面的方向刚好是相反的。一个点上出现了两个相反的垂直杆子,这种矛盾的情况导致莫比乌斯带面上的点都没有确定的方向,称为无定向的曲面。 三维空间上,这种二维曲面还可以构造的,但是否存在一个三维无定向的结构呢?理论上是有的,即 Klein 瓶 ( 克莱因瓶 ) ,如图 6 所示。这个瓶子有个神奇的特点。如果有药片放在瓶子里的话,不用开瓶盖就拿把药片拿出来了。这对于拧不开瓶盖需要找男同胞帮忙的女性朋友们绝对是个福音。因为在三维空间中,能打不开瓶盖就拿出瓶内药片的,似乎只有“气功大师”或“魔术师”可以做到。不过很遗憾,在三维空间中无法构造出真正的克莱因瓶实体,需要更高维度的空间。 除了莫比乌斯带和克莱因瓶这两个稍显古怪的几何结构外,日常生活中,我们还能见到大量的几何结构,如甜甜圈、杯子、花瓶等。如何确定它们的几何结构呢?这些结构能否用于人工智能呢? 图 6 : (a): 克莱因瓶; (b) 图像边缘构成的克莱因瓶,不同颜色表示不同的折叠方向; (c) 玻璃的“克莱因瓶” 三、持续同调 研究几何结构的理论,有初等几何、高等几何、射影几何这些常见的,也有数学再深一点可以研究曲面不变性如高斯第一性、高斯第二性的微分几何,再复杂些就是代数几何 (Algebra Geometry) 和代数拓扑 (Algebra Topology) 。这两个数学分支中复杂和抽象的理论这里不谈。着重介绍下拓扑,它是分析几何图形或空间在连续改变形状后仍能保持不变性的理论,俗称橡皮几何学理论。比如一个杯子,如果给它加个把手,它的拓扑结构就变了。因为多了一个洞,它也就没办法在不改结构的情况下变成原来的杯子了。在拓扑学发展历史中,著名的哥尼斯堡七桥问题、多面体欧拉定理、四色问题等都是其中的重要问题。而如果想直观感受下拓扑的魅力,不妨买个中国的传统民俗玩具智环类的如九连环来玩玩,它和拓扑密切相关。 那么如何从拓扑角度判断两个形变的结构具有相同拓扑性质呢?拓扑学家们定义了一些直观的参数。最简单的参数如凸多面体上的顶点数 (Vertex) 、棱数 (Edge) 和面数 (Face) 。利用这三个参数的交错和可以确定多面体的一个不变量,叫欧拉示性数 (Euler Characteristic) 。比如三角形,它的顶点为 3 ,棱数为 3 ,面数为 2( 把外部数在内 ) ,那么它的欧拉示性数就等于 V-E+F=2 。这里我们把顶点视为 0 维空间,边或棱看成是 1 维空间,平面看成是 2 维空间。如果希望向高维空间推广,我们可以继续用这样的交错和来估计高维拓扑结构的不变量。不过得换个稍个稍微专业点的名字,叫 Betti 数 (Betti number) 。如第 0 维的 Betti 数 b0 表示连通分量 (Connected components) 的数量,第 1 维 b1 表示有圆形洞 (Circular) 的数量,第 2 维 b2 表示有二维球形洞 (Void 或 Cavities) 的数量。以图 7 所示甜甜圈为例,它只有一个连通分量, b0=1 ;但有二个圆形洞,所以 b1=2 ;有一个二维结构构成的空洞 (Void) 。那么,它的欧拉示性数则是这些按维数获得的 Betti 数分量的交错和,即 b0-b1+b2=0 。 图 7 : n 维空间的甜甜圈 拓扑学的研究在计算机图形学方面有着异常重要的地位,因为图形学里涉及的结构变形、几何结构分析上都离不开它。但是在人工智能里怎么使用拓扑呢? 与图形学不同,人工智能中有的主要是数据。每个数据点都是离散的、有噪的。如果直接利用拓扑学的概念,并不好处理,因为 Betti 数的估计需要连续的结构。不过幸运地是,数学家们发明了一套新的办法来研究数据中的拓扑,叫持续同调 (Persistent Homology) 。名字很学术,理论也相对复杂。所以,我在这里用一个不太精确但可以直观理解的方式来解释。 如果用五线谱来比拟,一个音是一个结构。但人唱这个音的时候会有细微的抖动,通常几个赫兹到几十个赫兹。如果在这个差异范围内变化,他人听不出来,那么我们仍然可以认为这些音是同一个调的。那么,这个从最小变化到最大不可区分音调的变化区间就是这个音所具有的生命力,称为持续性。另外,如果这个音出现时间非常短,那它就不会被认为是稳定的,可能只是跑调或破音了。要找主旋律,这些生命力短的音可以忽略不计。保留下来的就是那些稳定或有较长生命力的同调的音了。 与音调不同的是,数据中的持续同调是希望找到一些在一定范围内稳定不变的几何结构。那如何去寻找范围呢?科学家们想到了可以用一组能连通的三角形或学术上要求更严谨的名字“单纯复形” (Simplicial Complex) ,或半径可变的圆来实现。 如图 8 所示,左图中有七个数据点,如果给一组比较小的三角形或半径小的圆,则这些圆在连通意义下不能覆盖全部数据。因此,可以在保证连通性的情况下,将所有数据点通过若干相互连通的圆来覆盖。因为这些圆的大小限制,中间的空洞不会被填充。所以,最终连通成的圆形集合会保留原来的几何结构。我们能根据这个圆形集合形成的结构来估计它在不同维度上的 Betti 数是多少。这些 Betti 数可以做为数据分析的一组特征,也可以用来估计欧拉示性数。因为数据是离散的,如果要找一个稳定的几何结构,那么可通过增加圆的半径来完成对数据集合的多次覆盖,直到数据集合中的被连通的圆的集合完全填充。最终,原来能看到的拓扑结构如空洞就会终止,而对应的 Betti 数的持续性或生命力也会消逝,并出现新的拓扑结构。 图 8 左:从数据点中用圆形覆盖来提取拓扑结构;右:有噪的双圆形数据集 我们将稳定的拓扑结构提取出来,与已知目标的拓扑结构进行匹配,这样就能知道数据集合与哪种形式的结构最相似。 另外,直接在数据上做推测也不是完全合理的。因为数据是有噪声的,而数据量过大的时候,噪声的波动会破坏原来的几何结构,比如形成短路边,如图 8 右图。所以,我们还得用些采样技术来适当地稀疏化数据。 这样做能否发现一些有意思的现象呢?斯坦福大学的 Gunnar Carlsson 教授等人 曾经对自然图像做过实验 。他们将图像切成若干小块,每块上只有朝向不同的边缘,他们对这些边缘图像块进行采样,然后再利用不断变大的三角形来连通和勾画图像块集合的拓扑结构。结果他们发现自然图像的边缘图像块集合构成的结构和 Klein 瓶很相似,如图 6(b) 。这是第一个与拓扑相关、比较有意思的发现。 在实际应用中,还是能看到一些它的应用。比如手语识别上,因为手语的结构具有一定的拓扑性质。我们也曾将其用于图像的目标识别 。 需要提醒的是,仅用拓扑结构来构造目标识别系统是有风险的。比如带把手的咖啡杯和实心甜甜圈这种人一眼就能区分的目标,从拓扑学家的角度来看却是分不清的。 图 9 :咖啡杯和甜甜圈 更重要的是,将这类方法用于高维数据分析还存在一个问题:这些基元指标如 Betti 数是基于人对三维空间的直觉来获得的;至于高维空间是否还存在一些特别的基元,人类还无法感知。也许存在更复杂的高维基元,只是无法感知和想象而已。要解开这个难题,或许和解开彭罗斯超弦理论中隐藏的高维结构一样的困难。 所以,单纯依赖拓扑结构来完成人工智能中常常面临的预测任务,现阶段很有可能会陷入与“量子计算用于人工智能”一样、看上去很美的尴尬境界,因为“ 不是不好,时辰未到”。 不过,理解音乐、艺术、数据中的几何或拓扑结构,对于改善对智能体发育和犯错机制的了解,必将大有裨益。 参考文献: 1. H. McGurk, J. MacDonald. Hearing lips and seeing voices.Nature.264(5588): 746–748. doi : 10.1038/264746a0 . PMID 1012311 , 1976 2. K. P. Körding, U. Beierholm, W. J. Ma, S. Quartz, J. B. Tenenbaum, L. Shams. Causal Inference in Multisensory Percepti on. PLOS, ONE 2(9): e943, 2007 3. D. Tymoczko. The Geometry of Musical Chords. Science 07, 313(5783), pp. 72-74. DOI: 10.1126/science.1126287, Jul 2006 4. D. Tymoczko. A Geometry of Music: Harmony and Counterpoint in the Extended Common Practice. Oxford University Press, 2011 5. H. Edelsbrunner, J. Harer. Persistent Homology—a Survey. Surveys on Discrete and Computational Geometry: Twenty Years Later: AMS-IMS-SIAM Joint Summer Research Conference, Jul 18-22, 2006, Snowbird, Utah. American Mathematical Society, pp. 257-283 6. G. Carlsson, T. Ishkhanov, V. de Silva, A. Zomorodian. On the Local Behavior of Spaces of Natural Images, International Journal of Computer Vision, vol. 76, no. 1, pp. 1-12, 2008 7. J. Zhang, Z. Xie and S. Z. Li. Prime Discriminant Simplicial Complex . IEEE Transactions on Neural Networksand Learning Systems, vol. 24, no.1, pp. 133-144, 2013 � 张军平 2018 年 10 月 26 日 延伸阅读: 15. 爱犯错的智能体 -- 听觉篇(一):听觉错觉与语音、歌唱的智能分析 14. 爱犯错的智能体 – 视觉篇(十一):主观时间与运动错觉 13. 爱犯错的智能体 -- 视觉篇(十):自举的视觉与心智 12. 爱犯错的智能体 -- 视觉篇(九): 抽象的颜色 11. 爱犯错的智能体--视觉篇(八):由粗到细、大范围优先的视觉 10. 爱犯错的智能体 -- 视觉篇(七):眼中的黎曼流形 9. 爱犯错的智能体--视觉篇(六):外国的月亮比较圆? 8、 爱犯错的智能体 - 视觉篇(五):火星人脸的阴影 7、 爱犯错的智能体 - 视觉篇(四):看得见的斑点狗 6、 爱犯错的智能体 - 视觉篇 (三):看不见的萨摩耶 5、 爱犯错的智能体 - 视觉篇 (二):颠倒的视界 4、 爱犯错的智能体 - 视觉篇(一): 视觉倒像 3、 AI版“双手互搏”有多牛? 浅谈对抗性神经网络 2、 童话(同化)世界的人工智能 1、 深度学习,你就是那位116岁的长寿老奶奶! 张军平,复旦大学计算机科学技术学院,教授、博士生导师,中国自动化学会混合智能专委会副主任。主要研究方向包括人工智能、机器学习、图像处理、生物认证及智能交通。至今发表论文近100篇,其中IEEE Transactions系列18篇,包括IEEE TPAMI, TNNLS, ToC, TITS, TAC等。学术谷歌引用2700余次,ESI高被引一篇,H指数27.
15737 次阅读|2 个评论
爱犯错的智能体 -- 听觉篇(一):听觉错觉与语音、歌唱的智能分析
热度 2 heruspex 2018-10-22 08:14
京中有善口技者。会宾客大宴,于厅事之东北角,施八尺屏障,口技人坐屏障中,一桌、一椅、一扇、一抚尺而已。众宾团坐。少顷,但闻屏障中抚尺一下,满坐寂然,无敢哗者。 遥闻深巷中犬吠,便有妇人惊觉欠伸,其夫呓语。既而儿醒,大啼。夫亦醒。妇抚儿乳,儿含乳啼,妇拍而呜之。又一大儿醒,絮絮不止。当是时,妇手拍儿声,口中呜声,儿含乳啼声,大儿初醒声,夫叱大儿声,一时齐发,众妙毕备。满坐宾客无不伸颈,侧目,微笑,默叹,以为妙绝。 未几,夫齁声起,妇拍儿亦渐拍渐止。微闻有鼠作作索索,盆器倾侧,妇梦中咳嗽。宾客意少舒,稍稍正坐。 忽一人大呼 火起 ,夫起大呼,妇亦起大呼。两儿齐哭。俄而百千人大呼,百千儿哭,百千犬吠。中间力拉崩倒之声,火爆声,呼呼风声,百千齐作;又夹百千求救声,曳屋许许声,抢夺声,泼水声。凡所应有,无所不有。虽人有百手,手有百指,不能指其一端;人有百口,口有百舌,不能名其一处也。于是宾客无不变色离席,奋袖出臂,两股战战,几欲先走。 忽然抚尺一下,群响毕绝。撤屏视之,一人、一桌、一椅、一扇、一抚尺而已。 节选自《虞初新志》的《口技 》, 林嗣环 ( 清 ) 图 1 : 口技 声音能刻画得如此妙不可言,听觉系统功不可没。就人而言,听觉系统由左右两只耳朵构成,一方面能帮助我们形成立体听觉,有助于辩识声音的位置,另一方面也方便我们在不喜听到某事时,可以一只耳朵进,一只耳朵出。它是除了视觉以外,另一个可以帮助我们实现远距离以及视觉系统不可用时识别目标的感知系统。比如《红楼梦》中描绘的“未见其人先闻其声”,便是林黛玉进贾府初见王熙凤的情形,朗朗的笑声瞬间就把王熙凤的形象树立了起来。另外,因为人的视觉接受外界信号是以光的速度完成的,而接收声音的速度则慢得多。所以,听觉系统还能帮助纠正视觉上的错觉。比如,有些人会看上去是非常的闪亮、聪明,这一印象会一直维持到听到他开口说话为止。于是,为了保证视觉与听觉美感上的“一致”,不少短视频 APP 提供了大量有特色的声音母带。这也是短视频大受欢迎的原因之一。因为对人类文明而言,听觉系统促进了智能体之间的交流和提升了精神生活的档次。 图 2 耳朵结构图 要更具体地了解听觉系统,可参考图 2 。 它包括用于收集声音的耳朵、用于声音传递的外耳道、用于将声音变为振动频率的耳膜、耳蜗内用于将声音转为电脉冲的毛细胞、以及传输电脉冲的听神经和处理声音的听觉中枢。这里毛细胞是听觉细胞,包括 3500 个内毛细胞和 12000 个外毛细胞,以分别处理不同频率的声音。其中,低音部的毛细胞多,高音的相对较少。所以,对年纪大的人来说,首当其冲损失的是高频部分的听力能力。 虽然人的听觉系统中的毛细胞数量和布局,和人的视网膜有得一比。 但由于现有传感器设备的限制, 机器在模仿时都将采集到的声音最终简化成一条曲线似的信号。好处是,多媒体研究最开始着手的方向,就是数字音频处理。随着计算机处理能力的增强,才逐渐将研究重点转移到具有二维结构的数字图像上来。在 1995 年至本世纪初期,曾经有一段时间,计算机学科中一大半的研究生从事的研究方向都与数字图像处理密切相关。说不定,未来等量子计算机研制成功,基本的计算基元从二进制转成连续值后,也许得考虑量子语音处理、量子图像处理了。 撇开这段历史不表,因为声音是多源的、随时间变化的,当声音压缩变成一维的语音信号后,语音处理的难度便大了不少。 早期的语音处理研究是举步维艰的。曾记得 95 年左右的微软曾出过一版语音识别软件,识别的性能远低于期望,很快就被市场淡忘。当年在连续语音识别的主要方法,包括统计学领域 60 年代、后在 70 年代中期被挪到语音领域的隐马尔可夫模型, 和多个高斯分布组合的多元混合高斯模型。其中,隐马尔可夫模型假定了声音时间序列的前后时刻具有相关性,即马尔可夫过程。同时,假定这些相关性由一组隐含的变量控制。将这些性质构成网络后,便形成了隐马尔可夫模型。尽管模型结构有细微变化 ,但主体思想仍旧,曾在语音分析领域引领风骚数十年。一直到近年来的深度学习的出现,语音识别也由于预测性能的显著提高而随之走向全面实用化。 但实用化并不意味着听觉系统就完全被了解清楚了,里面仍有许多不明的机理,如听觉错觉。同时,语音识别本身也还存在一些目前难以解决的问题。第三,人类在说话以外,还发展了音乐这样独一无二的能力,尤其是唱歌。理解唱歌,对于理解智能体本身也是有帮助的。本节中,我将从此三方面展开介绍。 一、听觉错觉 听觉系统和视觉系统一样,虽然有效,但同样存在不少有意思的错觉。这些错觉既有来自听觉系统的,也有来自大脑生理或心理感受的,还有来自外部经过特殊设计诱导的。 来自听学系统的通常是功能性退化引起的。举例来说,当外界不存在声源输入时,而人又能感受到声音信息时,就是听觉系统本身出了问题,可大可小。比较常见的是耳鸣,一些神经官能症患者或神经衰弱的人会比较容易出现这种问题。它产生的原因,一直是众说纷纭,有认为是大脑听觉中枢存在问题所致,也有认为与传导声音的神经通道在无信号时的活动有关。后一观点里,比较有意思的一个研究成果是美国约翰 - 霍普金斯小组德怀特 • 彼格斯等最近做出的。他们在听力还没发育成熟的小鼠上进行了实验,发现耳鸣的发生可能与听觉系统早期阶段,非感觉性毛细胞,即支撑细胞有直接联系。他们认为,在听觉系统未成熟前,这些支撑细胞会本能释放 ATP 能量分子 ( 腺苷三磷酸 ) ,形成电信号输入大脑。这些电信号在发育初期听起来就象是噪声,可用于帮助听觉系统尽早做好准备。从我的感觉来看,这种准备就像听觉系统的自检,和人晚上睡觉偶尔会蹬腿是为了自检人是否还活着一个道理。而到长大以后,这种自检偶尔还会被触发。频率发生过高的则有可能形成持续性耳鸣的疾病。所以,了解耳鸣的形成机理也许有助于理解人听觉系统的早期发育。 除了这种耳鸣外,人甚至可以在不使用听觉系统时,也能感受到声音。比如, 你沉思的时候,那个在你脑袋里说话的声音,是谁发出的呢? 另一种错觉是人对声音美感的感知。它包括说话声和唱歌两种错觉。 在日常生活中,说话人错觉更为常见。人们总是对自己的声音比较满意,直到听到通过录音方式播放出来的声音后,才发现与自己以为听到的还有点差距,有时会觉得录音机里播出来的声音会更难听一些。其原因有两个,一是因为人在听自己声音的时候,声音是通过颅骨传至内耳再进入听觉中枢的。而其他人听到的声音,与录音机通过空气介质传播获得的相同。传播媒介不同,自然会有些差异。另一个原因可能是人类会习惯把自己的声音标定得更美好一些。在 2000 年两位心理学家 Dunning 和 Kruger 提出的、获得了《搞笑诺贝尔心理学奖》的达克效应 (Dunning-Kruger Effect) 可以部分解释这一现象。简单来说,人容易沉静在自我营造的虚幻优势之中,过高估计自己的能力,属于一种认知偏差。因此,人也会在大脑中自动地美化自己的声音。 二、语音识别及相关应用 抛去错觉不提,语音识别本身有许多细分和衍生的应用值得研究。应用面最宽的当数语音转换文字,可以是同一语种,也可以是跨语种。同语种的转换,在深度学习出来后,性能确实有了一个质的飞跃, 在识别性能和用于语音搜索方面都已经不是 90 年代可比拟的了。不过,现阶段的水平也并非完全能替代其它输入设备,仍存在一些无法有效解读的场景。以中文为例,汉字的数量超过 8 万个,常用的约 3500 个,但汉字重音率特别高,只有 1600 多个。两个数量相比,便可以知道中文语音转换文字的难度有多高。极端情况下,可以参考“中国现代语言学之父”赵元任( 1892.11.3 — 1982.2.24 )当年写过的三首诗,《施氏食狮史》、《熙戏犀》和《季姬击鸡记》。其中一首于 1930 年在美国写的《施氏食狮史》如下: 石室诗士施氏,嗜狮,誓食十狮。施氏时时适市视狮。十时,适十狮适市。是时,适施氏适市。施氏视是十狮,恃矢势,使是十狮逝世。氏拾是十狮尸,适石室。石室湿,氏使侍拭石室。石室拭,氏始试食是十狮尸。食时,始识是十狮尸,实十石狮尸。试释是事。 这段几乎完全同音的文字,机器目前仍很难根据语音将其转成有效文字的。如果通过目前正流行的知识图谱来对重音字进行辅助解释,也许可以部分解决这一问题,对于打字不方便的人来说,是比较好的选择。但对于熟悉打字的,引入知识图谱这样的操作会浪费大量不必要的时间。尤其像上例这种情况,知识图谱能做的是每个单字可能都需要做解释,显然还不如打字来得快 。 而跨语种的翻译,国内外都在做,也有一些小型配套硬件被推出,但离同声翻译的距离还很远,因此它不仅仅是语音识别的问题,还涉及到更复杂的自然语言处理,以及广泛的背景知识。 语音也可以用于人身份的识别。尽管不如识别人的外表如人脸那么形象直观,但仍然是重要的生物认证方式之一,在反电话诈骗也有潜在的应用。语音与视频结合还能实现计算机读唇语,这一技术对于听力有障碍且交流困难的人尤其是聋哑人将有所帮助。 三、歌唱识别 人类听觉系统除了用于交流、识别和警示外,还进化了一种可能只有人类才具有的高级智能,就是音乐,如独唱合唱、乐器独奏合奏等。其中,唱歌是最容易又是最难的“乐器”。因为随便谁都能唱,唱得好是“余音绕梁,三日不绝”,反之也可能会“呕哑嘲哳难为听”。与语音识别相比,歌唱的分析有更多的困难要克服,原因可以从两个方面来解释。 1 、与说话的区别 人在说语时多以声带振动来发声,音调、频率都在人最自然的发声区,偶尔有些人会用腹式呼吸来增强声音的厚度和减少声带的疲劳。即使情绪波动会影响发声,但一般变化 也不会太大。 而唱歌则需要比较多的技巧,有着与说话显著不同的特点。首先,唱歌的音域变化范围很宽。比如俄罗斯男歌手维塔斯能从最低音到最高音唱跨四个八度,最高的声音能跟开水壶烧开水发的声音一样高,非常的厉害。不过我也能,多啦米发嗦拉希多,重复五次,也有五个八度。其次,共鸣腔的运用上唱歌和讲话的区别也非常之大。比如唱歌时用的头部共鸣,有从鼻腔和后脑勺位置发声共鸣的区别,这两者导致的音色差别很大。要根据歌曲风格不同来取舍,老百姓常听到的美声唱法喜欢把头腔共鸣置后。如果留意看歌星唱歌,有些人唱高音的时候会挤眉弄眼,鼻子皱了起来,那其实就是在找高音共鸣的位置。为了歌曲表达的厚度,光靠头腔还不够,因为会比较单薄,还得利用胸腔共鸣加强中低音区的共鸣。如果想把音域再提高,还可以学习用咽音技巧来发声。而低音比如呼麦的唱法则要把气运到声带附近振动发声。第三,气息也是造成说话和唱歌区别变大的地方。歌曲中有些歌词特别长,只用平时说话那种比较浅的胸式呼吸往往很难保持旋律的稳定和连续性,所以需要借助胸腹式呼吸以及更复杂的换气技巧;第四,不像说话一般是四平八稳的,歌曲的节奏变化很丰富,一首歌里可能快慢缓急都会出现;第五,对歌词的理解和情感的投入也会使唱歌与说话有显著的差别;第六,连读问题。中文歌词相对好一些,但英文在唱歌中的连读就多得多了。 关于唱歌和说话,人们可能还会有个错觉,以为口吃的人唱歌一定唱不好。但实际上这两者属于不同的发声机制。说话是需要思考要讲的内容,并进行语言组织,再说出来。而唱歌通常是歌曲的语调、语速和语气都已经给定,人需要做的是将这些内容经过反复练习后复述即可。所以,口吃的人可以,试着通过学习唱歌来找到流利发声的自信。 唱歌和说话的这些区别,使得唱歌中的语音识别变得尤其困难,但因此也衍生了更多的与语音和智能相关的应用。 2 、如何评价歌曲的美 唱歌对多数人来说,是缓解心情的方式之一。听到喜欢的歌,学来便唱了。可是唱得好不好呢?很多人并不太清楚,对自己的歌声也比较“自信” ,我也是如此 。另外, 什么样的歌才可以定义为好听的歌曲呢? 音乐里面定义好听与否,有个与频率 f 相关的通用法则。这是日本著名物理学家武者利光于 1965 年在应用物理学会杂志发表的文章“生物信息和 1/f 起伏”中提出的 1/ f 波动原则。波动或起伏指在某个物理量在宏观平均值附近的随机变化,其原则在很多领域都适用。就音乐来说, 1/f 表明旋律在局部可以呈现无序状态,而在宏观上具有某种相关性的,可以让人感到舒适和谐的波动。如邓丽君的《甜蜜蜜》、《小城故事》等就是符合 1/f 波动原则的曲子,所以大家很喜欢听。但这一理论只适用解释比较舒缓的歌曲。对于其它形式的音乐风格,如摇滚、说唱等,则是因为其蕴含的律动能帮助人宣泄和抒发心情有关 。更有甚者,还有完全背离 1/f 波动原则的歌曲,如甲壳虫乐队 (The Beatle) 主唱约翰·列侬老婆小野洋子 (Yoko Ono) 在纽约的现代艺术博物馆演唱的、几乎接近噪声的实验歌曲《 Fireworks 》(原唱 Katy Perry )。当然,国内也有类似的,有兴趣的不妨听听左小祖咒的《六枝花》。 为帮助评估音乐是否好听,科学家们还提出了一些心理声学的定性和定量指标,如基于粗糙度、尖锐度、波动度和音调等声学特征组合构成的“烦恼度”和“感知愉悦度”等复合声学指标。但不管如何约定,声音的感知仍是以个体的主观感受为评价,公众认同的并不见得能用于刻画小众的审美观点 。有人喜欢粗犷低沉的声音,有人喜欢清澈如水的,有人喜欢嘹亮的,有人喜欢委婉的,有人喜欢稀奇古怪的,有人喜欢平铺直叙,有人喜欢口水歌,有人喜欢阳春白雪。音乐风格的多样性和个性化色彩的浓郁,使得人工智能很难真正地形成统一的客观标准来替代这一领域的工作。 3 、歌曲 / 歌唱的相关应用 虽然歌曲 / 歌唱的分析显然比单纯的语音识别复杂、难度高,但在人工智能领域还是有一些相关的应用。这里列举几个比较有应用价值的。一是歌曲哼唱识别,这是目前多数提供音乐的平台有或者正在尝试做的一项功能。其任务是要根据局部片段的旋律,来识别可能的曲子。难点在于,并非每个人都能准确地把旋律哼出来。多数采用这种方式找曲子的,原因可能是不记得歌名,或者只是一段遥远的旋律记忆。其次,人的发音频率、说话的清晰度和原唱都有一定的差异。所以,哼唱识别的任务是要从不精确的哼唱中找到有效的候选集。 除了哼唱,另一个重要的应用是自动调音。一是因为很少有人能具有绝对音高的能力,即使经过专业训练,仍然可能不稳。二是多数人的音准和稳定性是存在问题的。而喜爱唱歌的人又多,所以,自动调音对于专业歌手和业余爱好者都有很大的应用市场。但由于音乐的风格往往千变万化,而且还要学习和增强每个人特有的辨识度和个性化音色,所以,利用人工智能技术构造自动调音师的难度显而易见。 另外,音乐声与人声分离也是一个极其重要的研究方向。人类在这方面的能力非常强,可以在非常嘈杂的环境中轻松选择自己关注的声音来聆听。 1953 年 Cherry 将人类听觉注意引发的这一现象称为鸡尾酒会效应 (Cocktail Party Effect) 。虽然这一问题提出了半个多世纪,人工智能要实现和人相近的辨识能力还很难。因为获取的音频信号一般是经过多个声源混合而成的一维的音频信号,但要分离出原来的多个信号源是一对多的病态问题。在人工智能领域通常会假定这些信息源是相互独立的,且不符合之前提过的高斯分布,输出结果为这些信息源的加权组合。信息源的分离,又称为盲源分离,早先的做法是利用机器学习和模式识别领域的独立分量分析 (Independent Component Analysis) 的技术或其改进版来实现,但这一方法的不足是收敛速度慢,且难以获得唯一解。最近深度学习在这一方向上也有了长足的进步。如“谷歌研究” 2018 年八月在图形学顶级期刊 ACM ToG 上公布的最新成果。作者 Ephrat 等将音 视频结 合起来,分 别对视频和音频采用两个深度学习模型提取各自特征。 融合特征后,再用一个考虑时间变化的长短时记忆深度模型 LSTM 来刻画音视频的时序特性,最后为每个说话者都采用两个不同的解码系统来分离音频和视频。该模型达到了目前的最佳效果,离模拟人类的鸡尾酒会效应又进了一步。但其仍存在一些不足,主要有两点。一是需要借助视频,所以,人脸必须出现在画面里帮助定位声音源,这与人在鸡尾酒会上并不需要视觉的帮助来定位相比还是要弱不少。其次,该研究还没有涉及歌声和乐器声分离这一类更难的问题。 � 图 3 : (a) 输入的视频帧与音频; (b) 处理思路:分别提取视频、音频特征,并执行音视频源分离; (c): 为每个说话者输出干净的音频 当然,基于人工智能的音乐分析还有很多其他有意思的应用,如计算机作曲 / 写歌词、设计像洛天依一样的唱歌机器人等等。但总体来看,人类作者写出的歌词、旋律的意境往往具有更好的整体性和更强的逻辑性,而计算机模拟的目前还只能做到局部逼近,在大局观、整体情绪情感的把握上仍然任重道远,也许现阶段考虑与人的混合智能处理是不错的尝试。 那么,音乐中还有没有其他比较有意思的错觉呢?下回书表! 参考文献: 1. Ariel Ephrat, Inbar Mosseri, Oran Lang, Tali Dekel, Kevin Wilson, Avinatan Hassidim, William T. Freeman, Michael Rubinstein. Looking to Listen at the Cocktail Party: A Speaker-Independent Audio-Visual Model for Speech Separation. ACM Trans. Graph. 37(4): 112:1-112:11, Aug, 2018. arXiv:1804.03619v2 张军平 2018 年 10 月 22 日 延伸阅读: 14. 爱犯错的智能体 – 视觉篇(十一):主观时间与运动错觉 13. 爱犯错的智能体 -- 视觉篇(十):自举的视觉与心智 12. 爱犯错的智能体 -- 视觉篇(九): 抽象的颜色 11. 爱犯错的智能体--视觉篇(八):由粗到细、大范围优先的视觉 10. 爱犯错的智能体 -- 视觉篇(七):眼中的黎曼流形 9. 爱犯错的智能体--视觉篇(六):外国的月亮比较圆? 8、 爱犯错的智能体 - 视觉篇(五):火星人脸的阴影 7、 爱犯错的智能体 - 视觉篇(四):看得见的斑点狗 6、 爱犯错的智能体 - 视觉篇 (三):看不见的萨摩耶 5、 爱犯错的智能体 - 视觉篇 (二):颠倒的视界 4、 爱犯错的智能体 - 视觉篇(一): 视觉倒像 3、 AI版“双手互搏”有多牛? 浅谈对抗性神经网络 2、 童话(同化)世界的人工智能 1、 深度学习,你就是那位116岁的长寿老奶奶! 张军平,复旦大学计算机科学技术学院,教授、博士生导师,中国自动化学会混合智能专委会副主任。主要研究方向包括人工智能、机器学习、图像处理、生物认证及智能交通。至今发表论文近100篇,其中IEEE Transactions系列18篇,包括IEEE TPAMI, TNNLS, ToC, TITS, TAC等。学术谷歌引用2700余次,ESI高被引一篇,H指数27.
7996 次阅读|4 个评论
爱犯错的智能体 – 视觉篇(十一):主观时间与运动错觉
热度 4 heruspex 2018-10-18 08:30
混沌初开,乾坤始奠。气之轻清上浮者为天,气之重浊下凝者为地。 这是明末的启蒙书《幼学琼林》中的开篇,它揣测了空间和时间的开始状态。其中乾坤意指天地和阴阳,而阴阳的解读是时间。所谓“天干,犹木之干,强而为阳;地支,犹木之枝,弱而为阴”,(十)天干(十二)地支是古代纪年历法的组成,在殷墟的甲骨文就有记载。 我们现在常说的宇宙,和乾坤是同义的。宇指上下四方,是空间。宙指古往今来,是时间,联起来就是空时。不过这么说比较拗口,所以人们一般认为宇宙字面上是对应时空。 空间是客观存在的,人的视觉却是主观的,所以人的能动性在增强对空间感知能力的同时,会产生错觉。时间也是客观存在的,且是单向的,目前一直在向前。不过在爱因斯坦的狭义相对论里,时间并非是完全孤立的变量。按其公式推算,当飞船以近光速的速度进行星际旅行时,飞船上的时间会变慢。所以,才会有 双生子佯谬 ,因为时间并非绝对的,它受运动速度的影响。不仅如此,人也会对时间产生主观的感受。成语中有“度日如年”的描述,这在课堂上听不懂老师讲课内容时尤为常见,我在中学时代对此感受颇深。 图 1 双生子佯谬 时间的主观感受不仅会让时间变“慢”,也可能会产生“逆向”的时间错觉。因为运动与时间的变化相关,时间感受的主观性又直接影响了对运动的感受 , 形成了运动错觉,它直接影响了智能体对世界的某些感知。 一、运动错觉 运动错觉常指“在一定条件下将客观静止的物体看成运动的错觉”,但更广义来看,它包含了时间主观感觉引发的错觉。因此,这类错觉既有源自静止目标的,也有源自运动目标的运动错觉。从文献来看,前者又可细分为四种错觉:动景运动 、自主运动、诱导运动和运动后效 。 动景运动 与人的视觉暂留现象 (Persistence of vision)有关,也称为“余晖效应”,是1824年由英国伦敦大学教授皮特 • 马克 • 罗葛特在《移动物体的视觉暂留现象》中最早提出的。如其它错觉一样,“视觉暂留”的内在机理,是以大脑为中心还是以眼睛为中心产生的,并没有得到统一的结论。但其现象大致可以描述成,人眼在观察物体时,光信号在传入大脑视觉中枢时,需要经过一个短暂的时间。而在光信号结束后,由于视神经的反应速度和惰性,视觉形象并不会马上消失,而是会继续在时间轴上延长存储一段时间。这种残留的视觉称为“后像”,而这个现象则称为“视觉暂留”。 图 2: 走马灯图例(网图) 它在很多场合都有着有意思或重要的应用。最早有记载的是宋代的走马灯。据说当年王安石在科场上对主考官出的联“飞虎旗,旗飞虎,旗卷虎藏身”,便是以其在马员外门口看到的联“走马灯,灯走马,灯熄马停步”来应对的,最终还因此取了马员外的女儿,情场考场双得意。如今我们看的电影和动画,都与视觉暂留现象有关。虽然每张胶片的内容都是固定不变的,但人在观察画或物体后,在 0.1-0.4秒内不会消失。于是通过三十帧每秒的连续播放,视觉暂留现象会让人对电影的内容产生了 动景运动 的错觉,形成连续性变化的感知。 据说,人在谋杀后,眼睛瞳孔会留下凶手的影子。去年日本某公司还基于这一假设对监控录像中的人眼瞳孔图像进行放大、锐化处理,以提取受害人或路人看到的画面,并从中提取犯罪嫌疑人的形象,或车牌号码等信息。 除了动景运动的错觉,人在注视目标过久时,会因为机体无法长期保持同一姿态而产生不由自主的运动,尤其是眼球的细微运动。而这种运动会被反映到视网膜上,让视觉中枢错以为是目标在运动,称为 自主运动 。比如在黑暗的密室玩恐怖解谜游戏的时候,长时间盯着某个带亮光的物体时如蜡烛的烛光,有可能就会产生物体在移动的错觉。因而,无形中增加了游戏的恐惧感。当然,要解决这一恐惧的关键也很简单,换下关注的目标,或增加参照物即可。 既然生活在物理世界,人的视觉也会受运动的相对性影响,而形成 诱导运动 。比如停在车站的两辆高铁。人坐在其中一辆里,明明自己的车开了,却会以为是另一辆仍停着的车开动了。这种相对性是受周边环境的运动诱导而形成的。如果焦点随运动的物体同步变化,另一个静止的就会被误以为在运动。中国古代的禅宗六祖慧能的故事中,更是把对这一现象的理解做了升华: 一天, 风扬起寺庙的旗幡,两个和尚在争论到底是“风动”还是“幡动”?慧能说:“既非风动,亦非幡动,仁者心动耳。” 图 3 风动还是幡动?(网图) 另外,当目标进行高速运动时,人的视觉会对运动的状态产生错误判断,即形成运动停滞甚至反转的 运动后效 错觉。如观察飞行中直升飞机的旋翼,会感觉每片叶子都能看清楚,且在慢慢地反向转动。 现在有些做机器制图的机器臂,高速状态也能达到类似的效果。 不仅会出现运动后效,人的视觉或感知系统有时候还能主导运动的方向。最近网上流行的一个旋转舞者的雕像动图就是这样的例子,如图 4。稍做学习,你就能做到任意控制其旋转的方向。这种 循环错觉 应该是来源于选择关注点前后次序的策略(窍门:盯不同脚会产生不同的旋转方向),也可以理解成主观时间先后顺序选择的结果。 图 4 旋转的跳舞舞者 除了这些错误外,当对具有特殊结构的运动目标进行遮挡时,会形成 遮挡错觉, 导致对运动目标的整体结构或方向产生错误判断。值得指出的是,这种一叶障目的错觉不止是视觉上会出现,在人工智能的很多应用中都可能碰到。比如现在流行的智能城市的交通控制,如果只对一个路口进行交通流量优化,很有可能当前路口的通畅会导致更大范围的拥堵。 还有一个比较有意思的错觉,是关注点集中时产生的 光流错觉 。飞行员在驾驶飞机降落时,需要寻找着陆跑道。当其以着陆点为焦点来调整飞机航向时,着陆点会静止不动,而周围环境则会产生长度不一但有规律的光影。就像拍运动照片时,镜头跟随跑步中的运动员同步拍摄时,运动员会保持清晰成像,而周围影像产生同方向的光影一样。这种光流错觉可以帮助飞行员准确的确定飞机的着陆位置。 当然,可列举的运动错觉还有很多,如图 5中目标边缘形成的边缘运动错觉、据说能测试人的精神状态的“旋转”的圆盘、扭曲的圆点阵列等等,就不一一枚举了。但不管是哪种,错觉都与人视觉中枢理解的“时间和空间”与客观的“时间和空间”存在错位有密切关系,也与每个人先前习得的经验有关。在多数情况,大脑对信息的加工处理都是合理、有效的,但在输入信息出现特殊结构,则可能出现反常感知或被误导,形成运动错觉。 图 5 其他错觉图( www.psychspace.com ) 那么,这些错觉有没有可能让机器学习或进行有效分类了?如果能做到,也许对人工智能和机器视觉模仿和理解人的视觉处理能力上会有巨大的帮助。 2018年10月,位于美国肯塔基的Louisville大学的Robert Williams和Roman Yampolskiy报告了他们的尝试结果 。他们构造了一个超过6000张光学错觉图像的数据集,期望通过深度网络来实现有效分类和生成一些有意思的视觉错觉图。不过很遗憾,在显卡Nvidia Tesla K80训练了7小时的实验并没有带来任何有价值的信息。尽管深度学习要求的硬件算力已经没有问题了,但对这个任务的学习性能远不如现在的上千万级数据规模的人脸识别和图像检索理想。他们推测,一个可能的原因是能找到的光学幻觉/错觉照片少,如果再细分类别就更少了,在小样本意义下的深度学习可能不是太有效。另一个可能的原因是现有的机器还不能完全理解为什么会有这些错觉,因此要通过如生成对抗网生成新的光学幻觉/错觉也很难。这也许是机器视觉还不能征服的人类视觉的堡垒之一 。 二、时空/时频不确定性 时空的主观感受可以引起各种感知上的错觉。事实上,不论是客观还是主观,时空之间都存在某种关联,而对这一关联性的极致解释是海森堡于 1927年提出的不确定性原理(Uncertainty principle)或“测不准原理”。粗略来讲,即粒子的位置与动量不可同时被确定。前者与空间有关,后者与时间有关。在这两个不同域里,一个域的参数越确定,另一个域的参数不确定的程度就越大。 巧合的是,在人工智能领域,有三个重要的理论也能看到这种不确定性的影子。 最早思考这种关联 性的是远在 1807年的数学家傅里 叶。他提出了一个当时匪夷所思的概念,即 任何连续周期信号可以由一组适当的正弦(即三角函数)曲线组合而成, 称为傅里叶变换。这个时频变换的理论,对当时数学界的震憾一点也不亚于对欧几里得第五公设的推翻。不过,后来逐渐揭示的事实让大家都明白了,这种加权组合的傅里叶变换是合理的。该论文经过不少波折,最终收录在 1822年发表的《热的解析理论》中。在傅里叶变换中,不同周期的三角函数可以视为在频率意义的基函数,就象三维空间中的长、宽、高一样。通过傅里叶变换后,样本在时间中的描述就转变成频率空间不同频率分量的幅度大小。 图 6 傅里叶变换: 任何连续周期信号 (如最下方的曲线)可以由一组适当的正弦(即三角函数)曲线(上方的四条曲线)组合而成 尽管在二百年前已被提出,但真正用于人工智能相关领域还是在数字语音、数字图像出现以后。科学家们发现了很多在原来的时间 /空间域下不能很好解决的问题,比如周期噪声的去噪、图像/视频压缩等, 通过傅里叶变换转到空间后,在频率意义下却能轻松处理和实现性能的有效提升。 后来,科学家们又发现只将空间或时间域信号转换至频率空间,而不去深究频率的高度和宽度似乎有些粗糙,于是又对频率域引入了多尺度的变化,便有了小波变换这一理论体系。直观来说,小波变换在频率的取值上,就像音乐中的五线谱,有些频率可以取二分音符,有些能取四分,有些能取十六分音符,如此这般,而傅里叶变换只是简单的给定了音调,但却把所有音调的长度都设为固定不变。小波变换这种多尺度的技术用于刻画自然图像或其他数据时,较傅里叶变换有了更精细的频率表达,这一技术也被用于构成了 JPEG2000的图像压缩标准。 在傅里叶变换和小波变换的发展中,科学家们也发现了一个现象,原时间 /空间域的信号间隔越宽时,对应的频率域信号间隔会越稠密,反之亦然。两者呈现类似于海森堡不确定性原理的对立。 图 7 海森堡不确定原理在傅里叶、小波中的体现 :左:图像的时频特性;中:傅里叶变换的时频特性;右:小波的时频特性。从图中可以看出时间和频率之间的平衡。图像上的每个像素点在吸收全部频率在给定时间上获得的值;傅里叶变换是在给定频率,将全部时间的值累积的结果;而小波则反应了两者的折衷,时间窗口宽,则频率窄,反之亦然。 基于这个观察,科学家们推测如果要提高人工智域很关心的可解释性,最直观的策略是将原空间的数据变换至一个能让特征数量变得极其稀疏的空间。但天下没有免费的午餐,有稀疏必然意味着在某个地方付出稠密的代价。这就是在 2000年左右提出的压缩传感(Compressive Sensing)或稀疏学习理论的主要思想。值得一提的是,完善压缩传感理论的贡献人之一是据说智商高达160、拿过菲尔兹奖的华裔数学家陶哲轩。该理论最有意思的一点就是把基函数变成了一个如高斯分布形成的随机噪声矩阵,在这个矩阵里,每个点的分布是随机、无规律的,因而可以视为稠密的。通过这样的处理,一大批压缩传感或稀疏学习方法被提出,并获得了不错的稀疏解。 不管采用哪种方法,傅里叶、小波还是稀疏学习,都能看出类似于时间换空间、两者不可能同时完美的影子。这种情况可以视为人工智能领域在时空 /时频意义下的“海森堡(Heisenberg)不确定原理”。 最近十年的人工智能研究非常关心预测性能的提升,但也希望能获得好的可解释性,如通过深度网络获得相应任务的学习表示 (Learning Representation)。这也是近几年出现的深度网络主流会议,把会议名字约定为国际学习表示会议ICLR(International Conference on Learning Representation)而非深度学习会议的初衷之一。 但是否能学到有效的学习表示,能否从运动错觉中找到可能的线索或答案,能否在类似于海森堡不确定原理的框架下发展新的理论算法、发现智能体的秘密,是值得思考的。 参考文献: 1、 张天蓉 .读懂相对论,著名的双生子佯谬到底有几个意思. http://chuansong.me/n/1603989 2、 黄希庭.心理学导论.北京:人民教育出版社, 2007:255-259 3、 Robert Max Williams,Roman V.Yampolskiy.Optical Illusions Images Dataset.axiv: 1810.00415,Oct, 2018 4、 Gonzalez R. C., Woods E. R., Digital Image Processing (Third Edition). 2017. 电子工业出版社 张军平 2018年10月18日 延伸阅读: 13. 爱犯错的智能体 -- 视觉篇(十):自举的视觉与心智 12. 爱犯错的智能体 -- 视觉篇(九): 抽象的颜色 11. 爱犯错的智能体--视觉篇(八):由粗到细、大范围优先的视觉 10. 爱犯错的智能体 -- 视觉篇(七):眼中的黎曼流形 9. 爱犯错的智能体--视觉篇(六):外国的月亮比较圆? 8、 爱犯错的智能体 - 视觉篇(五):火星人脸的阴影 7、 爱犯错的智能体 - 视觉篇(四):看得见的斑点狗 6、 爱犯错的智能体 - 视觉篇 (三):看不见的萨摩耶 5、 爱犯错的智能体 - 视觉篇 (二):颠倒的视界 4、 爱犯错的智能体 - 视觉篇(一): 视觉倒像 3、 AI版“双手互搏”有多牛? 浅谈对抗性神经网络 2、 童话(同化)世界的人工智能 1、 深度学习,你就是那位116岁的长寿老奶奶! 张军平,复旦大学计算机科学技术学院,教授、博士生导师,中国自动化学会混合智能专委会副主任。主要研究方向包括人工智能、机器学习、图像处理、生物认证及智能交通。至今发表论文近100篇,其中IEEE Transactions系列18篇,包括IEEE TPAMI, TNNLS, ToC, TITS, TAC等。学术谷歌引用2700余次,ESI高被引一篇,H指数27.
10344 次阅读|8 个评论
爱犯错的智能体 -- 视觉篇(十):自举的视觉与心智
热度 1 heruspex 2018-10-12 09:14
一个鼻子又高又长的小个子干瘦老头,倚着一块石头坐着。他眼睛看着欢腾跳动的火舌,讲起了人们从来没有听到过的奇妙故事。听他讲故事的人,不时笑得前仰后合。   “敏豪生,可真行啊,奇事都让你遇上了!” 但是敏豪生不在乎大家信不信他讲的,等笑声一停,他又接着讲下去。。。 图 1 敏豪生抓着自己的头发把马和自己从泥沼里拔出来 抓着自己的头发从泥沼里拔出来   一次,我们受到凶猛追击。我决定骑马穿过沼泽地。然而,我的马匹跑得太累了,本来可以跳过沼泽泥淖的,这会儿却没能跳过去,噗的一声落入泥淖中,陷在里头,动弹不得了。   身下的马带着我往下沉。我那匹马的肚皮已经陷在污泥里了。不能指望谁来拉我们出去。泥淖把我们越来越深地往下吸、往下拉。危险极了,可怕极了。眼看马整个儿陷进了险恶的泥淖,很快,我的头也开始埋进沼泽的污泥之中。只有我的这顶军官帽还露在泥淖上面。   看来我们是没救了,我们必死无疑。还好,我急中生智,一下想起我的双手有惊人的力量。我一把抓起我自己的头发,用尽全身的力气把自己往上拽。我毫不费力地把自己从泥淖中拔了出来,而且顺带还把我的马也往上拽。我的双腿铁钩一般的强有力,把马肚拨了出来。 这可不是如你们所想象的那样,是一件轻而易举的事哟!要不信,你们倒是自个儿试试,看能不能抓住自己的头发一下就把自己提向空中。 ----摘自《敏豪生奇遇记》 ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ 《敏豪生奇游记》原为德国民间故事,又名《吹牛大王历险记》,后由德国埃•拉斯伯和戈•毕尔格两位作家再创作而成。这则故事传递了一个概念,叫“自举”,能找到的对应英文名是“ Bootstrap”,意思是 “to pull oneself up by one’s bootstrap”, 白话就是“拨鞋法”。在这个故事里,敏豪通过“自举”逃出了沼泽,安全地进入了下一个吹牛环节。看似挺荒谬的情节,那在智能体和人工智能领域有没有类似的存在呢? 一、自举的视觉 要用到自举,无非是自身的能力受限,才得想办法扩展。人的视觉就是如此,在很多方面不是那么尽如人意的。它不如鹰的眼睛那么敏锐、能在运动状态下从 10公里的高空及时发现草丛里的猎物,也不如蜜蜂能区分紫外线波段白色花的差异,也不能像响尾蛇一样感受红外端的热能。 不过人也有一些奇特的感知能力,比如传说中的“第三只眼”、“背后的眼睛”,有科学家将其称为盲视,即身体上的其它感观系统感受到了周边潜在的变化,却没有经过视皮层的脑区进行加工产生的下意识反应,但人会“以为”自己看到了。尤其是女性,可能冷不盯会觉得背后有人在看她,而且经常发现感觉是对的,这说不定就与“盲视”有关。世界著名的漫画书《丁丁历险记》之《蓝莲花》也描绘过这种“盲视”的情形,见图 1。当然,这些“盲视”的情况也可能是心理作用引起的,目前并无定论。 图 2 杜邦、杜帮和丁丁在1937年左右的上海街头(取自《丁丁历险记》之《蓝莲花》) 不管是否有神奇能力,人的视觉有很多不足。在光的强度上只能感受 10的2次方的变化,而自然界的光强是从10的负4次方到10的6次方,近10的10次方量级的变化。于是,人的视觉多了个“亮度自适应”的自举功能。这是人最常用的能力。比如走进电影院时,开始一片漆黑,过了一段时间,人的眼睛逐渐适应了,便能看清楚周边的环境了。更严格地话,这一能力可用图3来说明。 图 3 亮度自适应:白昼视觉与夜视觉 。横坐标:光强的对数;纵坐标:主观亮度 图中横坐标是光强的对数,即 10个数量级;纵坐标反应了人眼的适应能力以及主观感受的亮度变化。白昼视觉(Photopic)的感光范围从10的负2次方到10的4次方,夜昼视觉从10的负6次方到10的0次方。人的视觉可在给定Ba的强度值时,在Bb的正负区间内形成感光,但可以根据Ba的变化来进行自适应。一旦到了夜视觉(Scotopic)区间时,视力会按夜视觉的曲线来感知环境。 人类亮度自适应的机理是什么呢?它和猫通过自动调节瞳孔的大小来适应不同的光照变化的机理不同,是通过后端的视神经元的分工协作来实现的。白昼视觉主要由光线落在视网膜焦点、即中央凹处的视锥细胞完成,夜视觉则由主要分布在中央凹以外的视杆细胞来实现。 别小看这点自适应,现在的图像处理在处理光强差异大的场景时仍然是一筹莫展。比如白天,各位不妨拿手机从室内拍下室外的场景,看看是否能保证室内室外都能成像清晰,明暗分明?再比如,在地下停车场的外面,摄像头是否能把停车场里外都同时监测? 当然,这种自适应有时候也会带来风险。比如在晚上开车,突然对面过了一辆开着远光灯的车,那么驾驶员在视觉上会直接被误导到白昼视觉,而无法看清黑暗环境里的人或其他目标。这种“瞬间致盲”极易导致交通意外的发生。 除此以外,人的视觉对边缘的反应也有自举的表现。图 4左图是一组光的强度按宽度逐渐变化构成的。将其强度的柱状图画出来,就象一组台阶。然而,有实验表明,人在感知时,会在两个相邻的强度级的连接处产生“感受到”的向上和向下的强度变化,称之为“马赫效应”,可以称其为伪边缘。这种伪边缘的出现,可拉开相邻目标或前景、背景之间的差异,使轮廓会变得更清晰,继而能帮助人类更好地区分目标和背景或其他目标。 图 4 左图:马赫效应 ;右图:牙齿X光片(网图) 然而,马赫效应形成的伪边缘有时候也能产生错觉。比如这张戴着牙套的牙齿 X光片,如果不熟悉牙齿的基本构造,一个刚上岗的X片读片员很容易以为这些牙齿都出现了断裂,因为每颗牙齿上都有两种不同的灰度。而这种断裂就是马赫效应形成的错觉。其真正的原因是牙齿包含牙釉质和牙本质,两者的密度不同,因而X光通过后,会在感光片上形成不同的光强值,相邻、有差异的光强值会诱导出伪边缘现象,导致经验不足的医生产生误判。 不仅相邻黑、白、灰度的差异会形成边缘错觉,相邻亮度、颜色的对比还会形成对亮度和色彩的判断错觉,如图 5所示。图像处理领域将其称为“同时对比”现象,也有些领域将其称为“色彩错觉”。其原因在于人的视觉系统易受周围环境色彩的影响,在色彩对比因素存在的前提下,对关注的色彩或灰度产生深浅不一的错觉。从某种意义来讲,这种错觉可能为了提升人对所关注目标的显著程度而形成的。不过,负面效果就是不容易形成统一的色视觉判定结论,因为人的色彩视觉是主观而非客观的,比如图6中的衣服颜色就曾经引起过很多人的讨论。 图 5 同时对比现象:左:灰度图的同时对比;右:彩色图的同时对比 图 6 衣服是什么条纹的?黑蓝、黄白还是其他? 二、自举的人工智能方法 人类的视觉系统能通过自举来提高感知外部世界的能力,那么人工智能中有没有类似的机制呢? 从现有的理论体系来看,在数据的分布存在自举式模拟,分布加权以及数据不足时也存在自举的办法,但这些都与视觉中的自举大相径庭。具体如下: 1、 数据分布的自举 实现人工智能的一个必要步骤是学习,从数据中学习。但数据的分布是什么样的?并非一开始就明了。所以,一般会假设数据服从某个分布。比如像许愿池中扔的硬币一样,如图7,中间密周边逐渐稀少,这就是传说中的、人工智能领域最常用的高斯分布,因为他能极大方便后面的各种处理。 可是分布是多种多样的,也并非所有情况下,分布都能精确且事先知道。但做数据分析或设计人工智能算法时又需要有分布的形式,于是科学家们就设计了一种自举的技术去逼近真实的分布。粗略来说,就像玩扑克牌一样,每次抽玩牌再放回去。在给定了牌 /数据的前提下,通过对牌/数据进行反复的抽样,每次都有放回的抽一组和原始牌/数据数量相同的数据,获得的数据集称为自举或再抽样样本集。 重复这一自举方式,通过分析其稳定性,就能比较好地逼近数据的真实分布。这是数据分布的自举 ,称为Bootstrap方法,最初由美国斯坦福大学统计学教授Efron在1977年提出,为小样本或小数据量来增广样本提供了好的办法。在此基础上,后来发展了大量的改进型“自举”方法,都是期望能更好地从局部推测总体的分布。 图 7 左:掷硬币掷出的高斯分布;右:《赌侠》剧照 2、基于数据分布加权的自举 另一个自举是针对分类任务的,比如识别张三和李四的人脸图像。传统的方法往往假定每张图像或数据在分布中是等权重的。这种假设的不足在于,不容易区分容易分错的数据。于是1995年Yoav Freund就提出了Boosting算法, 通过同时组合多个较弱分类能力的分类器来改进分类性能 。1996年在此基础上Freund和Schapire提出了当年红遍机器学习及相关领域的Adaboost算法 。基于多个弱分类器的集成,该算法实现了优异的预测性能。在此背后,一个最重要的原因就是他会根据每个弱分类器的预测情况, 对容易分错的样本给予更高的权重,从而确保其在下一轮采样时更容易出现或被采集到 ,直到获得精确的预测结果。这个针对数据错分的自举,最终成为了机器学习最成功且实用的经典算法之一。至于其在分类能力上成功的机理,尽管机器学习的著名期刊JMLR(Journal of Machine Learning Research)曾有一批学者来进行多角度的分析,真实和公认的原因仍未知。但其受到了自举的启发是毋庸置疑的。 3、数据不足的对抗自举 近年来,为了能进一步提高深度网络的性能,Ian Goodfellow2014年提出了生成式对抗网络 。一经提出,很快就成为人工智能领域研究者的主要研发工具之一。如果仔细审视,可以发现,其通过网络内部对抗器和判别器的反复博弈生成大量“虚拟样本”的思路,也能视为是一种自举。 比较好玩的是,在取得异常好的性能的同时,这种自举式的网络和其他深度网络似乎都比较容易被攻击。据报道,对于图像识别任务,一两个像素的改变或引入随机噪声所构成的对抗样本就能导致网络产生错误识别,如图 8。这多少有点像自举的视觉,会存在“同时对比”这种容易误导视觉判断的现象。毕竟没有什么系统可能是十全十美的,总会有例外。只是我们还不太清楚,这是否仅是稀少的例外,还是会变“黑天鹅”的意外。 图 8 易受攻击的深度网络:熊猫上叠加随机噪声,尽管视觉上仍能察觉是熊猫的图像,但深度网络却会高置信度地将其识别为长臂猿 。 三、自举的心智 人工智能的终极目标是期望能模拟人类的智能,所以,自举的心智也是值得研究的,因为它意味着人能在受限的条件下极大地提高自身的能力。这有点像俗话所说的“走出自己的舒适圈”,也像 90年代曾风靡内地的某培训学校的口号“挑战极限”。 关于这一点, 20世纪初期 哲学家怀海德曾在其 1929 年出版的、形而上学或“过程哲学”经典书籍《 Process and Reality 》(过程与实在)中指出, 人的认知、社会的认知最终可以上升到一种自我成长、自我成熟的阶段,正如宇宙和自然的演化,这可以视为更广义的自举。 而经济学家默顿 · 米勒提出的默顿定律 (Merton Laws) 认为,人最理想的状态是自我预言,自我实习。举个不恰当的例子,据说杨振宁约 12 岁时,就看爱物理书。有次他从艾迪顿的《神秘的宇宙》里读到了一些新的物理学现象与理论,便表现了极大的兴趣。回家后就跟父母开玩笑说,将来要拿诺贝尔奖。结果梦想真的实现了。这就是默顿定律的体现,是一种自我预言、自我激励、自我实现, 也是一种自举的表现。 如果把自举的机制理解清楚了,尤其是视觉和心智方面的,也许我们就能找到构造自我发育、自我强化的人工智能体的办法了。 参考文献: 1. Gonzalez R. C., Woods E. R., Digital Image Processing (Third Edition). 2017. 电 子工 业 出版社 2. Freund, Y. (1995). Boosting a weak learning algorithm by majority. Inform. and Comput. 121 256–285. 3. Freund, Y. and Schapire, R. (1996a). Game theory, on-line prediction and boosting. In Proceedings of the Ninth Annual Conference on Computational Learning Theory 325–332. 4. Freund, Y. and Schapire, R. E. (1996b). Experiments with a new boosting algorithm. In Machine Learning: Proceedings of the Thirteenth International Conference 148–156. Morgan Kaufman, San Francisco. 5. Goodfellow I., Pouget-Abadie J., Mirza M., Xu B., Warde-Farley D., Ozair S., Courville A., Bengio Y. Generative adversarial nets. In NIPS 2014. 6. Goodfellow I., Shlens J. Szegedy C. Explaining and Harnessing Adversarial Examples. ArXiv: 1412.6572. 2015. 7. Whitehead, A.N. Process and Reality. An Essay in Cosmology. Gifford Lectures Delivered in the University of Edinburgh During the Session 1927–1928, Macmillan, New York, Cambridge University Press, Cambridge UK,1929. 张军 平 2018 年 10 月 12 日 延伸阅读: 12. 爱犯错的智能体 -- 视觉篇(九): 抽象的颜色 11. 爱犯错的智能体--视觉篇(八):由粗到细、大范围优先的视觉 10. 爱犯错的智能体 -- 视觉篇(七):眼中的黎曼流形 9. 爱犯错的智能体--视觉篇(六):外国的月亮比较圆? 8、 爱犯错的智能体 - 视觉篇(五):火星人脸的阴影 7、 爱犯错的智能体 - 视觉篇(四):看得见的斑点狗 6、 爱犯错的智能体 - 视觉篇 (三):看不见的萨摩耶 5、 爱犯错的智能体 - 视觉篇 (二):颠倒的视界 4、 爱犯错的智能体 - 视觉篇(一): 视觉倒像 3、 AI版“双手互搏”有多牛? 浅谈对抗性神经网络 2、 童话(同化)世界的人工智能 1、 深度学习,你就是那位116岁的长寿老奶奶! 张军平,复旦大学计算机科学技术学院,教授、博士生导师,中国自动化学会混合智能专委会副主任。主要研究方向包括人工智能、机器学习、图像处理、生物认证及智能交通。至今发表论文近100篇,其中IEEE Transactions系列18篇,包括IEEE TPAMI, TNNLS, ToC, TITS, TAC等。学术谷歌引用2700余次,ESI高被引一篇,H指数27.
10221 次阅读|2 个评论
爱犯错的智能体 -- 视觉篇(七):眼中的黎曼流形
热度 5 heruspex 2018-9-25 08:22
导读:今天讲的内容与黎曼猜想无关,是想探讨下黎曼主攻的几何学与人工智能的关系,是讨论视觉中的距离错觉。 这两天朋友圈在疯传黎曼猜想被破解的消息, 2018 年 9 月 24 日中秋节这天,官科、拿过菲尔兹奖和阿贝尔奖,但已年近 90 的数学家迈克尔·阿蒂亚贴出了其证明。 因为黎曼猜想是一百多年前数学家希尔伯特列出的 23 个数学最难问题之一,也是现今克雷数学研究所悬赏的世界七大数学难题之一;因为可能揭示素数的分布规律,也因为可能影响现有密码学的研究,大家都很亢奋。不过从众多评论来看,这个尝试可能不得不遗憾地说不是太成功。但考虑到阿蒂亚年事已高,估计没谁敢当面怼他。尽管如此, 老先生老骥伏枥、志在千里的钻研精神还是值得我辈学习的。 作为始作俑者,黎曼可能压根也没想到自己的猜想能对 100 多年后的密码学有所帮助。因为研究素数在“科学的皇后” — 数学里被认为是最纯的数学,是与应用毫无关系的数学 。这种纯性让数论成为了“数学的皇后”。所以,正常情况下,数学的鄙视链是不允许他去推测素数分布在密码学中的应用的。据说,站在数学鄙视链顶端的纯数学研究者,通常是看不起学应用数学的;而学应用数学的,会看不起学统计的。在人工智能热潮下,学统计的又看不起研究机器学习的;而学机器学习的会看不起做多媒体的;而做多媒体的又看不起做数据库的。纯做密码学研究的,鄙视链应该在应用数学与机器学习方向之间,哪会被才高八斗的黎曼看上? 能看上黎曼的自然也是大牛, 当年是德国数学家高斯看中了他并理解了他的几何学观点。今天要讲的也不是黎曼猜想,而是黎曼的几何学观点与人工智能的关系。 当年,黎曼申请来到哥廷根大学做无薪讲师,就是学校不提供固定薪水、讲了课才有薪水的教师。初来乍到,来场学术报告是必需的。当时的学术委员会从黎曼推荐的三个选题中选了一个他最意外的题目,要他以“关于几何学的基本假设”为主题来做就职报告 。 那个时候,公元前三世纪希腊亚历山大里亚学派的创始者欧几里德编写的数学巨著《几何原本》中的五条公设中, 连大猩猩都很痛恨的第五公设,就是“平行线没有香蕉 ( 相交 ) ”的第五公设,已经被罗伯切夫斯基于 1830 年证明不成立。他认为在一个平面上,过已知直线外一点至少有两条直线与该直线不相交。由此开创了非欧几里得几何,虽然他的理论在其死后 12 年才逐渐被认可。而黎曼开创的非欧几何则断言,在平面上,任何两条直线都必然相交 。他们的发现,最终奠定了非欧几何的数学基础。直观来说,就是以前以为是可以用直线测量准确距离的世界,现在居然要弯了。 既然弯了,那就很容易找到相交的可能。比如从篮球的顶部到底部,让蚂蚁沿着表面爬,它只能爬出曲线,且总是相交的。在这个篮球曲面上测得的“直线”距离就只能是弯的,称为测地线 (Geodesic) 。 在黎曼用了七周时间准备的报告中,他希望在能用直线测距离的欧氏空间和非欧空间之间找到合理的衔接。于是,他假定非欧空间可以由好几个局部欧氏空间拼接而成的,提出了多个 ( 英文的前缀是 mani) 折或层 ( 英文的词根是 fold) 的概念,即流形 (manifold ,对应的德语是 mannigfaltigkeit) 。简单且不严格来说,就是流形可以用一块块的小粘土以任意形式粘在一起来表征,但每块局部的粘土又跟我们常见的欧氏空间是一致的,如图 1 所示。至于相邻粘土块之间的联接关系,则要把连续性、光滑性、可微性、抽象性等众多深奥概念考虑进来,这样便成了多数人只能看懂目录的微分流形。 图 1 局部欧氏与黎曼流形:二维流形或曲面 M 上的一个局部 p ( 橙色区域 ) 与欧氏空间中的黄色区域等价。 后来,爱因斯坦知道后,如获至宝。便找了当年他提出狭义相对论时,用到过的洛仑兹变换的数家家洛伦兹本人,请他帮助学习微分流形基础。在他的帮助下,最终爱因斯坦基于加速度下的不变性原理提出了广义相对论,将牛顿提出的万有引力归结为是弯曲空间的外在表现,开启了宇观物理学。 不过,那个时候,计算机还没诞生,也没人会意识到黎曼提出的流形与人工智能有什么关系。 一、感知的流形方式 回到人的智力发育上讨论这一关系的存在性。儿童在发育过程中,空间感是逐渐形成的。在他学习观察世界的过程中,一个需要扫除的认知障碍是遮挡。有心理学家做过实验,在小孩面前放一个屏障,然后将小孩面前的玩具移到屏障后。小孩会感觉很吃惊,但却不会绕到屏障后去寻找玩具。这说明在发育的初始阶段,小孩缺乏对三维空间尤其是空间深度的理解。经过一段时间后,他的这种障碍会消除 ,对物体空间能力的辩识也明显加强。 图 2 旋转不变性 于是,儿童启蒙课本中便会出现这样一个新的测试题。放一个奇形怪状的积木,然后给几个不同旋转角度的形状,其中一个或多个是该积木旋转后的真实图像,也有不是的,让小朋友自己去判断和识别哪些是原来的积木旋转过来的。令人惊奇地是,小朋友慢慢都会学会如何处理这种旋转,并能准确判断。这种旋转不变性能力的获得,在格式塔心理学中有过相应的观察和描述。该现象似乎在告诉我们,人的大脑能对每一个见到的物品进行自动的旋转。 那么,人是如何记忆这些见过的物品,并实现自动旋转的呢?格式塔心理学中没有给出终极答案。 而认知心理学则对记忆给了一种可能解释,叫原型说 (prototype) ,即某个概念都会以原型的形式存储在记忆中,神经心理学进一步给了假设性的支持,称记忆是存储在离散吸引子 (discrete attractor) 上。尽管这一解释维持了相当长的时间,但并没有就为什么大脑可以实现自动旋转给出圆满答案。 2000 年的时候,普林斯顿大学教授 Sebastian Seung 和 宾州大学教授 Daniel Lee 在《 Science 》上发了篇论文。他们认为人是以流形方式来记忆的。以视觉感知为例,假定人的视网膜只有三个视神经元,不考虑颜色的变化, 每个神经元能感受一定的光强变化,那么看到一个母亲的人脸后,视神经元上会有三个响应。如果三个视神经元是相互独立无关的,那就可以把每一个视神经元看成一个维度,就会有一个由三个维度张成的欧氏空间。如果把只是做了侧向角度变化的、母亲的照片读入这个的空间, 那三张图 3 所示的图像在此空间会有何规律呢? 理论上讲,如果只做了侧向角度变化,那这个变化就是三张图像的内在控制量。只有一个变量,但又不见得会是直线,所以,母亲的照片按角度的顺序连起来,就会是一条曲线。类似的,如果把小朋友侧向角度变化的照片也输进来,那同样在这个三维空间会是一条曲线。但可能与母亲的不在同一条曲线上。如果这个假设成立,那么记忆就可能是沿着这两条不同的曲线来分别还原和生成不同角度的母亲和小孩图像。也就能部分解释,为什么人只用看陌生人一两眼,就能认出其在不同角度时的面容。 图 3 母亲和小孩的流形感知方式,假定眼睛只有三个视神经元,母亲小孩均只有一个自由度,即左右转头 。 如果再进一步,假设母亲小孩有两个自由度的变化 ,如左右、上下角度的变化,那这两个维度的变化在三维空间上可以张成无数条曲线的合集,即曲面。在流形的术语中,曲线可以称为一维流形,而曲面则为二维流形。 如果假定变化再丰富点,比如角度的变化有上下角度、左右角度;还有表情的变化,真实和细微的微表情,光照的变化,年龄的变化等诸如此类的,我们把这些变化的维度称为人脸变化的内在维度,是真正需要记忆的。相比较于人眼里上亿的视神经元总数来说,这些内在维度可以张成的空间比上亿维神经元张成的空间要小非常非常多。我们便可以在曲面的名字上再加个超字来刻画,叫超曲面,也称为低维流形。考虑到输入进来的信息是通过神经元的,所以,又把名字叫得更学术点,称其为嵌套在高维空间 ( 视神经元空间 ) 的低维流形。 与经典的原型学说的主要不同在于,假设用于记忆的离散吸引子能被替换成了连续吸引子,于是存储在大脑里的原型便不再是一个点,而可能是一条曲线、一个曲面甚至超曲面。视觉看到的任何内容,都会从不同途径收敛到这个连续吸引子上,并在此吸引子上实现对不同角度和不同内在维度的外推。这在某种意义上既解释记忆的方式,又解释了自动旋转问题。因此,黎曼流形的构造有可能解决格式塔心理学中提及的“旋转不变性”问题。 图 4 左:离散吸引子;右: 连续吸引子 那能否让计算机也实现类似的自我旋转或推理能力呢?如果能实现,也许就往人工智能方向迈进了一小步。 二、 流形学习的研究 以人脸为例,先看下最初的人脸识别技术。早期的做法是遵循欧氏空间距离,按最短直线距离来评判。这样做的不足是没有处理好不同角度、不同光照的人脸识别。试想想,如图 5 所示的不同角度的 A ,以及相同正脸的 B ,假如识别是基于相同像素位置的光强差异平方总和的最小值来实现,那哪两张会更近呢?显然相同角度的 A 和 B 距离会更近。这就是欧氏距离直接用于人脸识别的不足。 图 5 不同角度的两个人的照片 为什么计算机没有人脑的旋转不变性呢?图 6 显示了一组人脸在摄像机前仅进行平移而保持其它性质不变的图像集。如果把每个像素视为一个维度,则每张照片可视为高维空间的点,则多次采集的多个人的照片集合看成是该空间的点云。通过某些简单的统计策略总结出前三个主要的维数,再将点云投影到这个三维空间并两两描绘出来,便有了图 6 的曲线图。 图 6 人脸内在维度示例 不难发现,只控制了角度旋转的图像序列变成了一条又一条的曲线,这正是我们上面讨论的曲线,一维流形。 实际上,如果限定采集时的变量为人脸到摄像机前的远近变化,结果也是一样。这一实验部分印证了人脸图像的内在控制变量是低的。因此,如果希望计算机能对不同角度的人脸有合理的推测功能,和还原格式塔心理学中的旋转不变性时,找到流形结构并依照它的规则来办事就很自然了。 图 7 各种复杂的流形结构:瑞士卷 (Swissroll) ; 右: 双螺旋线 但是,数据形成的流形结构并非只有曲线一种情况,它可能会有如图 7 所示的瑞士卷的复杂结构。他可能还不止一个,比如两个卷在一起的双螺旋线。那么,要想利用经典又好使的欧氏距离来解决问题,可行的方案之一就是把它们摊平或拉平,这样,我们待分析的数据所处的空间就是欧氏空间了。于是,有大量的流形学习的工作便在此基础上展开了。 最经典的两篇是与《流形的感知方式》几乎同时于 2000 年发表在 Science 上。因为计算机科学的工作很少有发 Science 的,能发在上面,则有可能引导大方向的研究。所以,这三项工作被视为引领了 2000 年后流形学习发展的奠基之作。 其想法现在来看的话,其实并不复杂。首先两篇文章都引入了邻域 的概念,也就是局部情况下,流形等同于欧氏空间,因此,短程距离用欧氏度量来计算是合理的。 不同的是, Tenenbaum 的工作是从测地线距离的计算来考虑的。 试想如果有一张纸,纸上有三个点, A 、 B 和 C , AB 比 AC 在纸面上更近。但如果把纸弯成图 8 的形状,再按直线距离来算时, AC 就会更近。但按流形的定义, AC 这条路径是不能出现的,因为这个纸就是一个空间,是一个不能为二维蚂蚁逃脱的空间。因此,更合理的计算方式是把图 8 右图的红色曲线长度,即测地线精确算出来。 图 8 测地线距离和局部等度规 (Isomap) 算法 但测地线是在连续意义定义的,要根据离散的数据点来算的话, Tenenbaum 等找了个平衡,提出了基于图距离的局部等度规算法。他们假定邻域内的点与点之间相连的距离都等于 1 ,邻域以外的距离都强设为 0 。因为流形可以由若干个小的邻域来粘合构成,而相邻的邻域总会有部分的重叠,那么,如果把所有距离为 1 的都连条边出来,则原来的数据点就构成了一张连通图。而远点的距离或者所谓的测地线距离,就可以通过连通的边的最短距离来近似了,如图 8 中图所示。于是,就可以为所有的点建立一个相似性或距离矩阵。有了这个矩阵,再通过统计方法就能找到其主要的几个方向了,即摊平的低维子空间,如图 8 右图所示,蓝色的测地线距离就为红色的图距离近似了。 而 Roweis 和 Laul 当时则从另一角度来尝试恢复这个平坦的空间。他假定邻域内的数据点会相互保持一种几何关系,关系的紧密程度由权重来决定,权重的总和等于 1 。同时,他假定这个权重诱导的关系在平坦空间会与观测的空间保持一致,即局部结构不变。当然,还得防止数据在还原到低维的平坦空间时不致于坍缩至一点去。基于这些假设,很自然地就把优化方程写了出来,并获得了不用迭代求解的闭式解,即局部线性嵌入算法,如图 9 所示。 算法比较直白,但两篇文章都发现了类似于图 3 和图 4 的现象,即约简到二维平面后,数据的分布具有物理意义的。比如,手旋转杯的动作会沿水平方向连续变化 ,人脸图像的姿态和表情会在两个垂直的轴上分别连续变化 。而这种情况,以前的算法似乎是找不到的。除此以外,这两篇工作的成果又很好地与“感知的流形方式”吻合了。 图 9 局部线性嵌入 (LLE) 算法 还有一点,邻域的大小决定了流形的表现。按几何学大牛 Spivak 的说法,邻域如果和整个欧氏空间一样大的,那欧氏空间本身就是流形 。所以,流形学习的研究并非是一个很特别、很小众的方向,它是对常规欧氏空间下研究问题的一般性推广。 于是,从 2000 年开始,国内外对流形学习的研究进入了高潮,希望能找到更有效的发现低维平坦空间的方法。比如希望保持在投影到平坦空间后三点之间角度不变的保角算法;比如希望保持二阶光滑性不变的海森方法;比如希望保持长宽比不变的最大方差展开方法;比如希望保持局部权重比不变的拉普拉斯算法等。不过何种方法,都在尝试还原或保持流形的某一种性质。也有考虑数据本身有噪导致结构易被误导的,比如我们经常在星际旅行中提到的虫洞现象,如图 10 。它可以将原本隔得很远的两个位置瞬间拉近。在数据分析中,称虫洞为捷近或短路边 (shortcut) ,是需要避免的,不然会导致还原的空间是不正常甚至错误的。 图 10 将图 8 中的 A 和 C 连接的虫洞或短路边 (Shortcut) 问题 除了找空间外,流形的一些性质也被自然地作为约束条件加入到各种人工智能或机器学习的优化算法里。即使是现在盛行深度学习研究中,流形的概念也被很时髦地引了进来。如生成对抗网在 2014 年最初提出的时候, Lecun Yan 就指出希望对抗的数据处在数据流形中能量相对高的位置,而真实数据则位于流形能量相对低的位置,这样,就有可能让生成对抗网获得更好的判别能力。 � 图 11 生成对抗网中的流形 ; 左 : 高能量值;右:低能量值 三、流形学习的思考 虽然流形学习在认知、机器学习方面都有很好的可解释性,不过这几年随着深度学习的盛行,与它相关的文献在相对份量上正慢慢减少。一个原因是,由于这一波人工智能的热潮主要是产业界开始的, 而产业界对预测的重视程度远高于可解释性。所以,不管学术界还是产业界都把重心放到如何通过优化深度学习模型的结构和参数优化去了。正如我之前强调过的,过分关心预测性能的同时,必然会牺牲可解释性。因为前者关心个例,后者需要统计。两者是一个矛盾,类似于测不准定理中的速度和位置的关系。从目前的情况来看,牺牲的可能还不止流形学习这一种具有可解释性的方法。尽管大家在讨论数据的时候,还会时不时说下流形,但最多也只是扔个概念出来,并没有太多实质性的融入。 再回到人的大脑来看,虽然之前也提到了流形的感知方式,但是否存在实证还不是完全的明确, Seung 和 Lee 也只是做了些间接的推测。一方面,是测量技术的不足,因为现在都是采用脑电图描记器 (EEG) 或磁共振成像 (MRI) 技术来检测大脑信号的,本身就缺乏这种连续性的关联,要寻找是否大脑中存在流形记忆确实有难度。另一方面,我们的大脑里面真有一个弯曲的流形记忆空间呢?真是以连续而非离散吸引子形式存在吗?如果是的,那与现在深度学习的预测模型的做法应该是不同的,其差别就如同飞机和鸟。 也许,找寻这个问题的答案,和黎曼猜想的破解是一样的困难。 参考文献: 1. H. Sebastian Seung, Daniel D. Lee. The Manifold Way of Perception. Science 290 (5500): 2268-2269. 2. 李子青,张军平 . 人脸识别的子空间统计学习 . 机器学习及应用,清华大学出版社, 2006 , pp.270-301. 3. J. B.Tenenbaum, V. de Silva and J. C. Langford. A Global Geometric Framework for Nonlinear Dimensionality Reduction. Science 290 (5500): 2319-2323 4. S. Roweis, L. Saul. Nonlinear dimensionality reduction by locally linear embedding. Science 290 (5500): 2323--2326. 5. Michael Spivak. A Comprehensive Introduction to Differential Geometry, Vol. 1, 3rd Edition. Publish or Perish, 1999. 6. LeCun Yann. Predictive Learning. Slide at NIPS 2016. 张军平 2018年9月25日 延伸阅读: 1、 深度学习,你就是那位116岁的长寿老奶奶! 2、 童话(同化)世界的人工智能 3、 AI版“双手互搏”有多牛? 浅谈对抗性神经网络 4、 爱犯错的智能体 - 视觉篇(一): 视觉倒像 5、 爱犯错的智能体 - 视觉篇 (二):颠倒的视界 6、 爱犯错的智能体 - 视觉篇 (三):看不见的萨摩耶 7、 爱犯错的智能体 - 视觉篇(四):看得见的斑点狗 8、 爱犯错的智能体 - 视觉篇(五):火星人脸的阴影 9. 爱犯错的智能体(六):外国的月亮比较圆? 张军平 ,复旦大学计算机科学技术学院,教授、博士生导师,中国自动化学会混合智能专委会副主任。主要研究方向包括人工智能、机器学习、图像处理、生物认证及智能交通。至今发表论文近100篇,其中IEEE Transactions系列18篇,包括IEEE TPAMI, TNNLS, ToC, TITS, TAC等。学术谷歌引用2700余次,ESI高被引一篇,H指数27.
15652 次阅读|10 个评论
爱犯错的智能体(六):外国的月亮比较圆?
热度 8 heruspex 2018-9-20 08:13
还有几天就是中秋佳节了,和家人一起一边赏月,一边吃着五仁月饼 ,真是其乐融融。赏月的时候,有时会禁不住想起这句“外国的月亮比较圆”,然后会引申出各种崇洋媚外的批判感悟。 到底有没有比较圆呢? 2015年9月28日中秋节,广东天文学会就指出,当年那天的中秋月会与超级月亮和月全食相连,会出现平均九年一次的最大最圆的中秋月。不过遗憾的是,只有南美洲、北美洲东部和非洲西部能看到月全食和欣赏到最大红月亮,而中国则无法看到。那一天,外国的月亮又圆又大。 但在多数情况下,月亮到地球的距离从不同地点来看差异不大,不管是用经纬仪还是拍照后测量,月亮的大小除了轻微的物理变化外,相差无几。视觉上产生这种感觉只是心理作崇而已。 虽然“外国的月亮比较圆”并不成立,但在月升月落之间,人对月亮大小的心理感知确实存在差异。最明显的例子是,月亮在地平线上的大小会比在天上看上去会更大一些,俗称“月亮错觉”(Moon Illusion)。 虽然这并非真正的月亮大小问题,但这种心理感受的大小差异却仍是一个未解之谜。 追踪下文献不难发现,感受过、研究过“月球错觉”的人还真不少。对国人来说,曾记录过这一感受的首推哲学家王阳明。他在1484年12岁的时候写过一首很有名的小诗, 《蔽月山房》。这首诗就记录了他对月亮错觉的感受。 山近月远觉月小, 便道此山大于月。 若有人眼大如天, 当见山高月更阔 而国外则对这一现象有着非常长期的分析和思考。最早可以追溯到古代的公元前4世纪。希腊著名哲学家亚里斯多德就记录过,他认为“月亮在地平线比天上大”的原因是因为地球的大气起到了放大的作用,导致了人眼产生了感知错觉。 最早基于距离理论的解释是Cleomedes在大约公元200年时提出的。他认为地平线上的月亮大是因为其看上去显得更远。原因在于在地平线的角度上,人会参照其它物体的大小来感受月亮的大小。而在天顶时,没有其它参照物可以借用,于是感觉上就会觉得天上的月亮离地球要近一些,因而会觉得比地平线的月亮更小。 1813年,Schopenhauer认为这种错觉是大脑的行为而非光学原因。他认为大脑对于水平角度的目标判定,直觉的感受理解就比垂直方向的显得更遥远,因而看起来更大。 1962年两位科学家Kaufman和Rock进行了一个关键的实验,验证了月亮错觉模式与距离之间的关系,称为“庞邹错觉”(Ponzo illusion),如图1所示。从图上可以看出,当目标具有相同大小,但放在更远处时,随着视角的变窄或靠近消逝点,远处的目标会显得更大。举例来说,如果将两个相同大小的苹果分别放置在5米和10米的位置,后者的视角将比前者小一倍,但感觉上不会觉得后者的尺寸小一倍,而会是相同大小。相反,如果更远的目标与近的目标具有相同的视角,则视觉上会感觉有两倍的大小。 另一种解释是相对尺寸假设,如图1所示。月亮在地平线时,其邻近的目标往往能展示更精致的细节,使得月亮看上去显得更大。反而,天顶的会大范围空的空间包围着,因为显得更小。这个效果又被称为艾宾浩斯错觉(Ebbinghaus illusion)。 基于这样的感觉,有些科学家认为“地平线上的月亮看上去大是因为其感受的视角尺寸或物理尺寸更大,或两者均有”。 然而,基于距离理论的不足在于,尽管大多数人会认为地平线上的月亮既大又比天顶的月亮近,大约还有5%的人会觉得地平线上的月亮既大又远,还有一些人认为距离相同但地平线上的更大,还有一些人完全没有月亮错觉。 图1 左:月亮错觉; 右:艾宾浩斯错觉 为了探寻真谛,Hershenson在1989年主编了一本书,《月球错觉的神秘》。该书竟然用24章288页,详细介绍了不同错觉研究者从不同角度给出的解释。然并卵,没有达成一致结论,也没有终结对月亮视觉大小差异的疑问。 2、人工智能中的透视问题 如果把月亮大小的感觉看成是与心理因素相关的透视问题,那么需要说明的是,这种心理原因导致的透视错觉目前还没有什么好的理论和算法去量化成计算机程序并实现。但在客观存在的透视问题上,研究就多多了,因为客观的透视在很多计算机视觉、图像处理领域的实际应用中都有着重要的作用,而这些应用又直接影响了人工智能的相关研究。 比如人群计数研究。人群数量否准确预测,对于安防、旅游景点和地铁应急疏散、商场商品的位置摆放等都有着关键的作用。但要想有效估计人群数量,又并非容易的事情。用手机来监控的话,GPS定位信息的漂移现象往往会显著影响计数性能。尤其在开放环境下如外滩的人群计数,周边办公大楼的信号都可能不期而至导致误估。而场馆内则会出现GPS信号丢失的问题。有人也尝试过用无线路由器的信号来监控馆内人群,但精度上无法保证。更合理的方式是通过摄像机来获取图像,并对图像或视频中的人群进行计数。不过,摄像头的角度设置是有讲究的。垂直角度如无人机,可避免人与人的遮挡,但电池的待机时间存在问题,而烧燃油的又不是一般部门能玩的且噪声巨大;近景的如安装在公交车站上车处的,则会因为前面的人在视频中占的比例太大,导致视频范围内可以计数的人变得很少,实用价值降低。中等角度如安置在楼宇屋顶的,可观察的角度相对来说更好些, 适合于较稠密的人群计数。但由于摄像机的角度问题,远近人群在图像中的比例会因透视而发生改变,如果不进行透视角纠正,则可能会影响随后的计数性能。这是客观透视的一个应用。 图2 人群计数中的透视问题 另外,在交通领域,大货车的侧方盲区和尾部一直是马路致死率很高的问题。为减少它的影响,一些国家要求强制在两侧安装有广角镜,比较先进点的还能把盲区的视频信息返送到驾驶室内。但由于广角镜透视变形的原因,驾驶员容易对行人和非机动车驾驶员离车辆的远近、运动速度产生误判。此时,就需要有相应的算法来帮助还原真实的距离和运动速度了,以减少不必要的风险。 除此以外,在计算机视觉领域还有人研究基于图像的测距问题。这一问题在智能手机流行后似乎研究意义更大了。科学家们希望能对给定的图像或视频,不依赖于真实的测量仪如米尺,就能直接测量出图中的目标尺寸和目标间的相互距离。这一研究,显然也涉及到透视关系以及透视意义下的比例问题求解。 图3 基于图像的测距研究示例 3、透视角度对心境的影响: 情绪、情感对人工智能的研究至关重要,因为它关系到是否能真正通过计算机模拟出一个真正像人的机器,而非看上去像。那么,如何形成、在哪里能形成这种情绪、情感就需要仔细思考了。 透视角度的选择对心境就能表现出很复杂的影响,尤其在高层语义上。所以,画家对于透视角度的选择看得很重,因为它影响了人们评判绘画的美感。 要让人工智能像人类一样能创作,攻破艺术这个关口,可能也得好好研究下透视对心境的影响。 我们不妨回顾下人工智能科普奇书《集异壁之大成》中提到的一位荷兰画家莫里茨·科内利斯·艾舍尔的创作经历,以及他对透视的运用。 学画都是从临摹开始的。后来,艾舍尔为了能让自己的绘画有与众不同的感受,他对透视角有过非常深的思考。这能从他不同时期的绘画作品中窥其堂奥。 最初,他喜欢去山顶绘画,希望得到俯瞰视角下的景色描绘;后来,他改成了从窗户往外看,窗内窗外的透视又形成了一组奇特视角的画。再后来,他干脆手上拿个水晶球,画了观察自己的自画像。有了自画像后,他似乎找到了循环,便有了许多自指的杰作。对透视角的不断深思,最终让他成为了以“不可能图形”而闻名的一代名画家。 图4 左:窗内视角的《静物和街景》;右:艾舍尔的《手与反射球体》 透视角不仅能影响审美,产生奇妙的美感,它也能制造恐惧。在今年最新上映的韩国恐怖片《昆池岩》,导演别出心裁的采用了“第一”视角的方式拍摄。电影中,六名演员均在胸前安装了两个运动相机,一个对着自己脸部,一个对着自己观测的环境。由于镜头与人脸的距离非常近,对着自己脸部的相机让演员的脸产生了明显的拉伸变形。因为变形后的脸与正常脸有明显的差异,无形中将人的表情尤其是惊悚的表情放大了,使得电影的恐怖感一下就上来了好几个级别。这是透视角度对人内在情绪的影响。因为有点恐怖,图我就换张大概有点这个意思的给大家感受下好了。 图5 网红柴犬玛鲁近景照 所以,透视对人在心理、距离、情绪等方面都有着重要的功能,也有着与人工智能相关的许多实际应用。可是,要解开透视中的谜团,尤其是主观透视现象,让其体现到人工智能的算法中,还是路漫漫其修远兮。 张军平 2018年9月20日 参考文献: 1. 维基百科: https://en.wikipedia.org/wiki/Moon_illusion 2. A.B.Chan, Z.J.Liang, N.Vasconcelos. Privacy preserving crowd monitoring: counting people without people models or tracking. in:IEEE Conference on Computer Vision and Pattern Recognition,Anchorage, Alaska, USA, 2008. 3. Ben Tan, Junping Zhang, Liang Wang. Semi-Supervised Elastic Net for Pedestrian Counting . Pattern Recognition , vol. 44, issues 10-11, pp. 2297-2304, 2011 4. Ferdinand van der Heijden. Image Based Measurement Systems: Object Recognition and Parameter Estimation. Wiley; 1995. 5. Adrian Roserbrock , Measuring size of objects in an image with OpenCV, Mar 28, 2016 in Image Processing, Tutorials. 6. 侯世达. 哥德尔、艾舍尔、巴赫:集异壁之大成. 商务出版社,1997. 延伸阅读: 1、 深度学习,你就是那位116岁的长寿老奶奶! 2、 童话(同化)世界的人工智能 3、 AI版“双手互搏”有多牛? 浅谈对抗性神经网络 4、 爱犯错的智能体 - 视觉篇(一): 视觉倒像 5、 爱犯错的智能体 - 视觉篇 (二):颠倒的视界 6、 爱犯错的智能体 - 视觉篇 (三):看不见的萨摩耶 7、 爱犯错的智能体 - 视觉篇(四):看得见的斑点狗 8、 爱犯错的智能体 - 视觉篇(五):火星人脸的阴影 张军平 ,复旦大学计算机科学技术学院,教授、博士生导师,中国自动化学会混合智能专委会副主任。主要研究方向包括人工智能、机器学习、图像处理、生物认证及智能交通。至今发表论文近100篇,其中IEEE Transactions系列18篇,包括IEEE TPAMI, TNNLS, ToC, TITS, TAC等。学术谷歌引用2700余次,ESI高被引一篇,H指数27.
12478 次阅读|25 个评论
急救车追尾不应忽视司机“应激”的影响
热度 3 lanxum 2015-7-26 07:38
急救车追尾事故不应忽视“应激”对司机的影响 150726 李健 事故描述:7月22日早晨,辽宁抚顺一急救车拉着患者在往医院返回途中追尾一辆等红绿灯的公交车,造成急救车上患者和一陪护家属当场死亡。 http://news.china.com/social/1007/20150725/20077731.html 看上去这起事故的直接原因是急救车或车速过快、或急救车司机忽视 瞭望 ,这似乎与大多数道路交通追尾事故原因一样。如果事故分析止步于此,将忽视急救车司机与普通车辆司机驾驶行为最大的区别,即是在执行接送患者紧急任务,容易遭遇患者病情加重、家属不断催促等突变紧急状态这一关键因素。 所以分析急救车事故,除了常规原因外,还应关注司机所处的紧急驾驶状态~即遇突变导致的应激(Stress)。“ 应激是在出乎意料的紧迫与危险情况下引起的高速而高度紧张的情绪状态。应激的最直接表现即精神紧张。 ”(百度解释)( 注:类似急救车,警车、消防车、工程抢险车也如此,它们是交通法规定的四种特种车辆。 ) 人在应激状态下,会发生哪些变化?按认知心理学观点,人体信息处理系统分为三个过程,即 感觉(信息输入)→判断(信息加工处理)→行为(反应) 。应激状态因为紧迫或危险情况的存在,首先会使人分心,注意力不集中、对外界环境认知滞后、认知不充分。其次在紧张状态下,人的判断推理活动受到一定抑制,理智成分减弱,本能反应增加(有或无、能或否两个极端的判断)。最后由于过度紧张,注意力只集中于眼前能看见的事物,造成惊慌失措,从而导致错误行为。 急救车追尾并不是普通车辆追尾,其中还夹杂着急救车司机或因进入应激状态而带来的注意力不集中、对道路环境判断能力下降及对车辆的把控能力下降的原因。关注应激因素,能科学公平地认识急救车司机的驾驶行为,和能正确分析由此带来的事故致因素。 预防急救车及类似事故的办法,可通过专门培训和实战演练,提高急救车司机比普通司机要求更高的对道路环境、他人行为因素的预知能力和抗副面情绪影响的耐压能力。另外,运用人机工程学知识,在正确认识人类在应激状态下缺陷特性的基础上,通过改善车辆内部驾驶环境、优化驾驶操作等手段,也能大为降低此类事故的发生率。 参考资料: 1、 安全心理与行为管理,邵辉、赵庆贤、葛秀坤等编著。 2、 浅谈急救车驾驶员预测能力与交通安全的关系,李少波、李增桌,中国急救网
个人分类: 行为安全|4793 次阅读|28 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-19 05:32

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部