编者按:空间一直都是哲学、科学和艺术的基本问题。空间认知也可以说是所有认知现象中最基本,最具有核心意义的问题。随着时代的发展,各种新的空间形式和问题也不断呈现。波士顿动力ATLAS的跑酷只是噱头还是真的代表着某种实质意义上的空间认知?脑科学是如何理解人和动物的空间感知及划分其种类的?如何认识艺术空间的逻辑、挑战和其特殊性?中国人民大学明德讲坛,服务器艺术邀请机器人专家,脑科学家,艺术家和艺术评论家一起讨论,以下是文字记录。
各位朋友晚上好,欢迎来到由中国人民大学哲学与认知科学跨学科交叉平台与服务器艺术联合主办,由神经现实协办的哲学与认知科学明德讲坛暨服务器艺术人工智能哲学论坛。我们特邀在哲学、科学、人文、艺术等领域的专家学者共同组成策划委员会,每期策划一个主题,邀请讨论嘉宾在线直播。接下来有请今天的主持人,中国人民大学哲学院特聘教授朱锐老师。
@朱锐
大家晚上好,我是今天的主持人朱锐,欢迎大家来到哲学与认知科学明德讲坛第19期,同时也是服务器艺术人工智能哲学论坛第7期。今天我们讨论的内容是——空间:机器、脑和艺术。我们有幸邀请到机器学习与人工智能专家、脑科学家、艺术家和艺术评论家等多位学者,从不同领域、不同学科探讨空间问题。
下面就有请:中国科学院神经研究所研究员、空间感知觉课题组组长——顾勇老师;机器学习与人工智能方向博士、北京航空航天大学自动化科学与电气工程学院副教授——秦曾昌老师;广州美术学院副教授、2020年冬奥会吉祥物冰墩墩设计成员——万千个老师;独立纪录片导演、艺术家,当代艺术摄影批评人,也是我们明德讲坛的老朋友——袁园老师。各位老师晚上好,我们非常荣幸(能够)与各位老师从不同的角度讨论今天的主题——空间:机器、脑和艺术。
空间的概念问题
@朱锐
首先,我用几分钟的时间来概括一下空间的一些主要概念问题。我分享一下视频。空间一直都是哲学、科学和艺术的基本问题。空间认知也是认知现象中最基本、最具有核心意义的问题。这可以从三个方面进行简单地理解:
第一,人类认知首先应该是空间认知,世界也好(比如说天圆地方的世界),物体也好,以及各种各样的身心模型(关于自我的认知)。第二,对空间的思考应该是对所有问题进行思考的起点,甚至是核心点。第三,空间具有多样性,不同类型的空间具有不同的地位和意义。
空间首先包括物理空间,也包括心理空间。我们今天不谈物理空间,主要谈心理空间,也就是认知空间。它带有一定的主观性。在某些方面,它可以是建构的,不一定具有物理现实性。物理空间可以是多维度的,甚至是非欧几里德式的,但是心理空间似乎必然具有欧几里德性,似乎必须被局限在三维。心理空间又包括各个层面,如生理,心理空间——神经科学所研究的对象,社会心理空间——社会学研究的对象(中国人强调的“内”“外”,日本人强调的“本音”和“建前”,西方人强调的“属于”和“他者”,以及目前一个普遍的现象叫“宅男”——日本人称之为“引きこもり”),心理个体的心理空间(特别是新精神分析的一些对象、潜意识等),另外还有艺术空间、虚拟空间。
怎样去理解这些空间,怎样从本体论上去讨论它的地位以及意义,这是我今天也想知道的一些内容。
心理空间分两大类型:一类叫绝对空间,一类相对空间。所谓相对空间就是物体空间或者物体之间的空间,也就是说,是由物体和物体之间的关系所定义的空间。所谓绝对空间就是地图式的空间。这种参照系空间,或者是在哲学上康德所说的一种先验的直觉空间,它是独立于或者相对独立于物体的空间。
我们也可以把空间看作一种策略——动物和人在世界上生存、在环境中生存所采取的一种策略,比如说我们用的 GPS,包括两个方面,一个是定位,一个是巡游。所以从策略方面来讲,它可以是定位,其中包括空间定位,它需要某种地图或者心理图像,英语是map,需要测量距离和位置等等,这就包括度量空间(metric space)。另外一个是巡游,就是navigation。巡游依赖的是路径(route),特别是地标与动作的一些连接,比如你在某个角落是向左拐,还是向右拐。
另外还有一个基本的策略,就是以自我为中心的空间定位,前后左右等等,叫egocentric space,以及以他物为中心的空间,叫allocentric space,如经纬、还有一些地图上的位置定位等。
我们在探索空间、认识空间的时候,所注意的空间特性也是不同的。比如说有拓扑空间,包括物体、边界、范围等;度量空间——包括距离、大小、角度等;巡游空间——哪些空间是自由的,是empty space,是free space,哪些空间是走廊、路径、房间之间的连接等。
还有一个更重要的,也许对我们来说是概念的空间,也可以说是一种想象的空间。这里存在内和外的差别。比如有些是公共空间,有些则是私人私人空间或财产空间,以及家里的卧室、厨房等带有功能性的空间。
在思想史上,我们是如何认识空间的?认识途径上存在很多争论,比较特别的是英国的经验主义哲学家贝克莱,他强调的是触觉空间,即所谓的haptic space。(因为)他认为触觉空间才是认知的基本空间,而视觉的空间只是对触觉空间的一种预测。
现在很多设计——一些环境科学领域当中所强调的环境赋使,叫做affordance,强调人与环境之间的沟通或连接;还有共享的空间,比如说道路共享,自动驾驶、人和动物等共享的空间,还有人和机器的共享空间、共享环境等等。此外还有权利所赋予的空间,比如说私人空间、公共空间等。最后特别强调一点,空间和环境还是有一定的细微差别的。
我们在哲学上或者在科学上探讨空间的时候,往往过多地注重物体的空间,而环境空间是一个不同的概念。比如说,环境的空间是一个充满价值的空间,是一个生命空间,是人的空间或者是动物的空间等。它是充满意义的、具有各种显著特征的空间。再比如说这个空间是危险空间,这个空间是实物空间,以及功能性的空间等等。
伊特尔森(Thomas Ittelson)有说过一段很重要的话,这里我引一下,他说,“物体和环境之间的区别是至关重要的,客体总是需要主体,无论是主-客体统一的哲学,还是将客体天真地看作一种‘事物’。相比之下,一个人不能成为一个环境的主体,而只能是环境的参与者。在环境中,自我与非自我之间的区别已经被瓦解:环境包围、包含一切。没有任何事物、任何人可以被孤立、被识别为站在环境的外面”。
最后,我前面所讲的一些内容实际上很多是在这本书里的,这本书叫做《作为认知地图的海马体》,作者是约翰·奥基夫(John O’Keefe),爱尔兰裔的著名英国神经学家,他于2014年获得诺贝尔生物学奖。有一个非常重要的点,这是一本很厚的书,有559页。书的第一章是非常专业也非常深入地讨论哲学的一篇文章,讨论了牛顿、莱布尼兹、贝克莱、康德、彭加勒、格式塔、吉布森等。
我作为一个学哲学的,看得非常汗颜。因为一个获得诺贝尔奖的科学家,对哲学的认识是如此的深入。我觉得这是大家最应该值得学习的。
现在下面有请尊敬的中国科学院神经研究所的研究员、空间感知觉课题组的组长顾勇老师来讲讲他处在领域对空间的认识。
脑科学中的空间认知
谢谢朱老师的邀请,因为我(的单位)是中科院神经科学研究所,那么长期以来我都是从神经科学或脑科学的角度来研究空间认知、空间认知的行为和神经基础,所以接下来我就从我的专业角度来谈谈我对空间概念的理解。从我们的专业领域来理解或研究空间的对象,它是一个相对有限的空间。
刚才朱老师也介绍了从空间的大小尺度来讲,可以分为小的空间,稍大的空间,甚至非常大的空间。而我们主要采用动物包括老鼠、非人灵长类动物(猴子)、甚至人来研究一个空间的范围,所以一般采用的是有边界,有范围的空间。这个空间的大小大概定义为一个房间的面积,对于小鼠一般是个直径2米以内的空间,对于猴子,比如猕猴会稍大些,对于人也许会更大些,但一般都是一个有边界的空间,一个欧式空间。
也就是说,我们关心的是生命个体在一个有限的空间范围内,进行探索时的行为和神经基础。那么欧式空间就有三个维度——x、y、z,再加上一个时间轴的信息。动物在空间中进行的探索有一个目的,就是从基本的起始点到达一个目的地,以此完成一个行为,比如食物的获取。在这个过程中所涉及到的对空间的认知主要包括了两个部分:
一是通过自己的感观,比如说视觉、听觉、前庭平衡觉、肢体本体的感觉来对外界的物体和机体自身进行感知,就如上面这张幻灯片左边所显示的那样。首先我们人和非人灵长类动物猕猴,都是高度依赖视觉的动物,我们有百分之七八十的信息来源都来自于视觉。所以我们通过视觉以及其他的感知觉对外界的物体进行三维的感知,包括空间中的具体的物体、这个空间的边界(比如说它的墙是透明的,或者墙不太高,我们可以看见外面的地标,这些地标还有这个房间就定义空间里的这些物体的形状、大小还有颜色等,这些都是我们视觉要捕捉的对象)。另外还有深度视觉,它在空间的探索中至关重要,以及这些环境中的物体,它自身可能也会运动,比如说我们在马路上行走的时候,迎面开过来的自行车、小汽车、还有行人等,也会有运动信息,这是对外界物体的三维感知。
第二个重要的感知是对机体自身状态在环境中的感知。我们的大脑里也有很多这种感受器,在工业界叫做“传感器”。比如说我们在内耳前庭有个平衡觉器官,包括耳石器和半规管,它可以感知我们机体自身在这个三维环境中的平移、直线加速度和旋转的运动,所以就能够报告我们机体在这个空间环境中的运动方向。此外,我们还有一系列的机制,比如说内耳前庭、视觉光流、以及肢体本体,可以参与计算自身在环境中运动的距离。
通过上述两种机制,即通过外界基于视觉为主的地标信息,和机体自身运动的信息就可以实现空间的定向和定位。我们在一个空间中要实现有效的导航,首先要做的是定位——我的起点在哪里,我的目标在哪里,我的起点到目标之间要怎样规划一条路径。
所以我们脑科学想研究的主要是在空间中的探索或者导航过程中,所实现的算法或者策略以及神经基础。
我们现在最关心的有两种:一种叫做路径整合,包括了对运动方向和运动距离的感知,这其实就是在笛卡尔坐标系上从起点到目的地之间的一个矢量的信息;第二种就是刚才朱老师提到的大脑的认知地图。
说到认知地图就不得不提Edward Tolman。1948年,他通过老鼠跑迷宫的实验建立并提出了认知地图的概念。Edward Tolman让老鼠在一个有限的欧式空间里头跑迷宫,实验中的老鼠目的非常明确——它要从一个起点,经过一段探索,找出一条最优的路径到达目的地来获得奖赏,所以这是老鼠跑迷宫的动机。Edward Tolman由此发展出了“认知地图”的概念,又把它叫做“心理地图”,因为他认为地图在大脑中会形成一个比较主观的对客观空间的理解。
那么在一些复杂的情况下,比如说在这个空间中,如果其中某些环境发生了变化,某一条路径上面的通道关闭了,你就得重新去寻找一条其他的路径来到达目的地,这就需要我们大脑进行灵活决策才能到达目的地。所以Edward Tolman认为这超越了传统的脑科学观点,因为在此之前,人们对大脑的理解还是认为大脑有点像巴甫洛夫的经典条件反射,是一个感觉和运动的转换的机器。而Edward Tolman老鼠跑迷宫的实验告诉我们,在大脑中其实有一张比较灵活的“认知地图”。这个认知地图可以让我们(尤其是人类)可以以自主的意愿去选择一条路径去规划。时至今日,认知地图的概念获得了越来越多的实验证据支持,越来越被人们认可,发展势头也越来越迅猛。
我们脑科学感兴趣的就是这个过程的神经基础,也就是大脑如何在整合各种外界路标信息,以及自身运动相关信息,最终把这些基于自我中心坐标系的信息转化成大脑中的基于世界中心坐标系的一张认知地图。
比如2014年诺贝尔生理与医学奖授予了这一领域的三位科学家,表彰他们对认知地图的神经基础的卓越贡献。其中一位(刚才朱老师也讲过了),是英国科学家John O’Keefe,另外两位是他曾经的博士后,后来在挪威成立了自己的实验室;May-Britt Moser和Edvard Moser夫妇。
O’Keefe在1971年在啮齿类动物的海马里发现了空间位置细胞,如下图左侧所示;2005年Moser夫妇发现了空间网格细胞,如下图右侧所示。空间位置细胞,网格细胞,连同大脑中存在的另一类指南针细胞,即“头朝向细胞”(head direction cell),共同构成了基于认知地图进行空间导航的神经基础。
大脑通过这些细胞所表征的信号,就可以完成在一个空间中从一个起点到达一个目的地的最优路径的规划。2018年谷歌公司的深度学习(DeepMind)部门,把网格细胞的原理应用到了一个智能体的导航过程中,结果获得了跟人的智能导航非常相似的一种行为表现,如在复杂变化的环境中实现灵活导航,表明这种在人们大脑中发现的空间位置细胞和网格细胞可能是我们进行空间探索的重要神经基础。
所以我从脑科学的角度讲了对“空间”的定义和认知。我们认为在一个特定的物理空间里,动物和人的主要目的是趋利避害并生存下去,为了达到这个目的,需要对某个空间环境进行充分深入的探索,这一过程所依赖的神经基础主要就是空间位置细胞、网格细胞、头朝向细胞,以及近年来研究者们发现的其它一些类型的细胞,如边界细胞,目标矢量细胞,物体朝向细胞等等。我想我就先讲到这里,谢谢大家。
@朱锐
好,谢谢顾勇老师。我想先提一个问题。因为 John O’Keefe强调说认知基础或者是心理基础从发生学、演化论的角度来说是更原始的一种基础,也就是说像鸽子等很多鸟类是靠这种原始的地图而导航的,这是第一点。第二点就是刚才您说的正是这种原始的地图提供了更多的灵活性,在复杂情形之中依然可以达到所要求的地点,而路径依赖在生物的演化史上则是更近的,但它不具有灵活性。
这两者之间好像有一定的悖论。我不知道你有没有那种感觉,就是说更原始的反而是更灵活的,而比较高级的反而不是那么灵活,我不知道您能不能评价一下。
@顾勇
谢谢朱老师的问题,那么我就谈谈我的理解吧。空间导航应该是一个比较原始的功能,目前大量的脑科学的证据都指向了它由我们大脑系统中的海马这个结构完成。海马这个结构从演化的角度讲,是我们大脑的古皮质。古皮质在很早的时候就出现,主管我们的记忆功能,包括空间记忆、场景记忆等记忆。可见空间探索和空间导航是我们动物一个非常原始的、趋利避害的,要在一个特定的空间环境中达到自我生存目的的原始功能。
所以可能在演化的压力上,它必须完成一些灵活的决策。这些灵活的决策需要建立在一定的基础之上,一种策略就是把地图探索得比较完整。就像现在工业上有一种技术叫做SLAM(Simultaneous Localization and Mapping)技术,意思就是说智能体在探索空间的时候会同时进行绘图的工作。就像新一代的扫地机器人,利用激光雷达把房间内所有的地图绘制下来之后,就可以根据手头的一张线路图来规划路径。再比如说大城市里复杂的地铁线路,其中一条地铁线因为故障关闭了,你就需要去规划另外一条路径。但这是一种存在争论的说法。与之相对的另一种说法,就是不一定要把完整的地图全部绘制下来才能够做到灵活决策。
我想举一个例子,2018年谷歌公司所收购的深度学习部门(DeepMind),在nature上有一个很好的工作(我个人非常喜欢这个工作)。他们借鉴了在动物内嗅皮层中发现的网格细胞来让一个智能体完成空间自由导航的任务。结果发现,当把网格细胞的原理利用进去之后,智能体能够非常灵活地完成空间导航的任务。所谓的灵活就是说即使把其中一条路径关闭了,它仍然能够找到第二条最优的路径。但是它的工作跟传统的SLAM有很大的不同——它并不需要完整的空间测绘,但非常有意思的是,智能体能通过路径整合的方式,能够非常快地规划出一条最优路径,虽然有些区域是先前未曾访问的。所以这种利用网格细胞的原理,可以实现较大范围内的路径整合抵达目的地,也是能够做到灵活决策的空间导航。
所以我个人觉得这两种方式也许会在不同场景下会发挥各自的优势,并不能说哪一种更好,还有很多工作需要未来进一步的研究,我想这是我的一点理解。
@朱锐
谢谢顾老师。别的老师有没有意见或问题?
@秦曾昌
顾老师,我问一个特别外行的问题。在人工智能这边,最近的神经网络其实是用一种数学的模型尝试去解决一些神经现象,但目前所有神经网络里边的节点也好,功能也好,几乎是相同的。据我所知,在神经学里,比如刚才提到海马体里边的细胞,其实不同的神经细胞是有不同的功能对吧?假设在做数学模型之中,我们应该要考虑这些神经网络的某些节点的不同功能来做一些参数的优化,而不是所有的节点都是相同的。在这个方面您有什么样的评论?
@顾勇
首先,因为我本人是偏实验科学的,我只能从实验生物学的角度来谈谈我的理解,也不一定对,只是谈谈我对研究了十几年的工作的看法。我觉得如果纯粹用这个模型来模拟的话,根据目前的知识,还是需要好几种细胞类型来共同完成。
最早的时候,比如说John O’Keefe1971年发现空间位置细胞(place cell)。所谓的空间位置细胞,就是说在一个有限的平面空间内,对每一个进入到海马的神经元细胞,它所表征的、偏好的空间位置只有一个。比如说我们可以想象一个二维的正方体里头有个细胞,每当老鼠跑到房间中央的时候,它就发放空间位置细胞,那么这是一种。
还有一种细胞叫做指南针细胞,就是在我们大脑海马、内嗅皮层、丘脑等很多脑区发现的一种指南针细胞,这种指南针细胞英文叫做head direction cell,它可以通过内耳前庭水平半规管的信号,采用一些数学积分(accumulation)的方法,去实时地去累积这个动物在这个空间中发生旋转的角度。就像我们到达一个十字路口,是朝东、朝西还是朝南,我们不需要手机,因为大脑中其实存在着一类工具——指南针细胞,可以告诉我们现在是朝着哪个方向。
这两类细胞被人们发现之后,当时的人们有一些比较直观的想法:如果有海马细胞和指南针细胞,理论上我们就可以完成一个路径积分(整合)。如果训练一个神经网络,把这两种细胞的性质整合,或者去构建一个数学模型,来把这两种细胞整合的参数模拟进去,理论上就可以完成一个路径整合的算法。这样就可以让一个智能体从任意一个起点到达目的地。
但是后来神经科学又发现了越来越多的细胞,比如说2005年由Moser夫妇共同发现的网格细胞。网格细胞跟空间位置细胞就不太一样,网格细胞是在一个空间内对于每一个神经细胞有多个发放的位点,而且发放的位点是高度规则的,它构成了一个等边三角形,高度的规则化,非常漂亮。而且內嗅皮层接受头朝向细胞的输入,因此一些网格细胞也有一定的头朝向的性质以及速度调节的性质。网格细胞被发现后,一些计算建模的工作就发现利用网格细胞来实现路径整合会比传统的位置细胞效率更高,范围更大,错误率也更低。最近的一个代表工作就是2018年DeepMind把网格细胞的性质加进他们的人工循环神经网络,通过训练,让神经网络的中间层产生了网格细胞。结果他们发现基于网格细胞的神经网络比仅仅基于位置细胞的网络更加有效率、更加智能化。
所以神经科学到目前的发展,除了刚才我说的这几类细胞,还有好几类细胞也很有意思,比如说还有一种叫做边界细胞(border cell),每次当这个动物跑到房间空间的边界的时候,这个细胞就开始发放,我们把它叫做边界细胞。还有一些细胞叫做目标朝向细胞,每次当我的机体在这个空间中面对着一个特定我要到达的目标的时候,如果是特定的距离,特定的方向,这个细胞就开始发放,所以我们把它叫做goal-directive cell,也就是叫做目的导向的细胞,目的导向的细胞很可能是路径整合的神经基础。所以目前有很多种类的细胞被陆续发现和报道出来。
我个人认为如果把这些细胞都整合到我们的数学模型或者神经网络中,或者我们神经网络训练的目的是把这些细胞在隐藏层把它训练出来,然后再去解码它,我相信这些网络能够更加的灵活和强大。这是我的看法。
@朱锐
好,谢谢顾老师。
人工智能的空间认知
我们下面有请秦老师。秦老师是北京航空航天大学自动化学院副教授,也是研究人工智能的专家。秦老师,我特别想知道机器人认知空间的主要挑战在哪?
@秦曾昌
好的,因为机器人有不同的传感器,但就像数理科学一样,其实我们都是在构建一个虚拟的数学空间。
我们生活在一个物理空间中,但是在人工智能方面,我们构建了一个高维的数学空间来解释物理空间,甚至以此来解释如认知层面上的conceptual space这种概念空间或者语义空间。这个也是我接下来要和大家分享的重点。
首先感谢朱老师的邀请,我先简单地跟大家分享一下我对空间的一些看法。刚才大家也提到了Edward Tolman(以前的时候实际上我还去过UC Berkeley的Tolman building,Tolman所处心理学系所在地,在那上过一个如何用数学模型解释心理学的课程。)
那个时候,我们做AI意在解释心理学层面,还没有到神经科学层面,都是用大量的数理模型。因为我们观察到的、外在的物理空间应该尽量避免我们感官的局限。毕竟,我们的视觉、触觉实际上是有局限的。
在这种情况下,科学家们(尤其是数学家)实际上一直以来都是用科学的思路去解释我们周围的自然现象及其背后的规律,也就是投射出一种用数学来解释所有现象的规律。从牛顿到爱因斯坦等大家可能熟知的数学公式,我们把现实的物理空间抽象成数学关系,构建出不同的数学空间,它们大量地被用于解释高维空间。
当看到0、1、2、3、4、5,或者AI识别人脸时,用机器的角度来解释人脸识别现象,我们可能没有百分百弄清楚人脑在认知上的具体工作,更不像物理化学这么清晰。从机器的角度来讲,我们还是在用一种纯数学的模式来区分出差别。
比如1、2、3、4、5这些数字,我们看起来是个模式,但如果我们把它映射成高维空间的点,比如说一个人的人脸,从不同的角度上看是一幅幅图片,这幅图片是由大量的像素构成,比如说是600×800的图像,我们把这些像素每一个部分都可以映射为空间上的一个48万像素的点。这样,一个人脸在不同的orientation(方位)下,就会在高维空间里产生聚类效应。而另外一个人的脸,则是另外的一波。所以你会发现,当我们想区别这个人的时候,是在高维空间里边找到一个数学函数,很好地把这些点进行分割和切割。如此一来,在一定区域里边就是张三,另外一个区域就是李四。
所以在数学上我们构建了认知空间,包括我们看一个录像的时候,看一个视频所有的运动,它虽然是沿着时间轴滑动,但我们可以把这个时间轴解译成另一种空间。这样的话,不同的运动、不同的动作,都可以建构成高维空间的一些轨迹,或者是高维空间的一些点等等。如此就可以用纯数学的方法,从人的认知角度,把一些复杂的现象或信息,用数学直接地进行分类和区别。
但如果说我们经常需要对这个空间做一些降维和压缩,我们常用的就是线性的(方法),咱就不细讲,就是一个矩阵变换,比如说我们把高维空间映射到一个低维。我们希望做的事情是将二维的复杂数据映射到一维。这里有两个方向,我们会倾向地选择长轴的方向,这些也变成了一些特别常用的数学技巧。
从1901年的时候我们就有这样的技巧。那我们用这样的技巧可以做什么事情?大家可以看到在下面的图片中,偏右边这幅图就是我们识别的0、1、2、3、4、5,这些实际上是手写的图像。像这种手写字符的识别,转换成图像之后变成像素点,像素点都是高维空间的点。比如说这里是20×20,也是400维空间的点,我们可以通过某种方式给它映射到二维空间。大家可以看到的里边的0、1、2、3、4、5的分布,绿色的就是2、3。这种看起来很复杂的识别问题,我们能比较好地在二维空间中找到一些它们背后的简单规律。这个就是通过数学方法去构建的语义空间。
下面这种图片的例子是我们在自然语言里讨论的语义空间,比如可以看见这里边有6篇文章,D1、D2、D3是一个文章,这个文章里面出现了不同的词,比如说第一篇文章里出现了rock这个词两次,granite一次,marble一次。同样的道理,在D5里出现了两次music和一次band,这里边实际上说的是,rock这个词既有地理上的石头的意思,也有rock music的意思。
你会发现rock的这个意思有两个层面。但如果我们给了一个新的Q1的时候,有了rock和marble这两个词,大家就能判断这个问题讨论的是石头还是音乐。所以在这种情况下,我们就可以把每一个词看成是一个维度.每一个文本就是一个维度所表明的点,这就变成了一个高维空间的点。我们可以通过刚才提到的或其他的方面的这种数学方法,映射到低维空间。(大家不用关心左边的具体方法)我们可以看到这个里边给定的所有的文本1、2、3、4、5、6它所对应的词,里边的1、2就是词频,我们就在新的二维空间里可以看到D1、D2、D3是在一起的,D4、D5、D6是在一起的。
所以通过一个纯的数学方法,通过欧式距离或求余弦夹角,这种纯的数学距离可以定义我们认知文本的语义距离。我觉得这是目前AI方法(无论是对图像的认知,还有文本的认知)的一个很大的进步。
所以在高维空间里面,比如说不同的人,实际上是个高维空间里组成的一个高维空间的流形。流形大家可以理解成就是一个特别薄的面,这个面是可导的,而且是连续的,但是它的形状可以非常地复杂,像一个瑞士卷一样等。所以我们在认知的空间中,很多的行为,如不同的人脸或者是动作(人是起立系鞋带的动作、或是跑步的动作),所有这些我们从宏观上看起来可以从大脑里感知到的这些行为,都可以通过构建一个高维的数学空间,在这个空间里进行纯的数学分析来实现。这些复杂的动作、复杂的面,或者流形,其中的很多特性和分析,就涉及到deep learning(深度学习)的发展和一些比较复杂的概率算法的出现,甚至还涉及到微分几何对于流形特性的表现等,所以这些数学工具都可以帮助我们去更好地完成这些认知。
比如下面这种流形,我们可以通过什么样的方法去规定它的距离?可以把这个瑞士卷撑开,这才是我们更期待的距离,而不是直接去算它的欧式距离等。所以还有很多类似的方法,可以把复杂的语义构建成一个可理解的空间。
比如大家看到的这个图,就是用的同样的方法。但是随着数学方法的进步,我们可以把刚才的1、2、3、4、5、6(其中有颜色的部分),通过线性压缩的方法,其实就相当于乘一个矩阵,就能够分出来一些区别。但它还是不够好。在这些数学技巧和方法之内,我们可以把这个数字在高维空间里切割得更完整,而且会分析得更好。
这里采用的都是不同的降维的方法。总结来讲,我们对人工智能里的空间认知,是一个解决人工智能问题的一种重大的方式和方法。我们通过构建这种高维的空间之后,去理解我们其实所谓的智能现象,包括认知、识别、分类预测、行动,甚至包含着文本的语义、语音识别等。
其实大家熟知的这些人工智能的技术,都是通过对传统的类似几何的方法,把它映射到一个高维的数学空间里面,可以从这个方面去认知和理解。
最后,因为我们实际的空间,包括很多艺术家、音乐家,哲学家对空间的各种不同的理解,其实有很多出自于自身的感受。从这个角度来讲的话,数学也是由大脑中构建出来的一个体系,而我们用这个体系来近似地去解释我们理解的物理空间。同时这就是以前发展过的一些普通的数学方法,包括一些宇宙飞船上天、卫星等,这是我们已经做过的事情。通过这些数学公式来解释已知的这些自然规律和现象,现在还要尝试着用同样的类似的模式和方法来解释信息处理,包括人的认知等等层面。这个也是我们提到的我们需要用大脑构建的数学空间来解释人和智能的认知的现象。我就主要跟大家分享到这里,谢谢大家。
@朱锐
谢谢秦老师。实际上我有一个问题,顾老师你们所讨论的问题中有一点是可以肯定的,你们似乎都在强调一种空间的建构性,就是通过降维或者是通过各种各样的在脑科学上的orientation或者是place,建构一种物象或是建构对世界的一种认知。而这就涉及到两个实际相关的问题。
第一个,空间建构背后的物体认知的基本概念框架,也就是说我们对空间的这种感觉,或者对空间的认识,是不是在某种意义上是假设物体只是一些特征束,a bundle of features,它不具有传统所说的外延或者是物质性matter,它只是一些bundle,且这些bundle可以由我们事先定义,或者是应用空间技术把它归结为我们所需要的东西。这个东西是不是在某种意义上改变了传统发对物体的认识。
第二个我所知道的一个关键点就是机器人被设计出来,是为了进入家庭,而家庭是一个开放性的空间,其中的物体它都有意义的,它不是简单地一些特征的数。怎么样才能让您刚才说的通过这些数学工具,用这种抽象的降维的工具去识别这个是厨房,这个是洗手间,这个是Living room(客厅)。这些东西是有自身价值和符号特征的,机器怎样才能够通过降维的方式去理解他们?
@秦曾昌
好的,朱老师,您这个问题其实还是非常地切入要害的。因为本身这也是人工智能方法的局限,确实我们目前做的核心还是像您提到的那样把它变成一个bundle。假设一个同学想分类Ta是男生或者女生,我们就提Ta的特征,即身高体重所有的可能。但它的维度也不超过20个,那这20个数字难道就定义了这个人吗?当然不是的,可为了区分男生女生这个的目标,期待积累的数字指标只需要20个特征。
所以,这个方式虽然有各种各样的实际问题,但这也是一种是没有办法的practical approach(实践手段)。第一,我们无法去积累一个人他一生以来所有的数据;第二,没有任何计算工具和现在的数学可支持如此大量的数据顺时间处理。所以我们只好做简化的认知,比如地球和月球之间的运动关系,是可以用简单的公式来描述的,这些都是我们所做简单的抽象。
您提的第二个问题是对机器人进入家庭之后识别物体的问题,这确实面临着很大的挑战。这个挑战是因为在今天的机器学习大部分是基于learning from data,你要给它“看”很多厨房、皮球的图像数据,它才能知道这是厨房,这是皮球,这是客厅,这是电视。但是我们会有举不完的例子,所以在逻辑方面,我们可能需要构建人的reasoning(推理)。恰恰幽默的是,The reasoning的方法是在人工智能发展的最早期,也就是五六十年代的时候,所采用的建构规则的方法。到80年代的时候,发现原来人的规则也是不尽穷举的,才开始用纯的数据(建模)方法,直到今天我们在尝试这是否是有这种基于逻辑的规则,这种reasoning的方法加上learning from data(的方法),能更好地让机器去做出更好的反应。
现在我们能做的事情,比如看图说话,我给了一幅图片之后可以跟机器进行对话,这里有几个人?他在大概的做什么?盘子里面放了什么食物……虽然需要大量的训练数据,但是还是有一些reasoning的模块,一些逻辑的东西在里面。至少人类第一次对于这么复杂的所谓的智能问题,可以会渐渐地尝试着得到一些结果,可这仍然还是远远不够的。
当然,一个机器通过训练得到的数据,和人得到的信息还是有差异的。我们从小到大,每一分钟都在不断地学习和积累数据,目前的智能机器可能还做不到这一点。所以考虑到这种情况,(机器学习)其实还是有一些可提高的空间,这些仍然是在研究之中。
@朱锐
谢谢秦老师,别的老师有没有问题?
@顾勇
我提一个比较宏观的问题。以人脸识别为例,它是一个高度的空间,因为它涉及到了眼睛、鼻子、嘴巴、耳朵及其比例、角度、遮挡之间的相关性。那么,在做数学工作的时候,有没有考虑结合脑科学或神经科学中发现的现象,看看这些神经科学的发现是否有助于数学模型的构建,或者反过来数学模型的构建,能否指导我们脑科学家应该怎么做。
@秦曾昌
当然这是一定的,关键是在于这两个领域门槛不算低,所以这两个领域都精通的学者可能也不算特别多。比如对于心理学、认知科学,MIT就做了好多Computational Psychology(计算心理学)或Computational and Cognitive Sciences(计算与认知科学)的研究。因为从数学模型解释认知的话还是近一点,但神经底层的部分确实可能要更远一些,需要更多的工作。当然也有好多人做了,如Computational Neuroscience(计算神经科学),包括UCL的Gatsby centre,他们做了很多。在跨学科的神经科学和机器学习这方面的工作,包括李兆平、Peter Dayan,他们其实也做了很多类似的工作。只不过这还是涉及底层的基础的东西,我们也特别期待去做这方面的研究。
但存在的情况是,最近AI基于算法的工业应用特别多,大量的AI科学家把所有的关注点都放在整个的工业界互联网界的应用上,那么在研究本源问题的力量就变得薄弱了很多。我们希望从更底层的方式来解释心理,抵达最终极的问题,去了解这背后从神经到大脑,人的智能为何如此的问题。这其实是我们一直以来的梦想。当然也特别期待跟顾老师有更多的交流,谢谢。
@朱锐
刚才您在回答我这个问题的时候提到物体被归结为一个bundle,在您看来也许是现在的一个局限。我最近在看John O'Keefe的书,我很喜欢他写的东西。他曾经提过一个问题,当老鼠在看一个物体的时候,这个物体仅仅是一个单维度的特征束,还是一个多维度的同一体?An unimodal bundle of feature or a multimodal unity?第三个才是有实体性的、外延性的物体。
John O'Keefe认为,也许动物在识别或认知物体的时候,它或许只把物体当作一个单维度的特征束,或者一个多维度的同一体,但不必然具有传统哲学所说的外延性的实体。如果人脑也是这样的,即人不必然把物体看作是一个具有外延性的实体,这也就是假设了我们所有人都是被哲学误导,包括常识中关于物体的观点,所谓物体就是一些特征束。
按照这样来理解,当我们在考虑虚拟空间或者虚拟物体时,它们没有物质性、没有实体性。只是在我们的认知之中,我们感觉到它是一个正常的物体,图像可以代替物体,虚拟的特征束可以代替所谓的实体。如此一来,实体只是一个幻觉而已,只是一个建构起来的、或者受哲学传统的本体论框架所误导的东西。当我们在谈论robot、robot system(机器人系统),或者是The Boston Atlas,他们把机器人当做一个具有物质性的实体来看待,在某种意义上这种对机器人的理解是不是已经局限于传统哲学的对空间的误解,或者是对空间和物体关系的误解?换言之,机器人不一定需要物质性的在场,走进我的家可以是任何一个东西,那么,我们需要在那个空间上完全地解放我们对物体的理解。
我希望顾勇老师能够从脑科学的角度回答这个问题,然后也请秦老师从机器人这个角度来回答。这种宏观的观点当然也是一种猜测,也许我们所认为的缺陷不是科学,不是技术,而是我们的哲学,缺陷在于我们的常识。
@顾勇
那我就先谈谈我对这个问题的看法和理解。
因为我本身正好是研究多模态信息整合的,我的实验室非常关心各种模态的信息,主要是视觉、听觉、前庭平衡觉等感觉,关注这些感觉是如何绑定在一起,来形成一种更统一的新的感觉,或者更接近一个实体的感觉的。
所以我个人的观点是我们需要有多模态的信息,以此更越接近这个实体,并且是越能够还原出实体越好。比如我们人的发育过程,实际上就是一个多模态的过程。小孩出生的时候,实际上靠的是触觉,因为他的触觉先发育。所以在这个小孩还不能爬的时候,只要手上有接触到东西,就会往嘴里塞,这是因为他要用他嘴唇的触觉和手的触觉去感知这个世界。等小孩在发育的时候,其他的感觉如视觉开始加进来(视觉更晚发育),他用视觉再去注视,以此匹配到我们的躯体感觉中。再之后到运动的后期,如爬、站立的时候,这些运动信息的本体感觉也加进来,形成了非常生动活泼的一个实体,所以这是一个多感觉的过程。
(回到朱老师的第一个问题)我们大脑处理信息是这样一个过程。从脑科学的角度来讲,首先它是还原的,它通过我们不同的感官,包括眼睛、鼻子、耳朵、嘴巴,而眼睛又从视网膜开始到我们的初级视皮层,把信息逐一地分解(就像刚才秦老师研究的脸部识别,把一张复杂的脸分解成很多基本的元素),所以我们把它叫做还原论。当然有不少人对还原论有不同的看法。但只是大脑确实是这么处理信息的,从我们的初级视觉皮层开始,把它还原成一些光点、线条、直角三角形、锐角三角形、钝角三角形,甚至还原出颜色的信息,然后再慢慢地向上传递的过程。这是一个大脑的串行的信息加工处理过程。
但大脑它的运行,既有信息串行的处理过程,也有从低等级到高等级并行处理的过程。在后一个过程中,它会把所有的信息在最后进行绑定,我们把它叫Information binding或者Information integration。这其中包括单模态的信息,如视觉的各种信息或者跨模态的信息。把它组合起来,这些信息就往更高的脑区投射。比如投射到我们的IT(inferior temporal)颞叶中的比较高级的皮层。它把来自底层L1的这些最基本的线条、基本元素的信息又重新组合起来。这些信息在投射到海马体的时候,这些皮层的信息还会回射到海马。通过一种赫伯学习(突触学习)的机制,它可以把更多的信息进行整合,可以把听觉、触觉、嗅觉,还有我们的语义的信息都整合起来。所以在我们脑科学里有一个争论——我们的大脑有没有祖母细胞(grandmother cells)。
什么叫做祖母细胞?从哲学的角度来讲,如果大脑中的信息是从简单到复杂的整合的过程,那么必然在我们的大脑中到了我们的顶级(处理)的时候,会有那么一个细胞,它会去编码我们一个超级复杂的事物。比如说奶奶的一张脸,我们能够识别出我们的奶奶,是因为我们在大脑的海马体里有一个神经细胞,它能够对我们的奶奶每次出现的时候做出响应,不仅对奶奶的脸响应,对奶奶的名字响应,也能够对奶奶的声音“该回家吃饭了”做出响应。奶奶的身上穿着的一件衣服,或者闻到她的气味了,你也能够想起这是你的奶奶,这个细胞也会反应。到了所有的信息最后整合到了一起,就能把奶奶的形象还原出来。当然了,如果所有的信息都在,比如说奶奶出现在你的面前,她跟你说话,她脸部表情的变化,再加上她身上的气味,所有这些信息组合起来就能够更加地还原出一个实体。
所以我个人觉得未来的人工智能,我还是希望看到一个实体,这个实体最好能够整合各种模态的信息,展现非常生动的形态。比如说现在全息成像网络会议,我们通过视觉、听觉也能够达到一定的目的,但是我总觉得不如所有的包括触觉等等的这些信息在一起,才能够更加地符合我们真实生活,这是我对信息处理,还有我的对AI发展的一点期望。
@朱锐
谢谢顾老师,有请秦老师。
@秦曾昌
也特别巧,就是我的研究跟顾老师一样,我也做多模态的,但是我们的声音、图像,实际上都投射到一个高维的数学空间里。这样一来,如果有一段声音就知道跟它最近的图像是什么,有了一个图像就知道它所描述的最近的文本是什么。这是特别实际的工作。刚才朱老师说第一个问题,我原先也思考过。当人看到了一个外边的个体,肯定是以多模态的信息附加过来的,我们可以通过自己的感知来激活,这些信息相当于是一个敲门砖一样来激活大脑的认知。但对这件事情的认知,原则上分为两个部分,一个是当我看到了这个事物本身获得的各方面信息,另一个是激活你的大脑中所有关于这件事情的记忆,它们附加在一起,在我大脑中产生了一个印象。
所以现在人工智能里,我们做的大部分事情是第一步,我们对那些我们看到的事物进行认知和识别。但是在与之相关的记忆部分,如何更好地利用看到的物体或者本体这一方面,我们还是有不足的。虽然我们现在已经开始强调记忆的重要性,但是我一直有个担忧,我会觉得就目前来讲,从神经角度、从人工智能或者从数学角度来讲,我们想研究人的智能有很遗憾的一点,我们大大地忽略了人的记忆的重要性。
如果人如果没有记忆,你会发现很多事情都是不存在的,甚至人的智能也不存在。我甚至假设的人的一些logical reasoning,其实是记忆的一种延伸。但这个事情假设太大了,也是我最近才有的想法,但我不知道该怎么去研究它。比如,我因为一直记着两件事情,它们同时出现,所以我看到了一件事情就会联想到另外一件事情、推理到另外一件事情。而这只不过是一个记忆的贡献,就只是记忆的关联而已。
所以记忆在整个的reasoning和智能中的作用似乎一直没有体现的,那么我想也许顾老师做底层的神经学研究是一个好的方向,从数学角度来讲,类似于做记忆的数学模型也是特别好的一件事情。我们也在努力之中。
@朱锐
非常有启发。
艺术创作中的空间处理
现在请艺术家万千个老师谈一谈他的感受。
@万千个
好的,谢谢朱教授,也谢谢前面各位嘉宾的介绍。今天我也很受启发。对比前面研究神经科学、VR数据算法这些比较偏理科或科学的形而上探讨,我今天的分享可能会显得更形而下一点。大家也可以把我的内容当成抛砖引玉,以此引发一些大家的讨论。
我主要是从一个艺术创作者的角度,来讲一讲艺术创作中一些空间处理的手法,主要是从感性的角度对空间进行分类。但它不是一个非常全面的分类。因为我并不是一位专门做空间艺术的艺术家。我是一个平面设计师,主要处理的是如何在平面上体现空间感或者立体感。而在艺术史上也会有各种各样的手法去探讨或者再现世界的真实。我ppt的所有内容都是图片,所以我们一边看一边说。
首先是透视。透视其实是西方最早出现的一种基于科学或是客观角度再现世界的方法。我们可以看到在早期有一些西方的画家会利用装置去检验它的透视效果,检验的工具就用到了镜子。而镜子其实也是一个平面,是用来再现空间的工具。而我觉得在空间里面,镜子也是比较特别的存在。画家利用镜子的小孔来检验他们的透视线条是否跟真实的世界达成一致。这中间的小孔也就成为了焦点透视的一个特别之处。它把所有的东西都聚焦到了一个无限远的点上,而这个点的另一端就是人的眼睛。
下面是三张和理想国同一主题的绘画。其实当时这些建筑还没有出现,只是大家理想中城市的样子,其中一张是乌尔比诺,一张是巴尔的摩,还有一张是柏林。
当时大部分人可能会从建筑的特点,或是建筑的风格进行观看。但今天我们再看这三幅画的时候有很重要的一点,就是这几幅建筑绘画都是从画面正中央透视的视角来看的。可这个视角并不是我们观看建筑唯一的视角,我们还有俯视、仰视等视角。但这种视角却造成了当时西方只基于透视视角来观看建筑,而故意把一些立面或者是斜面设计成了只在透视视角下最合理的样子。这种透视看上去很科学,但更多的是把人的眼睛作为看世界的主导方法,并不完全客观。假如用科学来检验的话,就会出现矛盾。比如说在埃舍尔的版画中,他利用透视的bug做了一些能使人产生错觉的图像,他也在通过这种完全客观的透视来探讨它是不是科学的。
除此之外,还有一个比较重要的点是西方绘画里有投影,但一般东方的国画中对于投影的描绘都较少。最常见的例子是在学画的时候,一开始(东方的)小孩只会画一个普通的圆,但他从来不知道还可以通过这种(阴影的)方式画圆。直到学了素描,他们可能才知道原来圆通过阴影的变换和投影居然可以变成立体的。
下面这张画是一个不知名的画家画的一张头像。这幅画的重点在于它整个头像都是比较平的,可你却会感觉这幅画特别立体。为什么?因为他在画的左上角画了一个苍蝇,而这个苍蝇有一个画得非常精细的投影。这只苍蝇把一个没那么真实的东西,突然转化成了有灵魂的人物。这其实是一个很特别的现象,这里的苍蝇其实也是在利用投影的方式来给人一种画面内外(立体)的错觉。
同样的,阴影对于空间的暗示在这副《救世主》的画中也有体现。我们可以看他右下角手的投影,及他前面有基督名字的小便条下的阴影,你会感觉他的手似乎在画框之外,伸向了观众。
而到了后期绘画中的阴影,它其实不再被用来再现某物,而是成为了一种工具,很多时候会被用来做心理暗示。比如说基里科的《一日之谜》,体现了一种神秘的空间,而拉长的阴影也给这个画面增添了一些神秘感。
再后来阴影就完全变成了一种艺术创作手法,它变成了立体派进行抽象绘画的方式。这是毕加索的一张画作,里面的元素和他后面的作品《亚维农少女》的脸是一致的,在表现空间的不断改变。
由此我想到,投影可能是一种从高维度向低维度转化的过程,比如一个蚂蚁在莫比乌斯上爬,它的投影其实一直都是在二维的,它永远无法理解三维的事物。那么如果有一个高维度事物的投影,它在我们世界的体现可能就是三维的。也会有人基于此提出像三维空间是不是四维空间的投影一类的问题。
除了投影之外,还有一个比较直截了当的在艺术中体现空间的方式就是遮挡。其实最早的绘画或者石板画,比如在埃及古壁画上,所有人的脚都是分开放的,不会有任何遮挡。那个时代的绘画可能更多是出于一种观念,它表现的是“人”这个概念。
上面这张画是公元前2600年的作品。而过了300年就突然出现了一个雕塑,这个浮雕的特点就是它的前脚和后脚是重叠的。这么一个小小的重叠其实就代表了在文化或者观念上对空间理解的改变。它可能更多是写实,而不是表达符号性的理解。
再到后来出现了中国或者东方绘画里面一个特别的媒介,就是在屏风上面作画。屏风其实也是一个遮挡,而在屏风上面的画又创造了一个新的空间,同时它也遮挡了后面那些不想让人看到的其他空间。
有一些画是描绘屏风自身,像重屏图,它其实有好几个屏风。前面一个屏风,里面还有一个屏风,是一个空间中再度虚拟的空间,一个空间遮挡完一个空间,又创造一个新的空间。这就是我对于这张画的视角和空间的解析。
今天的这种遮挡效果是如何产生空间的呢?比如说时代广场最早其实是没有任何的遮挡的,你可以直接看到广场的建筑,到了今天才慢慢的变成了一个完全由屏幕遮挡的地方。而屏幕这样一个新的、类似于屏风的东西,也成为了我们今天构筑空间的一个主要媒介。如今,甚至在飞机上也是如此,我们的空间可能已经被虚拟的空间慢慢代替了。
最后,在平面的媒介上,还有一种说法是通过时间的方式来展示空间。这一点是东方和西方绘画特别不一样的地方,也是大卫.霍克尼(David Hockney)会对中国的卷轴式绘画感兴趣的理由。这张图是他在某个纪录片里,他在展开一张康熙南巡的长卷。
中国绘画可能不一定会常用透视的画法,它更多的是一个由视角或者是时间变化带来不同维度的所构建的一个复杂且主观的空间。像下面这两张图,同样一个桥它可能一会是从右边视角出发观看的样子,一会是左边的视角看的样子,这种主观的切换会让你对于客观事物有比较全面的了解,而不像是西方绘画只能从一个视点来观看。
同时它还有一些比较模糊的处理方法,比如说画的中间会有一段雾气,雾气的这一头可能是冬天的效果,那头可能是夏天的效果,它利用这些雾气来切换时空。
同样的,大卫霍克尼受到东方这种视角随时间变化的概念影响,也创造了一些摄影作品,他在不同的时间去拍一个高速公路,然后通过不同角度的变化集合成一张照片,最后变成他个人的某种风格性的摄影作品。
今天主要介绍的大概是这四种手法,最后放一张之前参加冬奥会的设计。可以看到左边是上一次2008年北京奥运会的吉祥物,右边是现在的吉祥物,一般探讨的重点可能会在为什么现在是熊猫,而过去是福娃。但很少人去关注到它表现手法的区别。我们可以看见右边吉祥物的空间感或者立体感是更强的,它更多的是一种对于真实的模仿。
什么叫真实?就像今天拍电影一样,可能很多电影都要拍成3D,才会有人愿意去去看,它可能正在成为现在的一种趋势,但是这种趋势是不是一个好的趋势,也是值得大家探讨的。我就分享到这里,看看朱老师或者其他嘉宾有些什么问题,我们可以继续再探讨。
@朱锐
谢谢万老师精彩分享,别的老师有没有问题?
@顾勇
我提一个外行的问题。刚才万老师展示了西方的透视的原理和中国画的对比,我觉得蛮有意思的。西方的这种透视的原理,就有点像我们脑科学,它比较忠实或者真实地反映了我们眼睛所看到的视角。而我们的中国的画,显然没太把透视考虑在内。比如说刚才的清明上河图或者其他画作,人物的远近大小其实都差不多,它并没有按照透视的原理作画。如果按照透视和深度视觉的角度,其实远处的人或者房子应该更小。但如果真的按照透视的角度去做画的话有一个坏处,那就是远处的人的细节就看不清楚了,而这其实不是我们的本意。可能中国画里面更多的是写意,不是写实,把一些我们想要表达的东西表达出来。如果真正完全的去写实了,可能有些东西反而表达不出来了,不知道我的想法有没有依据?
@万千个
我觉得顾老师说的其实很对,东方绘画和西方绘画也表现了他们对于世界理解方式的不同。有人说古希腊在那个时代就可以把人的雕塑做的那么真实,而中国发展这么多年,好像也没有要去把人的肌肉用解剖的方式理解透彻,并且画出来,但这好像并不阻碍他去传达人的神态和形态。甚至像您说的,他把人画成等大的以后,我们还更容易去理解或者观察他真实的生活状态 。
在艺术创作里,其实有一部分艺术家在追求这种再现,还有一部分艺术家在追求更多地体现内心的情感。很难说到底哪种更正确。我今天探讨的主要是艺术家应该如何去再现。其实透视就是一种他们试图客观化世界的方式,但它只是构建了类似于几何学这样完整的说法,至于这个说法是否是真的科学,你在埃舍尔的画中就可以看到它的矛盾之处。
所以绘画跟前面您和秦老师两位说的东西可以联系起来,是否可以用mapping这个词来理解绘画?绘画其实有的时候也很像mapping,它其实也是一个制图或者绘图,只不过它没有那么的科学,可能它并不是完全精确的。
@朱锐
我想说一句,我觉得屏幕前面的观众应该都能看见一个很有趣的现象,就是艺术家和科学家实际上在做同样的事。这在神经美学上叫做平行主义,就是人脑跟艺术有一种平行性。也就是说艺术家在构造一个艺术现实时,和人脑在构造一个现实世界的认知时,它们的基本机制几乎是完全一样的。这个机制的第一点就是降维,就是把一个实体的、多维度的东西Decompose,把它分解成不同的单维度的东西。这种对单维度的理解就是单维度的表现,这就是第一点:降维。
第二点是绑定,人脑也是通过各个维度的进行绑定。刚才万老师强调阴影可以构造现实,也可以构造虚幻。所谓我们的现实世界,我们所理解的物体,它实际上是一个绑定的结果,是一个构建的结果。这是我个人的理解,也是神经美学的一个强调的道理,就是说我们都会觉得每一个艺术表现形式,只要我们能理解它,它就都有合理性。就是因为人脑实际上给我们提供了很多可能性的空间,没有一个空间是单一的。
就像刚才顾老师所提到的有边界细胞,有head direction cell,有place cell,有grid cell,也许以后也会有更多的发现。也就是说所谓空间其实是支离破碎的,然后生物通过一种降维的方式把它分解成各种各样的空间,最后甚至在相互否定或者冲突的意义上,通过某种绑定来构建出我们所熟悉的现实。而这种熟悉的现实它到底具不具有真实性?我觉得这是我们所有的艺术家和科学家,特别是我很喜欢的一位艺术评论家袁园老师所关注的问题,下面我们请袁园老师。
艺术实践的空间表现
@袁园
好的,谢谢朱锐老师,我分享一下屏幕。我觉得朱锐老师把我放在最后一个,是希望我尽量能把前面几位讲的内容,通过展示具体的当代艺术的实践、回顾艺术史上面的作品来做一个回应。
我先讲主要观点。第一从技术的角度而言,文艺复兴时期的透视和我们今天讨论的人工智能并没有区别,都是作为空间感知的技术。透视是文艺复兴时期空间感知的技术,而人工智能是今天乃至未来主宰我们空间感知的技术。所以在这个意义上,透视和人工智能都是一种技术装置,这种技术装置决定了我们人的空间感知,而人的空间感知又塑造了主体。这是我的观点的基本逻辑——不同的时代都会有它的技术,这些技术塑造了我们的空间感知,也塑造了我们的主体。所以我们今天我们去谈论空间是极为必要的,因为空间不是客观的,也不是康德所说的先验直观。它是深层的、建构的。接下来我会快速地通过一些艺术实例来阐明我的观点。
因为之前我们有多次的交流,也知道我的观点比较激进。开篇我想引用西方马克思主义的先驱卢卡奇在《小说理论》当中的一段话。他讲到三个时代,第一个是古希腊的史诗时代,在那个时代人和空间是一体的,星空之下道路清晰可辨,既不知道自己会迷失自我,也从未想过要去寻找自我,那是世界的史诗时代。而我们现在所处的时代,是无家可归的时代。无家可归的时代其实就是一个空间破碎的时代、总体空间结构破碎的时代,这就是我们时代的特征。
我们知道在文化和艺术领域当中,从上个世纪的七十年代经历了一个空间的转向。西方哲学家不断谈到空间转向的概念,这与列斐伏尔的空间生产理论有关。我们如何理解空间转向呢?我用一个具体的艺术实践举例,是我几年前收藏的年轻艺术家的绘画作品《游戏盒子》,她画的一个平面空间,画面的内容是在现实空间中的日常游戏——打地鼠,但你看到画面中每一个格子里的不是地鼠,而是社会空间中不同角色的人。我们通常会把空间区分为物理空间、心理空间。而空间转向关注的是社会空间,也就是空间与权力、主体、社会的关系。
这个绘画作品曾经参加过一个展览,策展方为它做了增强现实的版本,当你把iPad的摄像头对准这幅画的时候,你可以在iPad中的程序界面看到一个虚拟的游戏空间,在iPad上互动打地鼠。在这个艺术实践中你看到多个空间的呈现,包括作为绘画的平面空间,你在观看绘画时所处的现实空间,以及在增强现实的互动过程中体验的虚拟空间。这些空间之间没有既定的边界,或者说各种空间的边界已经崩溃了。
接下来我想谈谈空间是如何崩溃的。这幅照片中呈现的是公元79年火山喷发时被埋葬的一个别墅,位于庞贝古城附近,现在整个别墅都在大都会博物馆。你可以看到房间壁画中的空间完全不同于文艺复兴时期的透视空间。所以我刚才说到透视是一种技术,是在文艺复兴时期逐渐发展成熟起来的一种技术,这种技术决定了我们的空间感知。它不是客观的,也不是自然的、真实的。
阿尔贝蒂在《论绘画》中讲到绘画的框架就像打开窗户一样从当中去看世界。
我举一个例子,这是文艺复兴时期威尼斯画派的奠基者贝利尼的绘画《圣母加冕》,我们看这幅画如何区分空间,画面背景中间的框架之内是一个尘世的世俗空间,而在这个框架之外,则是天堂空间,这两个空间处在同一个平面之上,仅仅是通过这个框架实现了空间的区分。
到浪漫主义时期,你看Friendrich的窗户,就是画家自己的画室窗户,他还在维护着阿尔贝蒂所说的推开窗户看到的世界幻觉,这个空间还没有崩溃,那它们到底是如何崩溃的呢?
这是杜尚在1920年做的窗户现成品,然而这个可以在现实中用手真切推开的窗户却关闭了之前作为世界之窗的绘画空间幻觉。
再到丰塔纳,我们看到他直接用刀划开了画布的平面。
接下来这个例子是罗伯特·格伯(robert gober)的《监狱窗户》。他直接在画廊的墙上开了一扇窗。这扇连通内部与外部空间的现实窗户,同时也是揭示从文艺复兴以来透视技术建构的空间崩溃的窗户。
沿着艺术史的脉络,我们回看文艺复兴之前的绘画,这是14世纪的一幅宗教画。描绘的是马槽里耶稣诞生的故事,你会看到在这幅画中的婴儿床和亭子并不符合透视关系,让我们会感觉到不真实,这正是因为透视作为一种技术,已经塑造了我们对真实的空间感知。
我们再跳到罗伯特·格伯在1987年的另一件装置作品,这是一张在现实三维空间中按照二维平面透视扭曲视觉构造的婴儿床,之前那幅14世纪绘画中的婴儿床和这张婴儿床装置形成一种空间关系的对照,前者是在绘画的二维空间中通过扭曲来建构空间的真实感,则这个装置则是在现实的三维空间中扭曲来击溃空间的真实感。
这个装置是整个从外部穿透画廊的白盒子空间。
我想通过这幅摄影作品回应前面两位老师讲的人工智能、算法的内容。我们总是试图通过还原的思维和方法来维系我们的空间感知,然而这幅摄影作品的空间是不可还原的,艺术家在创作过程中调用了绘画、雕塑、摄影各种媒介技术,最后呈现出这样一个摄影平面。但你无法确认这个构成这个平面的局部到底是实物、投影还是颜色?你无法通过观看去还原产生这个二维平面的三维空间,这个平面空间中的所有细节都向你敞开,但同时这个空间又是不透明的。
最后,我再用一个当代艺术的实践来讲空间的崩溃,这是一个芬兰艺术家组合的装置,天平支撑结构的封闭透明盒子里注入了液体,液体表面构成一个地平线,但这个地平线是一个不稳定的地平线,处在不断地动荡过程之中,我们所说的地平线就是一个稳定空间感知的参照,我们可以把这个装置作为一个空间的隐喻——既定的、稳定的、空间的秩序和结构已然坍塌。
而当代艺术家的角色就是福柯所说的制图者。时间的时代在二战崩溃了,那个从野蛮到文明的进步时间秩序已经崩溃了,我们现在是空间的时代,造成我们主体焦虑的原因都跟空间有关。
无论是文艺复兴时期的透视技术,还是如今的人工智能技术,或者是未来将会出现的技术,能够吸引我们的空间,恰好是对我们的生命主体的时间记忆和历史本身进行腐蚀的空间。当代艺术的空间转向主要是对空间的批判、对空间的反思。也包括艺术家作为制图者去绘制出来跟主体有关系的地图。
我用一个示意图来解释这种制图。这是空间的象限图,对于刚诞生的婴儿,或者说还未被既定的空间感知所污染的人,就处在未成形的状态,它有着充分的异质性。而我们所说的规训的社会空间(对主体的空间感知规训),其实就是逐渐把主体同质化,然后再进行编码固化这样的结构。而作为制图者的艺术家就是要解码,击溃既定的结构,打开空间感知的可能性,就是打开主体的可能性。
当代艺术家是如何去实践的呢?这个作品来自于比特族媒体小组,一个非常活跃的艺术家团体。我们可以看到照片中站台的立柱结构是错位的,艺术家在现实的站台建筑空间中制造出一种在数字屏幕空间故障导致的位移。当下我们的空间感知已经深深地被屏幕中的数字空间所控制和影响,在这个作品中,我们看到艺术家把数字空间对主体的侵蚀在现实空间中呈现出来。
接下来我再讲两个人工智能的案例。大家看到的这个作品《机器幻觉》,是一个土耳其艺术家在纽约的切尔西市场的锅炉室做的作品。收集了超过2亿张关于纽约城市景观的数据集,采用英美达开源的人工智能算法,你所看到的纽约的图像都是人工智能算法生成的,尽管看上去像是你所熟悉的现实空间。这个艺术家还有另外一个作品叫《量子记忆》。从网络收集数以亿计的风景图像,然后构造出看上去似曾相识的景观,或是从未有感知过的景观,今天我们面临的问题不是如何区分数字空间与现实空间,而是技术所塑造的空间感知会如何侵蚀主体?
今天,我们该如何去思考空间?最后我再讲一个增强现实的作品。这个作品是艺术家卡希尔去年做的作品《自由钟》(自由钟是指美国独立宣言的时候敲的钟)。你可以在手机里安装这个APP,当你在费城艺术博物馆的现实位置上时,可以通过手机屏幕看到这个叠加在现实空间之上的数字虚拟的自由钟。通过上面所谈的这些艺术实践,更能理解那些塑造我们空间感知的技术不是中立的,都跟我们的社会、权利、话语深刻地绑定一起。
我就先讲到这儿,以后我们再继续。
Q&A
@朱锐
非常感谢袁园老师的精彩分享。现在有两个观众的问题,第一个问题是估计是给顾勇老师的,当然别的老师也可以回答。这个问题是,在未来是否可能有外部手段去影响海马体或者其他细胞进行多模态的信息整合,从而让人认识到完全不一样的信息,或者得到完全不同的视觉。比如家庭空间原有的样子,在干预下会变得不同于以往。这是第一个问题。第二个问题是给秦老师的,能否分享下无人驾驶领域中的空间视觉和算法?
@顾勇
好的,那么我接着朱老师的第一个问题“人工干预影响知觉”,来回答一下观众提出的问题。
恰巧我们实验室的一个重要的研究方向就是人工干预,我们的做法是把一个非常细的、大概在100微米左右的微电极植入到脑子里。我们通过人工注入电流的办法人为地干扰一群神经细胞的放电活动。因为神经细胞是通过神经元的细胞放电活动来处理我们的感知认知的。
我们可以通过人工的手段人为地让它产生放电,尽管在它面前的并不是它真正喜欢的刺激物。而且这种技术手段已经被广泛地应用在神经科学之中,主要就是通过人工改变一群神经细胞的放电活动,进而改变或者人为产生我们想要的“人工知觉”。
那么它有两个作用,第一个作用是它可以帮助我们理解大脑中的一群神经细胞是否真正地在参与一项认知功能。第二个作用它可以被应用在现在的脑机接口技术。
我重点讲讲第一个技术。不仅是我们实验室,也包括世界上很多实验室都已经可以在不同的脑区进行人工干预。比如在2005年的时候,伊朗有一个研究组在nature上发表了一个工作,他们把电极放在了IT脑区。IT脑区有相当多比例的神经细胞,它负责产生人脸的感知。如果我们把一个电极放进去并给它一个电流,我们可以扭曲呈现在被试眼前的人脸的图像(当然做的这个实验是在猴子身上做的)。我举个简单例子,我们在猴子面前呈现出了一张人脸,但我们人为地刺激一群负责编码的神经元细胞,比如编码一棵树的细胞。那这个编码树的细胞就会拼命地放电,向大脑高级司令部报告,“我现在看到的是一棵树,而不是一张人脸”。这样一来就能够覆盖原来的人脸的视觉图像。且这个实验真的做成功了。当你去刺激一个编码物体的神经元细胞的时候,它真的能够覆盖猕猴对人脸的感知。反过来也一样,如果你去刺激编码人脸的神经元细胞,它也能够覆盖呈现在猴子面前的对物体的感知,所以这种技术手段是可行的。
那么目前这些技术手段除了在IT脑区的应用之外,还在其他脑区有应用,比如一些管理视觉运动的脑区。当我向你呈现一个向左运动的物体,但我去刺激一群编码向右运动的细胞,这个时候就能够改变你的认知,你就感觉到好像在往右运动,而不是实际的往左运动。海马体的电刺激的实验目前还几乎没有,唯一的工作应该是2020年英国的一个研究组用现代光遗传手段人工激活位置细胞,结果让动物对空间记忆发生了偏差。
第二个应用人工脑机接口。我想推荐大家的两个工作都是在去年发表的论文上,一篇是发表在Science上面,一篇发表在Cell上面,都是顶级的科学与期刊。其中一个是猴子的工作,另外一个是在人身上的工作,是利用癫痫病人做的实验,他们把电极放在猴子和人的后脑勺V1脑区——专门负责我们的视觉感知,是我们大脑中的处理视觉信息的低级中枢,叫做初级视觉皮层。参与实验的猴子只能看到一个几乎空白的屏幕,而参与实验的人是个盲人,他们什么都看不见。但当我们向电极注入人工电流之后,我们就可以去人为地去兴奋V1脑区中的一群视神经元。如果我们组合出一个图案,比如我们按照字母A的形状,组合电极排列的方式去激活它。那么我们就能够让盲人在漆黑的脑海里,或猴子所面对的空白屏幕上出现一个虚拟的字母A。实验证明,他们的病人确实可以通过手绘的方式准确地重现出了电刺激初级视皮层所应该产生的字母,这可以让病人恢复一定的视觉。这个是通过人工干预的直接应用,将来很可能可以应用于我们临床医疗,改进病人的生活质量,谢谢。
@袁园
这让我联想到一个和这个有关的案例,这是非常重要的已故艺术家哈伦·法罗基,他的视频装置系列作品,叫做《严肃游戏》。我将通过他的三部曲来回应刚才的问题。第一部分是叫做“沃森倒下了”。在这个场景当中大家可以看到,这是在美军本土的基地,这些军人通过操作战争场景的电脑游戏进行训练,我们可以看到虚拟的战争空间和现实的战争空间之间的连续性。
第二个部分《三个人死了》。美军在加州的军事基地用集装箱一样的盒子搭建一个中东的实景,你可以理解为类似横店电影城一样的场景。士兵分别扮演美国军人和中东地区的人物角色,在实景的空间进行作战演习,而这个现实空间中的场景是参照游戏空间中的场景搭建的。
第三个部分《沉浸》跟刚才讲的这个问题有着更直接的关联,右边戴VR眼镜的军人,是从现实战争现场回来的患有创伤应激障碍的士兵。这是在一个研究中心,他们运用这种虚拟现实的技术来治疗士兵的创伤应激障碍,让他们通过虚拟现实再次进入到虚拟的战争空间,在这个虚拟空间中战争创伤事件会重现,以此在他的心理空间中召唤之前在现实战争的物理空间的创伤记忆,透过哈伦·法罗基这个系列的作品,我们可以理解虚拟空间、心理空间和物理空间不是割裂的,它们是相互侵入的。
就像20年前的911事件发生的时候,人们尽管是在电视屏幕空间看到的撞击,但心理空间崩塌了。所以我想说的是我们不要认为这些空间是可以明确区隔的,恰恰相反,这些空间是完全混合在一起的。
@秦曾昌
我回应一下刚才提到的关于自动驾驶的问题。可能很多人觉得自动驾驶是一个比较难的事情,我们可以想象一下,当我们开车离开家,开上大路之后,会发现有的时候你在想事情,在打电话,甚至可能在安排工作,发了几个微信。可过了大概40分钟之后,你开到了你的单位,回想起整个过程之中你做了什么,会发现你似乎好像没有记得太多的事情,但整个的路程已经开完了。
也就是说我们需要很少的Brain power去完成我们认为很复杂的事情。在脑科学里专门有个比喻叫“僵尸开车”,就是一旦在开车的时候,我们就像僵尸一样,其实可以把脑袋的很大部分的 brain power用在别的地方。关于开车也许它没有那么难。
第二个事情是,你会发现我们在开车的时候,所做的选择其实无外乎是向左或者向右打方向盘,以及角速度是多少、你要去选择油门还是刹车、它的力度有多大。所以这些决策的事情看似很复杂,但是输出的时候是个非常简单有限的集合,就类似于我们下围棋一样。
下围棋看起来是个非常复杂的脑力劳动,但是最后的结果,只不过就是在19×19的地方去选一个位置下棋,类似的这种事情就特别适合于人工智能。回过头来,比如说让机器人去扫厕所(刚才提到的家庭机器人的看护),你会发现每家的厕所有按的,有拉绳的,还有扭的开关,因为每家的room长得完全不一样,但你会发现它的空间非常地open,它不是封闭的,所以这种问题对人工智能反而很难。对于封闭空间选择哪一个解更适合,类似这样的选择题是AI特别擅长的任务,而自动驾驶就属于其中之一。
另外就是如果外边的场景越简单,实际上给定的任务也会越简单。所以自动驾驶在矿山、机场的一个有限的场景下,其实已经做得更好了。反而是这种普通的在大街上、在闹市区的(当然这也是最重要的场景)自动驾驶,还没有想象的那么好。自动驾驶是一个很复杂的、确实备受关注的热点。它信息的获取不只是视觉的,还有其他的传感。总而言之就是机器能获得的信息更多、比我们人所考虑的形式更客观。
况且人会犯错,会溜号,就像说开车的像一个僵尸一样,反而是机器在Routine的工作会比我们人还要好一些。但机器面临的挑战就是复杂的场景,就需要更多的不同的训练数据、更多的技术问题、更多的信息获取来解决这个问题。总之自动驾驶是一个比较好的AI技术,是一个可以应用于现实生活中的例子。
@朱锐
我非常赞同刚刚袁园老师所强调的空间的焦虑,我们的焦虑首先是空间的焦虑,以及空间的一个崩溃,还有这种空间机制的它的机制本身就代表着某种现实性的一种缺乏。
在讲自动驾驶的时候,像埃隆·马斯克所讲的 Autopiloting or Autodriving。我总觉得还是不够激进,自动驾驶或者现在技术所讨论的这些,甚至机器人进入家庭,都是在传统的空间框架下所产生的一些技术理念。
而我更希望看到的是像艺术家、科学家还有工程技术专家那样,直接地干预人类的空间,去构造一个完全不同的家庭,不同的社会环境。而不是延续原有的本体论的架构,像道路或是共享空间,甚至物质在场的空间。这有一个例子,可跟呼应顾勇老师所说的对人脑的干预。这个理念是来自于日裔跟美裔的一对夫妻他们的作品。叫做《命运可逆》。它实际上在纽约、在日本在很多城市都有同样主题的建筑,叫做“命运可逆”公寓,是由玛德琳·金斯(Madeline Gins)跟荒川修作(Shusaku Arakawa)设计的。设计作品的理念,涉及到人体及其与周围环境的特定和非特定的关系。他们强调能够不同地、不断地揭示新的空间关系的这种程序建筑,叫procedure building。
所谓程序,就是我们在生活之中完成任何一个任务,所需要的步骤。而这些步骤本身又包含着子程序,比如走路、说话、吃饭都是一个程序。而这个程序建筑,建筑学家设计它的本质性的主旨,就是质疑居住者已有的程序,并且引导他仔细检查他所采取的行动,或者各种各样的子程序,从而使他怀疑自己与所处的环境之间的关系,以便找到重新塑造自己主体性的方法和可能性。
比如这张“命运可逆”公寓里的照片,这个建筑是Retirement home,老年公寓,是为了让老年人改变他们的习惯,即脑子里面已经定型的反应,或者是neural firing pattern,通过全新的、完全不熟悉的机制,来重新改变他们的空间认知。比如,这儿的形状和颜色看起来似乎是混乱的组合,实际上它旨在让居住者保持一种警惕,看地板是充满着危险的,就是说你不能按照自己刚才秦老师所说的这种zombie、这种autopilot去navigate your home。它是形状和颜色看似混乱的这种组合,旨在让居住者保持一种警惕,并且让他们与周围环境建立一种永久性的试探关系,旨在让人们以意想不到的方式使用他们的身体。比如门把手在上面、或者是在左边、还是右边,并且在人们浏览房间时会改变空间对心理的影响。
这也是荒山修作所创作的在日本的起伏线养老郡,所有的空间的设计都在某种意义上呼应顾老师所说,它用一种Micro simulation to force your brain to change the firing pattern,create a new space,create a new subjectivity, create a new environment(微小的刺激来强制你的大脑改变你的固有模式,以此创造一个新的空间,创造一种新的主体性,创造一个新的环境)。
从我个人角度来说,我觉得现在的技术,包括埃隆·马斯克都太保守了,他没有从本质上去挑战我们所处的现实世界。
@袁园
我想分享一个案例,是跟刚才大家的讨论、朱锐老师讲的有关系。就是一种新的空间感知或者异质的空间感知、在既定框架之外的空间感知何以可能。我分享一下几个艺术家的实践,我们来看一下。
这是法医建筑(团队)的实践,包括声学家、建筑师、艺术家,他们用数字技术重建叙利亚的酷刑监狱。这些犯人都是蒙着眼睛进去,蒙着眼睛出来。除了卫星地图之外,没有人知道监狱里是什么样的结构,他们就根据曾经被在这个监狱中的人的声音感知,重建酷刑监狱的空间。
这也是法医建筑团队的成员,他自己做的另外一个实践。他在访谈时讲到,世界上没有哪个墙是不透风的,今天可以是墙,明天也可以不存在。这个三个看上去密闭的空间仍然可以通过不同的方式被穿透。
另一个实践我也想分享给大家。观众坐在这一面频闪灯前面,闭上眼睛之后,会因为灯光不停的频闪,让你的大脑出现各种各样的视觉空间体验。即使你完全放弃你的视网膜向外看,但仍然可以获得不同的空间感知,甚至是完全超越你既有的空间感知经验。
这个艺术装置叫做《重返黑暗:朝向未知的现象学》,观众进入这个全黑的空间之后,没有任何的空间参照物,但同时也让你在失去既定的空间框架的情境下去尝试建构新的空间经验。
这是一个艺术家组合的作品,有两个像镜子一样的超声波装置,相互发射不同频率的声波,它们发出的频率不在人的听觉范围之内,你只有站在两个镜子中间的位置,才能听到声音,而你听到的声音是来自于这两个频率之间随机的差。我们可以通过声音来确定音源的位置,但在这个装置中你即使听到声音但又无法确定音源的空间位置。好,我就分享这几个关于空间的艺术家的实践。
@朱锐
还有一个问题也是给顾老师的。这个问题是说,很多时候我们听见水的声音,都有一种感受,它似乎能够影响大脑处理信息的能力。顾老师能不能从这个方面去谈一谈?
@顾勇
水声,比如下雨的声音,或者波浪的声音。我可能没有办法专门从水的声音本身来解答。但是它传递的意思是说水声可以调控我们其他感知觉的模态,和脑的状态,那我就从这个角度出发。因为我本身是研究多感觉整合的,所以我也会关注例如听觉通道对其他感知觉通道的影响。
首先,听觉肯定会对我们的视觉有很大的影响。在心理物理的行为范式上有一个很著名的视错觉现象,叫做a sound induced visual flash illusion。是什么意思?就是你听到的声音会调节你看到的东西,比如在你的屏幕上有一个光点闪烁一下,如果同时伴随的是下雨时的两滴雨点声,在50%的情况下,被试就会感觉他看到了两个视觉闪烁,而不是一个视觉闪烁。这就说明了视觉通道会受到听觉的影响。那它的神经基础是什么?解剖学发现,听觉皮层可以通过直接投射,投到视觉皮层进行调控,也可以通过先从听觉皮层投射到高级皮层,再从高级的多感觉皮层反馈一个信息给底层的视觉皮层的方式来调控。这些实验和这些发现都说明听觉可以直接调控视觉。
当然反过来也是一样的,也有很多的实验证据表明,视觉反过来会对听觉进行调控。这些信息都会进一步地往上投射到一个比较高级的脑区,叫做前额叶皮层。那么前额叶皮层,顾名思义是位于脑袋的前部,是一个各种感知觉信息汇聚的地方,并且在这里进行处理和整合的过程。而且我们大脑的情绪环路,比如前扣带回、海马体(情绪的调控)、杏仁核(参与恐惧、焦虑这些心理状态)这些脑区,进一步地跟前额叶皮层所处理的信息整合在一起。其实我们大脑的感知觉信息,会跟我们的一些情绪记忆中的东西交叉汇合到一起。
有的人听下雨的声音就感到很舒服,有的人听自然界中的高山流水的声音就感到很舒服,这种声音就调节了脑的状态。所以我认为这是有脑的基础的,可以通过直接影响其他感知觉,也可以通过高级皮层前额叶跟我们的情绪结合在一起,从而调节脑的状态(brain state),来影响大脑处理信息的能力。
@朱锐
谢谢顾老师。最后我想留一个哲学问题给所有的嘉宾——空间和物体之间的基本关系,是空间是物体的性质由物体定义的,还是物体由空间定义?各位嘉宾及其观众朋友们可以试着思考下这个非常难的哲学性质的问题。我们今天就讲到这,非常感谢各位嘉宾的精彩分享,也感谢观看直播的观众,谢谢大家。
主持人:朱锐
嘉宾:顾勇、秦曾昌、万千个 、袁园
整理:腰总、兵书、一涛、光影 | 排版:光影