阅读设置
第15节(第701-750行) (15/46)
The
North
Star
2004年,我们创建的Caltech
101完工,成为有史以来为机器学习配置的最大规模的图像集合,里面有超过9000个图像,分布在100个类别中,另外我还独自完成了一个新类别的图像整理。如果彼得罗想要100个类别,我就给他101个。
帕萨迪纳黎明的微光从地平线上缓缓升起,色调温暖而多变。在这个城市生活久了,我逐渐发现,这是独属于加州的颜色。朝霞召唤人们走到户外,让人不禁想要暂时抛开白天要尽的种种义务,投身其中,尽情享受。但天空再蓝再美,也没有科学发现的希望诱人。今天是开启新实验的第一天,实验室就在地下等着我,我已经为此准备了好几个月。
我们的实验在科赫实验室的心理物理学实验区进行。这个地下室幽闭阴暗,隐藏在加州理工学院阳光下的草坪和自行车道之下。这里没有自然光,大多时候也没有人工光线,空间接近完全封闭。我们在实验区里搭建了三个完全相同的小隔间,每个隔间只能容纳一个实验对象。隔间装有遮光窗帘,可以完全隔绝实验对象的视觉感知。
实验对象进入小隔间以后,会一只手握持鼠标,另一只手放在键盘上,凝视黑暗。在片刻沉寂之后,会有一个显示器亮起来,显示一系列彼此毫无关联、颇有达达主义之风的图像:随意排列的英文字母、无序摆放的场景照片、突然闪过的随机元素。每个图像出现的时间都精确到毫秒,实验对象通过点击鼠标和按键做出反应,我们则对其反应进行精确测量。然后,在几秒钟之内,隔间重新陷入黑暗。片刻的寂静过后,此前播放的图像组合再次出现,实验就此不断循环往复。
实验虽然乍一看杂乱无章,但没有一个细节是随意安排的。所有的周折都是为了一个目的,那就是解读大脑活动,或者至少推断出大脑活动内容的部分片段。实验对象手指抽动、呼吸变浅、瞳孔放大,这短短几秒钟的信息被转化成一系列数据,这些数据可能需要几天、几周甚至几个月才能完全理清。感官的奥秘深藏不露,要把它们诱骗到实验装备上,揭开它们的面纱,哪怕只是短暂的一瞬,也是奇事一桩。
在长达5亿年的时间里,进化不断对光敏蛋白质施压。在其不懈的推动下,光敏蛋白质跨越漫长的岁月,发展成为一个精密到让人几乎无法参透的结构。进化的辛勤劳动打造了整个视觉皮质,从眼睛的玻璃表面一直延伸到大脑的最深处。所以在加州理工学院,我们要拜进化成果为师,尝试揭开视觉之谜。在我的导师看来,要实现机器智能,关键的第一步是更好地了解人类。
除了有机会沉浸在自己心仪的视觉研究领域,我并不知道自己想从研究生阶段获得什么,但我希望在此期间找到可以全力追求的目标。我会像自己的榜样那样全情投入,就像埃里克·维斯乔斯把对果蝇异常现象的痴迷转化成了诺贝尔奖,或者尼尔·德格拉西·泰森把宇宙变成了数字诗歌。我想要一颗属于自己的北极星。但在找到北极星之前,我只想围绕一个问题展开思考,那就是不可言喻的视觉体验究竟是如何实现的,用《视觉科学》那本教科书生动的副标题来说就是,光子是如何成为现象学的。这本教科书让我迈出了理解视觉体验的第一步。书的前言由普林斯顿大学心理学家安妮·特雷斯曼(Anne
Treisman)撰写。她是实验界的奇才,也是20世纪认知科学的巨人。早在数字技术出现的几十年前,她就把特别简单的工具和原始创造力相结合,来探究人类的感知(如果当时就有数字技术,那么她的研究会大大加速)。
特雷斯曼提出的“注意的特征整合理论”几乎成为理解视觉意识本质的通用理论基础。在实验中,她会以极快速度向实验对象展示一些抽象物品,比如在一堆绿色和红色方块中夹杂一个红色圆圈,由此确定他们在不同深度层次上理解图像所需的时间。她发现,人们几乎可以立即意识到红色的存在(也就是知道图像的某个地方包含红色),但找到红色圆圈这样的元素则需要花费更长时间,因为在红色圆圈中,一个物体同时包含了“颜色”和“形状”两种不同的特征。换言之,把对“红色”的感知和对“圆形”的感知整合在一起,不仅需要更长时间,而且似乎属于一个完全独立的视觉处理阶段,这个阶段的信息处理更为密集。
特雷斯曼的研究范围很广,解释翔实,但她的核心理论是统一的,即人类视觉从识别微小细节开始,然后建立它们之间的关系,直到揭示出一幅完整的画面。这个论点非常符合直觉,也为理解视觉的工作原理提供了衡量标准:人类可以迅速识别特征较少的简单物体(如灰色人行道上的橙色小球),而识别更复杂的场景(如蜿蜒的林间小道或朋友的面部细节)则需要更多时间。
在计算机视觉研究中,我反复看到以下模式:研究人员编写算法并不断改进,以识别照片和其他图像中的基础性细节(如清晰的边缘、光线和颜色的变化、纹理或图案的碎片等),然后构建更高层次的算法,来识别这些细节之间的联系,并将它们与更有意义的事物(如人和物体)联系起来。虽然我对视觉原理的了解有限,但我觉得这种方法很有道理。然而,情况很快就变得非常复杂。
“飞飞,我给你准备了一些阅读材料。”彼得罗一边说一边把一篇文章放在我面前的桌子上。
“这个吗?”
我拿起翻看,发现这篇文章的长度还不及大多数发表论文的四分之一。彼得罗露出了会心的微笑。
“相信我。这是你想读的内容。”他不是在开玩笑。
这是神经科学家西蒙·索普(Simon
Thorpe)于1996年提交给《自然》杂志的一篇通讯文章,题为《人类视觉系统的处理速度》。虽然标题平淡无奇,篇幅也只有三页,但在当时却产生了极大的影响,因为它对整个领域公认的正统观念提出了疑问。这个例子彰显了科学界最伟大的传统:虽然既定的观念符合直觉,广为人知,却能被更加错综复杂的现实打破。
在实验中,索普向实验对象展示计算机显示器上的图像,使用脑电图(EEG)来测量他们大脑表面的电信号。当一张照片在屏幕上仅闪烁27毫秒时(即蜜蜂扇动几下翅膀所需的时间),实验对象就能极其准确地识别出照片内容。通过进一步研究,索普精确地指出,大脑中的识别时刻是在图像出现后仅仅150毫秒(大概相当于眨眼的一瞬间)。这是迄今为止对人类视觉处理速度最精确的调查,其结果显示,识别所需时长远远小于特雷斯曼理论的预测。
在特雷斯曼的实验中,实验对象在极短的时间内识别基本的颜色和形状。而索普的实验对象则能够在同样短的时间内处理整个图像,辨别其中的细节、视角、微妙的光照和意义。每个阅读这篇文章的人都会心生疑问:这是怎么做到的?我明白了为什么彼得罗这么想让我读这篇文章,也明白了为什么在这篇文章发表三年多后,他和克里斯托夫还经常就此展开讨论和争辩。我立刻和他们一样沉迷其中。
于我而言,这篇文章颇为超现实,因为它才发表没多久,就在我来到加州理工学院的前几年。即使在今天,人们也很容易忘记对人类视觉的现代研究历程其实是多么短暂,最早的出版物也只能追溯到几十年前。物理学的传奇历史绵延了数个世纪,从伽利略到牛顿再到玻尔,无不充满传奇色彩。相比之下,不管是过去还是现在,视觉在很大程度上仍是一片未知领域。计算机视觉研究则更为年轻,这感觉就像我手里拿着一张还在绘制过程中的地图,而我的研究生早期生活也因此充满了激情和动力。每周从帕萨迪纳给萨贝拉先生打电话时,我总是滔滔不绝地和他聊个不停。
“我从来没见过这样的情况。”我说,“这个领域太复杂、太激动人心了,而且几乎是全新的!就在我们聊天的时候,计算机视觉领域很多最牛的学者还在积极地做着研究呢!”
我与彼得罗和克里斯托夫相处的时间越长,就越欣赏他们的冒险精神,这也是他们作为学者最明显的特征。虽然他们的背景分别是物理学和工程学,但两人都对心理学、认知科学和神经科学等领域充满了热爱。他们和系里的其他人一样经常阅读计算机科学期刊,但他们还会专注阅读《心理学评论》《美国国家科学院院刊》和享有盛誉的《自然》等刊物。
因为受到热爱的驱使,所以他们都抱持着鲜明的观点,渴望开拓知识的前沿。这意味着要直面索普和特雷斯曼研究成果之间的差异。有强力证据表明,视觉在某些方面(也就是识别现实世界风景的能力)几乎是毫不费力的。但这种毫不费力背后的原因是什么呢?这种原因可以被量化吗?这对我们理解整个大脑有什么帮助吗?这些都是值得探索的问题,而对我的导师们来说,还有一点好处:相关研究工作会非常繁重,足以让他们门下这位执着的新研究生忙上一阵子了。
如何阅读一个人的大脑?
在实验室里,经常需要准确捕捉实验对象的感知、期望甚至决策。要设计相应的实验方法,就需要综合运用工程学、心理学、人体工程学,甚至是类似于变戏法的手段。具有讽刺意味的是,虽然我们的实验看起来与在许多其他实验室看到的没有什么不同——都是实验对象身上挂满了电极,助手们处理大量数据,等等——但实验的设计却堪称一种艺术。
与一般实验不同,我们的目标非常笼统。我们会向实验对象展示照片,每张照片的展示时间只有几分之一秒。我们要看他们能否在不把注意力集中在照片上的情况下,准确识别上面的内容。索普已经确定了完成识别任务的速度,但他没有探究有意识的注意力所起的作用。在观看图像的时候,我们需要有意识地集中注意力吗?还是说我们的识别能力会在无意识的情况下持续运转,无论我们是否刻意关注,都能感知周围的世界?我们怀疑是后者,但我们需要加以证明。
克里斯托夫实验室的访问博士后阿希姆·布劳恩(Achim
Braun)为我们提供了实验的灵感。布劳恩当时正在研究一个类似的假设,他假设我们的大脑会在没有意识的情况下处理大量的视觉细节。他提出了一种“双重测试法”。在这种方法中,他让实验对象的注意力集中在一个需要刻意集中注意力的中心任务上,与此同时,展示一个只需要被动观察的外围任务。中心任务需要高度集中注意力,这样能确保外围任务不会被有意识地处理。
这种方法的巧妙之处在于它可以揭示实验对象感官的焦点。因为中心任务需要实验对象集中注意力产生一个客观反应,因此通过几轮反复实验,就可以非常准确地确定实验对象的注意力是否完全集中在该任务上。外围任务虽然相对简单,但也有一个客观正确的反应,由此一来,便可以可靠地测量出实验对象的次要意识。因为这两项任务呈现的时间都只有大约200毫秒(只比眨眼的时间稍长),所以可以排除实验对象有意识地依次执行这两项任务的可能性。
我们的实验对实验对象的注意力进行了精准的控制,一旦我们确定实验对象的注意力已经完全集中,就会向他们快速展示一张随机选择的户外风景照片,然后提出一个简单的问题:这张照片里有动物吗?他们的答案将充分说明注意力与视知觉之间的关系。
从实验对象的角度来看,这个实验的节奏快得让人喘不过气,因为在实验过程中,各种图像和图案会闪电般地转瞬即逝,需要他们几乎立刻做出反应。但是,实验的实施过程就没那么快了。一天又一天过去,我们感觉自己像在照看孩子,而不是在做实验。我们以赚取周末零花钱为诱饵,吸引大学生来参加实验,然后就在隔间外等着他们双眼昏花地走出来。因为愿意参加实验的大学生不够多,所以我们只能趁他们有空的时候做实验。有好几次,我一天的主要任务就是早上6点在实验室门口迎接陌生人。但就算这样,我也乐在其中。这样的工作虽然烦琐乏味,但依然是科学的一部分。
我们的实验固然重要,但彼得罗和克里斯托夫也明确表示,优秀的科学家要广泛阅读文献,紧跟领域的最新发展。我读得越多,就越意识到,索普并不是第一个挑战特雷斯曼的人。我阅读了几十年来的研究成果文章,发现越来越多的线索表明,除了特雷斯曼的观点,还存在很多不同的理论。
与特雷斯曼的观点差异最大的研究成果也许来自视觉研究员欧文·比德曼(Irving
Biederman)。他跟同事设计了一项实验,让实验对象快速浏览一些照片(而不是抽象的形状和颜色),然后让他们辨认看到了什么。随着实验的进展,刺激物的复杂程度大大增加,实验对象看图片的时间也越来越短,但实验对象的回答却始终准确无误。比起特雷斯曼的研究对象在一堆五颜六色的字母B中辨认出一个单独的字母A所花的时间,比德曼的实验对象能在更短的时间内从照片中吸收足够的细节信息,分辨出这是一张购物中心停车场的照片,还是一张家庭厨房的照片。
另一个不同的观点来自心理学家莫莉·波特(Molly
Potter)。在使用一台早期计算机显示器向实验对象展示文字段落时,她让大字体的文字一个一个地在屏幕中央闪现。即使以每秒12个字的速度展示(是普通大学生正常阅读速度的两倍),实验对象的辨识表现依然优秀。尽管特雷斯曼的演示证明了视知觉是从微小细节开始逐步建立起来的,但阅读似乎明显是个例外。
这项研究所用的工具非常原始,因此研究更显得了不起。几十年来,由于无法直接了解研究对象的认知,特雷斯曼、比德曼和波特这群善于思考的人巧妙地在严格控制的环境中,利用行为观察来寻找令人惊叹的线索。但这种方法也有局限性——归根结底,我们能从外部推断出的关于大脑的信息也只有这么多了。要从内部理解这些现象,还需要新一代技术。
这样的技术最终出现了——脑电图和功能性磁共振成像(fMRI)等神经科学工具为研究人员提供了前所未有的临床精确度。索普的论文是最受关注的研究成果之一,但相关成果远不止于此。麻省理工学院认知神经科学家南希·坎维舍(Nancy
Kanwisher)及其学生完成的研究也同样重要。索普和比德曼等研究人员发现,人类具备快速准确的感知能力,而坎维舍团队通过功能性磁共振成像分析,确定了与之相关的大脑区域。脑电图测量的是整个大脑的电脉冲,它以极快的速度在大脑表面扩散,而功能性磁共振成像则通过检测特定区域的神经元活动,来测量血氧水平的变化。
研究早期的突破包括发现了“梭状回面孔区”(Fusiform
Face
Area,FFA),这是颞叶的一个皮质区域,大小不超过一立方厘米,似乎是为识别人脸而量身定做的。接下来是附近的“海马旁回位置区”(Parahippocampal
Place
Area,PPA),在识别熟悉的地点(比如自家厨房或常走的道路)方面发挥着类似的作用。另一个发现是“纹外躯体区”(Extrastriate
Body
Area,EBA),可以对周围人的手臂和腿等部位的摆动情况做出反应,帮助我们感知他们的身体方向。