《智能简史》这本书以层层递进的方式,清晰展现了智能从辐射对称动物、双侧对称动物、脊椎动物、哺乳动物、灵长类动物、人类的不断演进,会对大脑的被动反射、强化学习、模式识别、模拟世界、构建自我、语言诞生等功能会有更深刻理解。

之前我学习神经网络也是,光看ResNet架构,你不明白为什么要这样设计,但是从历史溯源,从头了解LeNet、AlexNet、ZFNet、NiN、VGG、GoogleNet、SqueezeNet、Inception之后,从简单到复杂,就大概知道卷积神经网络的设计思路了。

这本书的作者是一家人工智能公司的老板,所以讲神经科学的同时,还会和深度学习的理念进行比较,比如无模型的强化学习、TD学习、基于模型的强化学习、逆强化学习等,用深度学习的发展进程与生物智能本身的功能进化进行类比,很有启发。

作者介绍

麦克斯·班尼特(Max Bennett)是总部位于纽约市的人工智能公司Alby的联合创始人兼首席执行官。此前,他是一家利用人工智能帮助世界顶级品牌开展个性化营销的公司Bluecore的联合创始人兼首席产品官, Bluecore的最新估值超过10亿美元,多次进入美国“Inc 500强”榜单,并进入2018年“Glassdoor”网站评选的“最佳工作场所”榜单。加入Bluecore前,班尼特是高盛的交易员。他拥有多个人工智能技术的专利,并在同行评议期刊上发表了多篇关于进化神经科学和智能主题的研究论文。班尼特以优异成绩毕业于圣路易斯华盛顿大学,获得经济学和数学学士学位,并获得“约翰·M·奥林最佳经济学荣誉论文奖”。2016年,班尼特入选了福布斯“30位30岁以下”精英榜。他和妻子悉妮以及他们的爱犬查理现居于纽约市的布鲁克林区。

书籍资源

目前中文版没有电子书

可以去zlibrary下载英文电子书,导入微信读书,可以自动翻译,还能听书。

目录

  • 人类大脑的解剖学基础

  • 我们的进化谱系

  • 引言

  • 1 大脑出现之前的世界

  • 第一次突破:转向和第一批两侧对称动物

    • 2 好与坏的诞生
    • 3 情感的起源
    • 4 关联、预测和学习的曙光
  • 第二次突破:强化和第一批脊椎动物

    • 5 寒武纪大爆发
    • 6 时序差分学习的进化
    • 7 模式识别问题
    • 8 生命为何充满好奇
    • 9 第一个世界模型
  • 第三次突破:模拟和第一批哺乳动物

    • 10 神经的黑暗时代
    • 11 生成模型和新皮质的奥秘
    • 12 想象世界的老鼠
    • 13 基于模型的强化学习
    • 14 洗碗机器人的秘密
  • 第四次突破:心智化和第一批灵长类动物

    • 15 政治智慧的军备竞赛
    • 16 如何模拟他人心智
    • 17 猴锤和自动驾驶汽车
    • 18 为什么老鼠不能去杂货店买东西
  • 第五次突破:语言和第一批人类

    • 19 寻找人类的独特性
    • 20 大脑中的语言
    • 21 完美风暴
    • 22 ChatGPT 与心灵之窗
  • 结论:第六次突破

概念笔记

总结:智能进化之路

  1. 转向 (Steering)

    6亿年前,第一个大脑诞生,只为解决一个简单问题:导航。它区分“好”(食物)与“坏”(危险),并进化出情绪的雏形——“情感”,以便在信息不足时做出有效决策。

  2. 强化 (Reinforcing)

    5亿年前, 脊椎动物 祖先学会了“试错”,即 强化学习

    大脑中的多巴胺系统被重塑,它传递的不是“快乐”,而是“预测误差”信号,这是AI领域TD学习的核心思想。

  3. 模拟 (Simulating)

    1亿年前, 哺乳动物 在恐龙的阴影下,进化出新皮层,获得了在脑中“预演”未来的能力。这带来了规划、后悔(反事实学习)和情景记忆,让学习不再局限于现实。

    面对未知世界,哺乳动物凭借更为复杂的大脑,能够在脑海中模拟不同行为可能产生的后果,进而做出更优的决策 。当小老鼠面临岔路时,它会在大脑中思考不同方向可能遭遇的情况,如遇到敌人或食物的概率,根据过往经验和当下判断做出选择。这种在大脑中构建“模拟世界”的能力,是真正高阶智能的起始,它使得生物能够提前规划、预测风险,大大增强了其生存能力。

  4. 心智化 (Mentalizing)

    数千万年前, 灵长类动物 为了应对复杂的“政治斗争”,学会了模拟自我和他人的心智,即 “心智理论” 。心智化能力简单来说就是能够揣摩他人的内心想法,理解他人的意图、信念和情感。

    诸多灵长类研究表明,黑猩猩等灵长类动物在群体生活中,常常展现出这种能力。它们会通过观察同伴的行为和表情,判断其意图,进而采取相应的行动,如在争夺食物或领地时,会拉拢同盟、互相协作。这种能力在人类社会中更是发挥到了极致,成为人类社交、合作和文化传承的重要基础。

    做到了一种逆向的强化学习,从而形成一种对自我的认知和对他人的认知,可以从观察他人之中去学习。

  5. 言说 (Speaking)

    几十万年前,人类通过一套天生的“学习课程”,将心智化能力重新利用,发展出语言。语言的真正魔力在于,它让思想得以在代际间“累积”,开启了指数级增长的文化进化,最终造就了我们。

  6. 人类的第6次突破,将和AI结成一个共体,一起发展。

    反思ChatGPT:大型语言模型虽强大,但它缺少内在的“世界模型”和“心智模型”,更像一个庞大的统计机器。而人类的语言,是通往我们内心模拟世界的窗口。

总结:不同动物的能力

一、辐射对称:原始神经与被动生存

辐射对称动物(如海绵、水母、海葵)是更原始的生命形式,其核心特征是身体围绕中心点对称(无明确“前后”,仅分“上下”),移动方式多为被动漂浮或缓慢爬行,生存依赖固定反应机制:

  • 神经机制简单:仅能通过基础神经元完成本能反应(如触手捕捉猎物时的收缩),但缺乏主动调整能力。
  • 无联想学习能力:无法建立刺激与结果的关联(如给海葵同时施加光和电击,它永远只对电击反应,不会对光产生联想)。
  • 生存策略:依赖“等待式”捕食(如珊瑚固定在一处,吞食触手可及的食物),无需复杂决策,因此未进化出学习与记忆的神经基础。

二、双侧对称动物:导航与情感雏形

约6亿年前,双侧对称动物(身体沿中轴线分左右,有明确“前后”)出现,大脑的核心功能是解决导航问题,标志着智能的第一次突破:

  • 核心能力:转向(Steering)
    双侧对称结构让移动更高效(前端集中感知器官,运动结构围绕前后轴协调发力),大脑需精准控制转向(如线虫通过嗅觉调整移动方向寻找食物)。
  • 情感的起源:通过“效价”(积极/消极)和“唤醒度”(高/低)形成四象限原始情感(如线虫因食物气味进入“积极-高唤醒”状态,驱动持续寻找),由多巴胺(驱动寻找)和血清素(传递满足)等神经调节剂调控。
  • 联想学习能力:能通过经验调整对事物的“好坏分类”(如线虫将盐与饥饿关联后,会从偏好盐转为避开盐),依赖神经元突触的强度变化(Hebbian学习)解决“信用分配问题”(筛选与结果相关的信号)。

三、脊椎动物:强化学习与模式识别

约5亿年前,脊椎动物的大脑进化出强化学习能力,实现智能的第二次突破:

  • 核心能力:强化(Reinforcing)
    依赖多巴胺系统传递“预测误差”(而非“快乐”),即TD学习(时序差分学习):通过预测未来奖励调整行为(如猴子看到几何图片时分泌多巴胺,因它预测随后会有糖水)。
  • 模式识别:能通过多个神经元协同识别复杂信号(如鱼的嗅觉皮层通过“扩展”“稀疏”连接,将重叠的气味模式转化为独特的神经元激活组合,实现“正交化”)。
  • 基础世界模型:通过前庭感(感知运动状态)和海马体(编码空间信息)构建周边环境地图,如鱼能记住游动区域的空间布局。
  • 好奇机制:为平衡“重复有效行为”和“探索新行为”,进化出对“新行为”的内在奖励(如人类对赌博、社交网络的沉迷,源于对不确定性的好奇)。

四、哺乳动物:模拟未来与复杂学习

约1亿年前,哺乳动物在恐龙统治下进化出新皮层,获得在脑中“预演未来”的能力,实现智能的第三次突破:

  • 核心能力:模拟(Simulating)
    新皮层的出现让哺乳动物能脱离现实,在脑中模拟行为后果(如老鼠面临岔路时,会预演不同方向的风险),依赖温血性(保证神经元高效运作)和广阔视野(提升模拟准确性)。

  • 新皮层的工作机制:遵循Helmholtz的“感知即推理”理论——通过“生成模型”模拟世界,再用感官输入约束模拟结果(如人类自动补全不完整图形),类似AI中的Helmholtz Machine(识别网络与生成网络协同训练)。

  • 衍生能力

    • 替代性试错(通过想象评估行为后果);
    • 反事实学习(反思“若不这样做会怎样”,如猴子输了石头剪刀布后,下次会选择能赢的选项);
    • 情景记忆(海马体快速编码事件,再转移到新皮层长期存储,如人类回忆过去实际是在新皮层中“模拟场景”)。
  • 基于模型的强化学习:前额叶皮层(aPFC)控制模拟过程,通过“预测自我行为”规划未来(如老鼠通过aPFC抑制冲动,优先选择更优路径)。

五、灵长类动物:心智理论与社交智能

数千万年前,灵长类动物因复杂群体生活(如争夺资源、建立等级)进化出心智理论,实现智能的第四次突破:

  • 核心能力:心智化(Mentalizing)
    能模拟自我与他人的心智(如黑猩猩通过观察同伴行为判断意图,拉拢同盟争夺领地),依赖gPFC(颗粒前额皮层)对“意图”的解释——从“知道自己要做什么”升级为“理解他人为何这样做”。

  • 逆强化学习:通过观察他人行为推断其目标(如灵长类能模仿全新工具使用技能),类似AI从人类行为中反推奖励函数(如自动驾驶直升机的IRL算法)。

  • gPFC:预测 aPFC 形成的意图

    • gPFC:属于新皮层,微电路与其他新皮层区域一致,但其连接性具有独特性
    • 以 aPFC(无颗粒前额皮层)的状态作为输入,构建关于自身内在的模型,核心作用是 “解释意图”
    • 对 aPFC 进行预测,即预测 aPFC 形成的意图,支撑元认知(对思考本身的思考),例如灵长类在迷宫中左转时,gPFC 能解释 “左转是因为知道自己饿,饿时吃食物爽,且知道左边有食物”
  • 社交驱动的脑容量增长:灵长类大脑大小与群体规模正相关,复杂的“政治斗争”推动社交智能(如友谊、互惠、欺骗)的进化,为语言出现奠定基础。

六、人类:语言与文化进化

几十万年前,人类通过语言实现智能的第五次突破,开启指数级文化进化

  • 核心能力:言说(Speaking)
    语言的独特性在于能传递“内在模拟”,让知识跨代累积(如从“他人的想象中学习”),形成“想象的共同体”(如部落、国家)。
  • 语言的神经基础:由Broca区(语言产生)和Wernicke区(语言理解)调控,但其结构与黑猩猩无本质区别,人类的独特性源于基因编码的“语言学习课程”(如婴儿的“共同注意”机制,驱动主动学习标签)。
  • 文化进化的奇点:语言让知识积累突破个体限制,通过“专业化分工”(如不同人负责制造工具、衣物)和书写(扩展记忆载体),推动技术与文明的指数级发展。
  • 大脑的适应:为容纳更多知识,人类进化出更大脑容量,同时因产道限制演化出“早产”策略(婴儿出生后需12年完成大脑发育)。

总结:进化的主线

从辐射动物到人类,大脑的进化是能力不断叠加的过程:从被动反应到主动导航,从现实学习到模拟未来,从理解世界到理解他人,最终通过语言实现知识的跨代累积。每一次突破都源于生存压力(如导航、社交、资源竞争),而新皮层的出现与扩展,是高阶智能(模拟、心智化、语言)的核心载体。

新皮质新在哪里?

“新皮质”(neocortex)的“新”并非指其在生物个体发育中出现得晚,而是从进化历史结构复杂性的角度而言,它是哺乳动物大脑皮层中最“年轻”、最特化的部分,与更古老的皮质结构(如古皮质、旧皮质)存在显著差异。具体来说,其“新”主要体现在以下几个方面:

1. 进化上的“新”:最晚出现,哺乳动物独有

  • 进化时间线
    大脑皮质的进化可分为三个阶段,对应三类结构:

    • 古皮质(archicortex) :最古老,出现于鱼类和两栖类,主要对应海马体,负责原始的记忆和空间导航。
    • 旧皮质(paleocortex) :出现于爬行类,主要包括梨状皮质(与嗅觉相关)等,功能更侧重感官信息的初步处理。
    • 新皮质(neocortex) :最晚出现,仅存在于哺乳动物中,是哺乳动物在进化中区别于其他脊椎动物的标志性特征之一。随着哺乳动物的演化,新皮质的体积和复杂度不断提升(如人类新皮质占大脑皮层的90%以上)。
  • “新”的核心:哺乳动物独有的高级结构
    其他脊椎动物(如鸟类、爬行类)虽有大脑皮层,但缺乏新皮质的分层结构和神经环路,而哺乳动物正是通过新皮质的出现和扩展,实现了更复杂的神经功能。

2. 结构上的“新”:分层精细,神经元类型多样

新皮质的结构复杂度远超古皮质和旧皮质,其核心特征是6层分层结构(这也是“新皮质”又称“同型皮质”的原因,即不同区域均遵循相似的分层规则):

  • 第1层:分子层,以轴突和树突为主,参与层间信息整合。
  • 第2-3层:外颗粒层和外锥体细胞层,负责皮质内的横向连接(不同区域间的信息传递)。
  • 第4层:内颗粒层,主要接收来自丘脑的感觉输入(如视觉、听觉信号),是感觉信息进入新皮质的“门户”。
  • 第5-6层:内锥体细胞层和多形层,负责将新皮质的信号输出到脑的其他部位(如丘脑、脑干、脊髓)。

相比之下,古皮质和旧皮质仅有3-5层,且神经元类型单一、连接简单,无法实现复杂的信息处理。

3. 功能上的“新”:支撑高级认知能力

新皮质的“新”还体现在其功能的高级性和多样性,是哺乳动物复杂行为和认知的核心:

  • 感觉整合:视觉、听觉、躯体感觉等高级感觉区域均位于新皮质,能对原始感官信息进行精细加工(如识别物体形状、声音意义)。
  • 运动控制:运动皮层和前运动皮层通过精确调控肌肉活动,实现复杂的自主运动(如人类的书写、小鼠的抓握)。
  • 高级认知:前额叶新皮质(尤其是灵长类)负责工作记忆、决策、抽象思维、社会认知等,这些能力是哺乳动物(尤其是人类)区别于其他生物的关键,而古皮质和旧皮质仅能处理基础的生存相关功能(如嗅觉、简单记忆)。

总结

新皮质的“新”是进化晚近性结构复杂性功能高级性的综合体现:它是哺乳动物在进化中最晚演化出的皮质结构,拥有独特的6层分层和多样的神经元连接,最终支撑了从简单感知到复杂认知的一系列高级功能。这种“新”不仅标志着大脑进化的重要飞跃,也为哺乳动物适应复杂环境、发展出多样化的行为策略提供了神经基础。

基底神经节

前额叶皮层(PFC)的核心作用总结

结构

所有哺乳动物的新皮层都可以分为前后两部分。后半部分是感觉新皮层,包括视觉、听觉和躯体感觉区域。前半部分是前额皮质。

人类大脑的前额叶皮质包含两个个主要区域:颗粒状前额皮层(gPFC)和无颗粒状前额皮层(aPFC)。

而小鼠只有无颗粒状前额皮层(aPFC)

颗粒状无颗粒状这两个词用于区分前额皮层的不同部分,依据是新皮层第四层是否存在颗粒细胞,而这些颗粒细胞通常位于新皮层的第四层。在颗粒状前额皮层中,新皮层拥有完整的六层神经元结构。然而,在无颗粒状前额皮层中,新皮层的第四层(通常含有颗粒细胞的地方)却异常缺失。因此,前额皮层中缺失第四层的部分被称作 无颗粒状前额皮层(aPFC) ,而包含第四层的部分则被称为 颗粒状前额皮层(gPFC) 。目前尚不清楚为何前额皮层的某些区域会缺失整个新皮层的第四层,

前额叶皮层与感觉皮层的区别

前额皮层Frontal Neocortex 感觉皮层 sensory Neocortex
自我模型 世界模型
从海马体、杏仁核和下丘脑接受输入 从感觉器官接收输入
我这样做是因为我想做什么 我看到这个是因为那里有一个三角
试图预测动物接下来会做什么 试图预测外部物体接下来会如何变化

功能

前额叶皮层(PFC)是哺乳动物及灵长类大脑中负责高级认知功能的关键区域,在典型的神经科学教科书中,前额新皮层被赋予了四种功能:注意力、工作记忆、执行控制、计划。

其不同亚区(aPFC、gPFC等)在智能进化中承担递进式功能,核心作用可归纳为:

  1. 控制模拟与规划未来(aPFC,agranular PFC,无颗粒前额皮层)

    • 作为 “自我模型” 的核心,通过预测自身行为结果(如“我接下来会做什么”)控制新皮层的模拟过程,避免冲动决策(如老鼠的aPFC损伤后会失去计划能力,变得冲动,没有情景记忆,它们无法在内心中回忆起危险提示的旧记忆,因此更可能重复过去的错误)。
    • 整合海马体、基底神经节等区域的信息,设定具体目标并规划路径(如规划超市购物路线时,优先模拟高效路径)。
    • 依赖“工作记忆”临时保存信息(如解题时暂存数字),通过持续唤起新皮层的场景模拟维持意图。
  2. 解释意图与心智化(gPFC,granular PFC,颗粒前额皮层)

    • 以aPFC的状态为输入,进一步预测和解释“意图背后的动机”,支撑元认知(对思考本身的思考),例如灵长类能理解“自己左转是因为饿了,且知道左边有食物”。
    • 将“认识自我”的能力迁移到他人,通过模拟他人心智实现“心智理论”(如推断同伴的目标和信念),是社交合作、工具模仿(如学习新技能)的神经基础。
  3. 抑制本能与理性调控

    • 抑制杏仁核触发的本能情绪反应(如恐惧、攻击性),使人在压力下保持理性(如aPFC功能减弱时,人会更冲动易怒)。
    • 平衡“习惯行为”(基底神经节主导)与“反思行为”(新皮层模拟),避免错误场景下的自动化反应(如已形成抬杆习惯的老鼠,仍能通过PFC判断奖励失效后停止动作)。

综上,PFC是大脑从“被动反应”到“主动规划”、从“个体决策”到“社交认知”的核心控制器,推动智能从哺乳动物的“模拟能力”升级为灵长类的“心智化能力”。

读书章节笔记

原始智能

在这一切的突破之前,需要神经元出现来打下基础。

首先根据现在的研究,生物起源于 碱性热液喷口 ,最初的生物都是 仰赖离子浓度的梯度 提供的能量来生存的,在这个时期,不同的生物没有明显的竞争。但是当叶绿体和线粒体产生,光合作用和呼吸作用出现之后,这种和平就被打破了,因为不从事光合作用的生物的能量来源是 那些从事者的鲜美内脏

今天生物分类中次顶层的一级是「界」(kingdom),其中有植物界、动物界和真菌界,按照光合作用与否的角度来说,植物是 进行光合作用的 ,而动物和真菌是 享用植物的成果的 。但在这其中真菌和动物的分野就在于采用了非常不同的猎食方法:

  • 真菌在 外部 消化猎物。真菌一般会在死亡植物的边上散开孢子,然后发展出毛状丝,分泌酶,并吸收释放出的养分
  • 而动物在 内部 消化猎物。而动物普遍会有一个腔体去束缚住猎物,然后在内部慢慢进行消化。动物的这种特点就需要这个腔体能够在捕捉猎物的时候快速关闭,这就是最早期神经元的作用: 感受里面有猎物,然后传到信号到肌肉,将腔体关闭

神经元的两点关键工作机制:

  • 对其中传递的信号必须有一套编码的机制。神经信号的强度 实际上都是一样的,差别在于频率 ,在感受的对象强度比较高的时候会释放更加高频的神经脉冲。比如视神经信号的强度在暗的地方和亮的地方是完全一样的,只是在亮的地方神经脉冲会释放更加频繁
  • 神经元在这里有一定的适应能力。脉冲频率和感受对象的强度的关系 不是线性的,而是会有一个非线性的变换 ,类似深度学习中的激活函数,适应一个环境的过程中可以调整这个激活函数比较敏感的区域。比如人能感受到环境亮度(照度)可能是差上万倍的,也就是 Dynamic Range 很大,但是脉冲频率并不会差这么多

Breakthrough #1: Steering and the First Bilaterians

操控

我们今天可以看到绝大多数的动物都是 「双侧对称」(bilateral symmetry) 的——动物身体沿中轴线(从前端到后端)分成左右两个基本对称的部分,同时明确区分 “前后”“背腹”(比如人有正面 / 背面、左手 / 右手,前端是头,后端是尾)。

与之对比的是更原始的 “辐射对称”(如海绵、水母、海星)—— 这类生物身体围绕中心点对称(类似车轮的辐条),没有明确的 “前后”,只有 “上下”(如水母的口面和反口面)。

双侧结构在移动能力上是更强的,因为负责移动的结构主要只需要负责前后的移动。左右对称的结构简化了运动的复杂性。例如,鱼类通过左右摆动身体前进,四肢动物通过前后移动四肢前进。但单纯的直线运动不足以应对复杂的环境,动物需要能够根据环境变化(如障碍物、食物位置)调整方向,这对操控 (Steering) 也提出了更高的要求——要将身体转向到正确的方位,要转向时,必须主动打破对称性(例如人左转时需左腿比右腿更用力)。

我们的祖先就是在这样的要求之下进化出了一套简单的导航机制,形成了一个简单的大脑。简单的导航可能包括趋利避害(如向光性、趋化性),逐渐发展为更复杂的空间记忆和路径规划。

问题

  1. 为什么双侧对称对移动更有利?

    • 辐射对称的动物大多是 “被动移动” 或 “无定向移动”:比如水母随水流漂浮,海星缓慢爬行时方向不固定(因为没有明确 “前端”)。

    • 而双侧对称的动物因为有了 “前后”,移动方向变得 “定向且高效”:

      • 前端可以集中感知器官(如眼、鼻),优先接触环境(比如捕食时头先朝向猎物);
      • 运动结构(如四肢、鳍、肌肉)可以围绕 “前后轴” 协调发力(比如人走路时双腿交替向前,鱼类摆尾推动身体向前),能量更集中于 “定向前进”,而非分散在多个方向。

      简单说:辐射对称像 “全方位摊开”,移动时能量分散;双侧对称像 “箭头式聚焦”,能量集中于一个方向,因此移动效率和速度显著提升。

  2. 操控为什么需要更复杂的大脑?

    定向移动的高效性,伴随的是 “精准调整方向” 的刚需 —— 这就是 “操控” 的核心。

    辐射对称动物几乎不需要 “操控”:比如水母即使偏离方向,因为没有 “前后”,随便漂到哪里都能应对环境;但双侧对称动物一旦偏离目标(比如捕食时偏了方向、遇到障碍没躲开),就会直接影响生存(抓不到猎物、被天敌捕获)。

    因此,它们需要更精细的 “转向控制”:比如一只蜥蜴追捕昆虫时,需要快速调整身体左右的肌肉发力(左肢用力向左转,右肢用力向右转),否则会跑歪;一条鱼要避开岩石,需要协调尾鳍和侧鳍的动作,精准改变方向。

类比与例子

  • 汽车类比

    • 双侧对称像一辆设计为前后运动的车(如普通汽车)。
    • 操控就像方向盘和刹车系统,需要额外的机制。
    • 导航系统(大脑)帮助决定何时转向。
  • 鱼类游泳

    • 鱼的身体左右对称,通过左右摆动前进。
    • 转向时需要调整摆动的幅度或使用鳍。
    • 大脑(或小脑)负责协调这些动作。

现代线虫可以看成是和早期的双侧对称动物类似,它们的大脑只有 三百多个 神经元,但是能完成通过嗅觉去移动来寻找食物这样的操控过程。整个机制非常简单:

  • 线虫的一些神经元会感受食物释放的分子的浓度(也就是气味),然后给前进的肌肉释放正向的信号,敦促向前;
  • 还有一些神经元是感知浓度降低的,或者是感受自己已经吃饱了的(也就是说有感受内部的神经元),或者是感受危险的,他们连接到控制转向的肌肉,让它进行转向。

情感

感觉神经元将初始信号传递给少数关键的中间神经元,这些信号可以都可以从两个角度去评价:是积极的还是消极的 (valence),是高唤醒的还是低唤醒的 (arousal),这样两两组合就可以形成一个四象限的坐标系,这就是原始的情感。(实际可能会稍微更复杂一些)

唤醒水平本质上是生物体对内外刺激的反应强度,表现为从 “低激活” 到 “高激活” 的连续状态:

  • 低唤醒:生理和心理处于 “低耗能、低反应” 状态,比如肌肉活动减少、神经兴奋度低;
  • 高唤醒:生理和心理处于 “高耗能、高反应” 状态,比如肌肉活动频繁、神经兴奋度高。

对于线虫来说:

  • positive valence, high arousal:缓慢的移动、频繁的转向 (检测到周边有食物)
  • positive valence, low arousal:不动 (比如吃饱了)
  • negative valence, high arousal:快速移动、不频繁的转向(逃跑)
  • negative valence, low arousal:不动(长期压力)

这四个象限完全可以对应到人类:

  • positive valence, high arousal:兴奋、激动
  • positive valence, low arousal:满足、放松
  • negative valence, high arousal:紧张、恐惧
  • negative valence, low arousal:抑郁、忧伤

也就是说所谓的「情感」可能就是从这些用来帮助寻找食物和逃跑的状态中诞生的。

我们现在的情感都是持续存在的,比如悲伤的情绪会持续几个小时甚至好几天。这从线虫这里也是非常说得通的:因为比如食物的气味浓度不是一个平缓的梯度,可能会一下子闻到然后后面又消失了,那么这种「情感」(在这里应该是 positive valence, high arousal) 持续存在的话可以驱使线虫继续寻找食物;类似的,逃跑的时候也应该要持续逃跑,这样才更容易生存。

不管是人类还是线虫,都是通过神经调节剂来控制情感,这里最重要的两种就是 多巴胺 (Dopamine)血清素 (Serotonin) 。 对线虫来说,

  • 多巴胺的神经元会从头部伸出小附肢, 监测食物的存在 ,当发现有食物的时候就释放多巴胺,也就是进入 high arousal 的状态。
  • 血清素神经元监测喉咙中的食物 ,有食物的时候就会释放血清素,触发饱腹感,也就是进入 low arousal 的状态。

也就是说,多巴胺的作用是驱动去寻找食物,告诉你周边有 something good;而血清素的作用是告诉你 something good 正在发生。对人类来说,看到食物、看到性感的异性都会分泌多巴胺,而吃美味食物、性高潮、完成 todo item 的时候都会分泌血清素。

另外,在有紧急情况的时候,动物会释放 肾上腺素 等化学物质进行应急,触发战斗或逃跑反应,同时抑制短期内非必要的生理功能,比如笑话、免疫、繁殖等。而这种情况显然是不能长期持续的,所以之后需要一种反调节机制来恢复正常,这时候就会分泌 阿片类物质 。所以阿片类物质有促进食欲,增进免疫系统、消化系统功能恢复,以及抑制负情绪神经元来减少疼痛感的作用。因此阿片经常被使用来作为止痛药。

对线虫做实验可以发现,如果让它长期处于危险环境中,它经过了应急状态 (high arousal) 一段时间后,会主动变成 low arousal 状态。因为自然选择显示了,应急状态这种非常消耗能量的机制是不能长期保持的,如果一直危险那其实还是保留一定的能量更有可能生存下来。反映到今天人类身上就是,长期处于慢性压力之后激活血清素,神经会关闭唤醒和动机,进入 low arousal,形成一种习得性的无助,也就是抑郁。

预测

巴甫洛夫的条件反射实验实际上揭示了一种 原始的联想学习能力 :狗能学习到蜂鸣声和食物之间的关联。

这种学习能力在线虫这样神经元极少的动物上也有。

假设你拿了一百条线虫,将其中一半放入装有纯净水的盘子中,另一半放入装有盐水的盘子中。几小时后,这些线虫会感到饥饿,因为两个盘子中都没有食物。此时,将两组线虫都放入另一个盘子中,这个盘子的一侧放了一小块盐。会发生什么呢?

那些在纯净水中经历饥饿的线虫会像平常一样,朝盐的方向游去(线虫通常认为盐是有吸引力的)。然而,那些在盐水中经历饥饿的线虫则会完全相反,它们会避开盐。

盐从一个积极效价的刺激转变为一个消极效价的刺激,因为 它与饥饿这种消极效价状态产生了关联

如果你同时让线虫接触到美味食物的气味和一种使它们生病的有害化学物质,线虫随后会避开这种食物的气味。如果你在特定的温度下喂养线虫,它们会将偏好转向那个温度。将对蛞蝓一侧的轻拍与引发退缩反射的小电击配对,蛞蝓会学会仅对轻拍做出退缩反应,这种联想会持续数日。

当盐与饥饿相关联时,线虫学会避开盐
当盐与饥饿相关联时,线虫学会避开盐

同时这种能力是 只有双侧对称动物才有的 ,比如具有辐射对称结构的海葵、水母、珊瑚就没有:将光和电击一起施加于海葵,但是海葵永远只对电击有反应,而不会对光照有反应。

如果之后施加多次二者不相关的信号,比如蜂鸣了但是不给食物,动物对于二者的关联反应就会减弱。但是同时,如果之后再出现关联,那么这种联想能力会迅速恢复,我们称之为 「再习得」 。这也很合理:因为自然界中可能两种东西确实是相关的,某几次不相关其实只是偶然的,再习得的机制可以帮助排除偶然的影响。

双侧对称动物内部普遍存在联想学习,而在双侧对称动物之外却明显缺乏这种能力,这表明联想学习最早是在早期双侧对称动物的大脑中出现的。似乎在情感效价,即对世界上的事物进行好坏分类,出现的同时,利用经验来改变这些分类的能力也随之产生。

为什么像珊瑚和海葵这样的非双侧对称动物,尽管经过了额外的六亿年进化,却没有获得学习联想的能力?它们的生存策略根本不需要这种能力。

具有联想学习能力的珊瑚虫并不会比没有这种能力的珊瑚虫存活得更好。珊瑚虫只是固定在一个地方,等待食物游到它的触手范围内。它们的策略是吞食任何触碰到触手的东西,并避开任何带来痛苦的事物,这种策略在没有联想学习的情况下也能很好地运作。相比之下,一个为导航而设计的大脑会面临独特进化的压力,需要根据经验调整其导航决策。一个早期的双侧对称动物,如果能够记住避开之前在捕食者附近发现的化学物质,会比那些不能做到这一点的双侧对称动物存活得更好。

信用分配问题

在学习关联的过程中,有一个问题就是外界的信号是有很多而且不间断的,那么哪个才是和目标的那个相关联的呢? 这个问题在强化学习中被称为「信用分配问题」 (The Credit Assignment Problem),而动物实际上也有这个问题,但是有这几种方式来解决:

  • 资格追踪 (eligibility traces) :比如只有有食物之前的一秒钟之内发生的信号才有效
  • 遮蔽 (overshadowing) :只选择最强的信号,其他那些比较弱的信号就忽略了
  • 潜抑制 (latent inhibition) :过去经常发生的刺激会被抑制,也就是说频繁发生的那些事件会被当作一种背景音
  • 阻断 (blocking):只追踪单一线索,如果产生了联结就阻止其他线索与目标的联结

这种学习应该都是通过神经元之间连接的突触的强弱改变来达成的。比如如果两个神经元之间的突触比较强,那么输入神经元只要释放很弱的信号就能激活输出神经元,反之则需要非常强的信号才能激活。 而突触有很多机制来增强或者削弱,比如可能是突触中有某种蛋白质机制,可以检测到两端的神经元是否在相似的时间发放,如果是的话就增强突触。这种机制由心理学家 Donald O. Hebb 在 1940 年代提出,因此叫作 Hebbian 学习 。而实际情况会稍微更复杂一点,比如突触中有某些分子机制可以达成更加细节的监测,比如检测到输入神经元的发放时间要比输出的早,这样才建立关系,以此来形成资格追踪的效果。

Breakthrough #2: Reinforcing and the First Vertebrates

TD学习 (Temporal-Difference Learning,时序差分学习)

计算机领域的强化学习始于 1950 年代,普林斯顿的博士生 Marvin Minsky 试图用来让机器来在迷宫中导航,训练过程很简单:如果成功走出迷宫就发放奖励。但是这个算法的运行效果并不好,无法 handle 比较复杂的场景。主要原因就是时间长了之后,机器走过的步数可能有几百步,哪些应该被认为是好的哪些应该被认为是坏的是不明确的,这时候只有对于这几百步的总体奖励是不够的。这个问题实际上也是一种信用分配问题,但是是时间上的。

直到 1984 年,Richard Sutton 的博士论文提出了解决时间信用分配的问题的算法,就是用「预测奖励」来取代「实际奖励」。就是 Sutton 提出了 Actor-Critic 模型,其中 Actor (演员)执行动作,Critic (评论家)来评价当前动作应该给多少奖励。比如在下跳棋的时候,前 9 步 Critic 一直认为是均势,然后第 10 步 Actor 执行了一个妙手改变了局势,Critic 就会得出这一步应该给很高的奖励。这就是 TD 学习 (Temporal-Difference) 。 但是 Sutton 的这个逻辑是循环的:Actor 能够知道应该做什么行为取决于 Critic 对其的评价,而 Critic 能够知道在给定棋盘的获胜可能性取决于 Actor 未来的行为。

到了 1989 年,IBM 的 Tesauro 偶然发现了 Sutton 的想法,然后将其付诸实施,用来下双陆棋,做法就是同时训练 Actor 和 Critic,最终得到了 TD-Gammon,是当时下双陆棋的 SOTA。这个证明了对机器做强化学习是可行的,于是后世被用来做各种事情,很多都达到了人类的水平。

强化学习被证明在机器上是有效的,但是不确定这只是一种巧妙的算法,还是确实是生物得到智能的一种通用的模式。从对多巴胺的功能的更加深入的研究来看,应该是后者。

一个实验是:给猴子以几何图片,然后一段时间后给糖水,然后测量多巴胺神经元的活动水平。会发现一开始的时候猴子在获得糖水的时候多巴胺神经元活动水平很高,但是几次之后就变成了看几何图片的时候神经元活动水平很高,真正喝到糖水的时候没什么反应了。这说明了多巴胺 实际上是一种对于预期的奖励 ,如果有对未来好事的预期,就会分泌多巴胺。而对猴子来说,到后面看到几何图片的时候就是得到这种预期的时候,因此多巴胺是在这里分泌的,真正得到享受其实并没有改变预期。

能否把这种训练融入自己的习惯培养里呢,用奖赏与习惯进行绑定,来让自己养成习惯

另外更加有意思的是一些细节也和我们在机器上实现强化学习的手段相同,让猴子意识到 4 秒之后会有糖水和 16 秒之后会有糖水,这两种情况下看到几何图片的那个时刻的多巴胺神经元活动水平是不同的,4 秒之后的这个会更强。这个就是一种 discounted reward,更近的好事会有更强的奖励,而遥远的好事就要打折扣。

考试脑科学2也提到,短期奖赏更有动力

所以也就是说,多巴胺不是奖励的信号,是强化的信号,是希望动物对达到当前的情况所做出的行为进行强化,能够多做这样的行为。所以正如 Sutton 最早发现的那样,强化和奖励是解耦的,这样的训练才是有效的。这也是为什么人类会对多巴胺奖励上瘾,即便实际上没有什么真正的享受。

之前的线虫的多巴胺是对应的「附近有好东西(食物)」,其实和这里更复杂的多巴胺的机制是类似的,它就是在强化要继续这样寻找的过程,所以很能想象为什么多巴胺演化成了这里复杂的机制。

模式识别

有一个问题是,很多的信号都不是通过单一受体来感知的。比如闻到某种气味,实际上是多种气体分子联合被嗅觉神经感受到的结果。也就是说在进行识别的时候是一组神经元共同工作去监测一个模式,这就是「模式识别」。

线虫这样的动物的感知能力仅局限于用单个神经元,而模式识别的能力是 脊椎动物 独有的。

模式识别是非常困难的,比如对于动物来说,美味的猎物的气味和危险的捕食者的气味可能在很多方面(很多气体分子)上都是相似的。以鱼的嗅觉为例,嗅觉神经元会将其输出发送到大脑顶部的一个结构,称为「皮层」(Cortex)。这边的神经元是「锥体神经元」,拥有数百个树突 (Dendrites,用以输入) 和上千个突触 (Synapse,用以输出)。

从嗅觉输入到皮层的连接很有意思,我们称之为**扩展稀疏**:

  • 一是 它会进行一个升维(扩展) :更少的嗅觉神经元连接到了更多的皮层神经元
  • 二是 它不是全连接的(稀疏) :一个特定的嗅觉神经元只会连接到一部分的皮层神经元

这种连接方式可能就是帮助解决辨别问题的方法,比如尽管捕食者的气味和食物的气味的模式有重叠的地方,但是激活的皮层的神经元将是不同的,这个被称为 「正交化」 (Orthogonalization) 。

同时还要有能力解决泛化的问题:比如两次的气味可能是类似但是不完全一致的。所以当一个气味模式激活了一组皮层的神经元的时候,这一组神经元会通 Hebbian plasticity 连接在一起,也就是形成一种自我关联。这样,之后这个模式中只有一部分的神经元被激活,也会激活整个模式。也就是说动物形成了这样的一种记忆的寻址方式:通过一个记忆的子集来寻址。

好奇

强化学习实际上是两个对立过程的统一:

  • 强化行为:希望下次仍然做同样的事情
  • 新行为:对没做过的行为进行探索,这样才有可能能找到好的行为

在机器学习中,这种矛盾一定程度上是通过让 actor 输出的行为做 temperal scaling,选择一个随机行为,这样的方式来解决的。但如果这还不够的话,就需要 DeepMind 在 2018 年提出的 「好奇」机制 ,提供一种**做****新行为**的内在的奖励

DeepMind 的这个机制的思路来源就是动物的好奇。因为 TD 学习是脊椎动物才有的,所以很显然,好奇也是脊椎动物才有的。

先天对于好奇的奖励机制可以解释为什么人们会沉迷于赌博,因为赌博能够带来足够大的不确定性。同时,也可以解释人们对于社交网络的沉迷,因为社交网络的刷新每次都会出来新的内容,能持续满足好奇。

基础的世界模型

鱼为了能够构建自身经过的区域周边的地图,还需要两个条件:

  • 一是要对自己的运动状态有了解
  • 二是记住自己和外部世界的关系

能够对自己的运动状态有了解,这是通过 前庭感 (vestibular sense) 来达成的。在人类身上,这一感受来自于内耳深处有半规管,其中充满了液体,神经元会监测这些液体的流动来确定运动状态(实际上就是加速度)。而之所以在椅子上转圈久了停下来人仍然会觉得在旋转,就是因为这部分神经元被过度激活了,一直发出信号。

记住外部世界则是通过 大脑的海马体 hippocampus 实现的,研究发现当鱼游到一个特定空间区域之后,海马体就被激活,这时候视觉、前庭感觉、头向信号被传播到海马体,在那里被混合并转换成空间的地图。

鱼也有海马体吗?

Breakthrough #3: Simulating and the First Mammals

新皮层

之前的动物已经掌握了从实践中学习的能力,甚至脊椎动物已经掌握了 TD 学习的能力。而哺乳动物大脑中新的皮层——就叫 新皮层 (neocortex) ——将赋予它们以从模拟中学习的能力,或者说是从想象中学习的能力。拥有这种能力之后,小老鼠这样的哺乳动物就可以先想象捕食之后怎么钻进地洞来躲避被猎杀,从而大大提高了生存率。

现在一般认为要进化出这样的能力有两个条件:

  • 一是要有广阔的视野,要能够看到周围环境的很多东西,这样才能让模拟更准确。而在陆地上,视野远远比水中开阔,所以鱼类选择不模拟,而是快速反应有什么东西正在快速袭来
  • 二是可能要有温血性,因为这种模拟计算的计算量会比皮层-基底神经节系统中的强化学习要强得多,而神经元的电信号在低温下效率比较低。所以只有哺乳动物和鸟类现在看起来有模拟的能力,这两个是仅有的温血动物

而在人类的大脑中,新皮层的占比达到了 76%,可以说现在人类大脑的主要部分就是 新皮层 。早期对人类的新皮层的研究发现,新皮层不是服务于单一功能的,所以被分为了 视觉皮层、听觉皮层、嗅觉皮层 等。而 20 世纪中期神经科学家 Mountcastle 的发现表明: 新皮层的不同区块的结构是完全相同的,执行的是完全相同的计算

这个结论得到了更多实验的支持:

  • MIT 的神经科学家切断雪豹的耳朵的输入,然后将视网膜的输入接入到听觉皮层,结果是雪豹的视力非常好
  • 另一个实验是人们发现先天性失明患者的视觉皮层并没有变成无用的区域,而是被利用来帮助听觉了。这个解释了为什么失明者的听觉、嗅觉经常被认为特别灵敏

Helmholtz 的感知理论和 Helmholtz Machine

新皮层是如何工作的?这还要从 19 世纪德国物理学家 Helmholtz 的理论说起。他的理论是用来解释人类的大脑的很多行为,这些行为包括:

  • 可以自动补全不完整的形状
  • 一次只能感知到一个属性,比如只能把一张图片看成是鸭子或者是看成是兔子
  • 一旦感知到就无法忘记,比如一张模糊的图形里面,如果一下子看出了这是一只青蛙,就一直能看到

Helmholtz 认为,人感知的不是「真正经历的东西」,而是大脑认为存在的东西,这个大脑认为存在的过程就被他称为 Inference 。也就是说,人类并不感知到真实存在的东西,而是感知到从真实存在的东西中推理出来的模拟现实。

1990 年代的时候,Geoffrey Hinton 他们打造了一台机器用以验证 Helmholtz 的思想,他们称之为 Helmholtz Machine。 这个 Machine 由两个部分组成:

  • 识别网络 (Recognition Model):负责从数据 X 去得到一个隐变量 z∼q(z|x) ,这里 q(z|x) 是在输入为 x 的情况下对 z 的先验假设,希望将其尽量接近真实后验 p(z|x)。这里 q(z|x) 就是模型要学习的部分
  • 生成网络 (Generative Model):负责用隐变量来尝试生成原始的 x,也就是生成 x 和 z 的联合分布 p(x,z)=p(z)p(x|z)。这里 p(z) 是一个设计好的先验分布,p(x|z) 是生成模型要学习的部分

其训练过程被称为 Wake-Sleep 算法,过程是这样的:

  • Wake 阶段:输入真实的数据 x,通过识别网络去得到 z∼q(z|x)。固定住这个 z,让生成网络尝试使用 z 去生成 x,通过和原始 x 比较来调整生成网络的参数(比如最小化 MSE 或者是交叉熵损失)
  • Sleep 阶段:让生成网络从 z∼p(z) 采样,然后生成一个 x′∼p(x|z)。让识别网络识别这个 x′,得到 q(z|x′),然后调整识别网络的参数来让他接近真实后验 p(z|x′),也就是最小化 KL 散度(让两个分布接近)

用具体的例子来说就是:

  • Wake 阶段:比如输入一张猫的图像,通过识别网络得到一个隐变量,用生成网络尝试使用隐变量中的信息来重新画出一只猫。这里隐变量中的信息可能就是「猫色」、「体形」等等特征。因为这里是有原本的猫的图像的,所以可以将画出的猫和原本的猫做对比来优化生成网络
  • Sleep 阶段:让生成网络从隐变量才分布中采样,然后画出一只猫,再让识别网络去识别这只「假猫」,得到它在隐变量中的分布。因为这里是知道真实的采样的隐变量的,所以可以将两者对比,来优化识别网络

其实可以看到这种方式和今天的 VAE, GAN 都有类似之处,Helmholtz Machine 确实就是这些现代模型的启发者。

Helmholtz 认为人类的感知很大程度上 inference 过程——也就是** 在内心用生成模型对世界进行模拟,然后和感官感知到的证据做对比的过程 **。现在的这些机器上的生成模型的成功为其观点增加了分量,至少说明类似的原理是行得通的。

因此,一些神经科学家甚至将感知称为是「受限的幻觉」,也就是说 大脑不停在生成,而感官的输入是对其生成的一种约束 。同时,生成模型的存在可能也能解释为什么我们睡眠的时候会做梦。实际上很多其他动物都会睡眠,主要是为了节约能量,而 只有哺乳动物和鸟类有明确的做梦的迹象 ,因为睡眠的时候就是感官没有在工作的。而从 Helmholtz 结构的角度来说,白天醒着的时候做了太多的识别工作,晚上睡觉的时候多做一些生成工作可以平衡一下。所以如果一直缺乏睡眠的话就会出现幻觉、认知障碍的情况,可能就是要多做一些生成的工作了。

同时研究也发现, 想象和识别是不能同时进行的 ,人在想象的时候明显会出现瞳孔放大的情况,大脑实际上这时候是停止处理视觉的数据的。并且也发现,识别和想象类似的东西的时候,激活的新皮层的神经元区块是类似的。比如看到一只猫和想象一只猫实际上激活了类似的新皮层神经元。

所以可以认为新皮层是这么工作的:** 渲染出环境的模型,然后不停进行预测。所以一旦有任何和预测不一致的地方,就会引起惊讶 **。所以比如在走路的时候,如果都是平路,那么就是和预测的结果一致的,不会引起注意,但是一旦有一个坑让脚发现没有踩在地面上,就是和模拟不一致,从而引起惊讶。

实际上从双侧动物开始,就一直在尝试进行预测:

  • 双侧动物(的反射回路):预测反射激活,也就是用一个神经元的激活来预测另一个神经元
  • 脊椎动物(的基底神经节):预测未来奖励,比如猴子通过几何图片来预测糖水的奖励
  • 哺乳动物(的新皮层):预测一切

新皮层赋予的能力

新皮层的生成功能赋予了哺乳动物以很多新的能力:

第一是替代性试错。哺乳动物可以想象如果选择了一种做法会造成怎么样的后果,研究表明老鼠走迷宫的时候遇到决策困难的地方会停下来进行想象,如果走两边的路径会怎么样。

第二是反事实学习。强化学习的一个问题是有些时候其实情况并不算好,但是仍然有收获,那仍然有 reward 来进行强化,比如鱼去捕猎其他小鱼,只捕猎到一条,其实很少,但是因为吃到了食物,所以仍然对刚刚的行为进行了强化。在机器学习的强化学习中,这里实际上是会做一个 normalization,因为好坏是相对的。而对于哺乳动物来说,可以想象如果不是采用这个策略,那么能捕猎到多少条鱼,是不是会比现在更多,从而对行为进行反思,比如和猴子玩石头剪刀布,猴子如果输了,下一次会倾向于出上一次可以赢的选项。

反事实学习实际上是一种解决信用分配问题的更高明的方法,对比一下:

  • 双侧动物:通过阻断、潜在抑制、遮蔽等方法进行的基本的信用分配
  • 脊椎动物:通过 Critic 预测未来奖励变化的时间分配信用
  • 哺乳动物:基于反事实想象来分配信用(是什么真正导致了事件的发生?)

第三是情节记忆的能力。研究发现我们其实并不是完全记住了一个过去的场景,而是在 模拟这个场景 ,情景记忆在回忆的过程中被填充(就像填充视觉的几何图形一样)。这就是为什么情景记忆非常真实,但其实不是很可靠。这里对于过去的模拟其实是和想象未来的时候对未来的模拟类似的。所以这里的核心看起来其实是新皮层,但是其实海马体也起到了很重要的作用。我们知道之前脊椎动物已经有了海马体(内侧皮层),达成了一些简单的记忆,比如鱼可以在海马体的帮助下记住周边的空间。但是海马体做的其实是快速的场景记忆,当新的信息进入大脑之后,海马体迅速将其编码成一个事件的 pattern,之后这个 pattern 会被转移到新皮层中。

所以整个记忆流程大概是这样的:

  • 感官输入,然后感觉新皮层进行初步的处理,形成临时的对世界的模拟
  • 海马体迅速捕捉到感觉新皮层传来的 pattern,将其编码成一个初步记忆代码。到这里形成的记忆是粗略的,是一种简单的模式识别,但是速度非常快,因为慢了以后事件就消失了
  • 接下来的几小时到几天内,海马体会反复 replay 这些 pattern,尤其是在睡眠和休息时。通过这样的 replay,海马体内部的突触会强化,形成相对稳定的中期记忆
  • 再往后的时间里,海马体会反复将编码后的 pattern 传回新皮层,建立更加稳定的长期记忆

然后当要对长期的记忆进行回忆的时候,就是在新皮层中进行模拟。所以海马体损伤的人会无法形成新的记忆,但是并不影响已经存在的遥远的记忆,这就是著名的患者 Molaison 的情况。

基于模型的强化学习

直接在复杂的棋类游戏中使用强化学习的效果是不够好的,所以 AlphaZero 这样的模型实际上用到了另一个技巧,就是会 搜索策略 。在对手落子之后,对可能的不同的走法进行上千次模拟,然后选择其中获胜比例最高的走法。这个实际上相当于是不直接选择单个 Actor 的 action,而是有一组 actor 共同行动,然后从中挑出最好的那一个,这是一种对于 TD 学习的简单扩展。我们一般把这种方式的强化学习叫作 基于模型的强化学习 (Model-Based Reinforcement Learning,MBRL)。

而在自然界要做类似的事情比围棋要难得多,因为这里的搜索策略是固定的(选择哪些 action 来进行模拟),而自然界每一种不同的场景都需要一个不同的搜索策略。人脑在不同的场景下会非常灵活使用不同的策略,有时候会不假思索,有时候会进行非常丰富的想象模拟,这远超现在 AI 的能力,那么人是如何做到的呢?

新皮层是模拟的地方,而研究表明前额叶皮层 (主要是其中的 aPFC) 是 控制模拟 的地方。如果老鼠的 aPFC 损伤,那么就会变得非常冲动,失去计划的能力。而 aPFC 是通过 「预测自我」的方式来对模拟进行控制的 。新皮层形成的是一个世界模型,它时刻在进行对世界的模拟,预测 外部的物体接下来会做什么 ;而同时 aPFC 形成的是一个自我模型,从海马体、下丘脑等地方获得输入,预测 「我」本身接下来会做什么 。而当 aPFC 的预测结果和实际发生的情况不一致的时候,就也产生了一个(对于 aPFC 的)惊讶,然后就会触发模拟。因为预测不一致就代表了一种不确定性。而这里 aPFC 因为是在预测的,所以本身就有几个可能的结果,这几个结果就可以作为接下来要模拟什么的内容。

目标、习惯、工作记忆、自我控制

一个研究先让老鼠去抬杆然后给奖励食物,老鼠就学习到了抬杆。然后之后给老鼠一些污染了的奖励食物(直接给),发现大部分老鼠就变得没有那么积极去抬杠了。这可以说明老鼠这里不是简单的无模型强化学习,而是在动作之前会模拟一遍奖励,发现奖励没有那么吸引人了就不做动作了。但是发现那些之前抬了非常非常多次杆的老鼠会继续抬杆,这就是我们一般说的「形成了习惯」。这里的原理就是 基底神经节 已经接管了这个动作,在做的时候不再进行反思模拟了。也就是说习惯是一种 由刺激直接触发的自动化 的行为,是无模型强化学习的情况。习惯的存在帮助我们在做很多事情的时候可以轻松完成,但是如果习惯在错误的场景就会对我们不利。

基底神经节这样的无模型强化学习系统是谈不上有一个「目标」的,因为它的功能就是做动作然后获得最大的奖励。但是 aPFC (agranular prefrontal cortex,无颗粒前额皮层) 确实是有一个目标的,因为它是要 为了达成一个特定的目标 然后去进行规划的。比如去超市购物,前者会直接往之前强化过的效率最高的路径走,而后者会构建一个超市的大致的布局,模拟各种可能的路径,然后进行选择,这里就必须要有一个明确的目标比如是为了更快完成购物。当然某种程度上来说无模型系统在学习过程中也是有一个目标的,也就是其奖励规则。但这实际上只是一种奖励的依据,可能并不是特别具体的,所以比如我们问为什么 AI 做了这个动作,无模型系统只能回答 「因为历史上这个动作获得了更多奖励 」,而有模型的就能回答是 「为了达到这个目的」

这里可以对比一下 aPFC 和感知皮层的区别。在感知皮层中,有一个 Layer 4 ,是用来连接感官的输入,开始进行模拟的。而 aPFC 在发育过程中会有 Layer 4,也就是说会通过外界的输入来建立内部模型,但是发育成熟之后 Layer 4 就会 萎缩 ,它的 input 不再有原始的感官数据,而是仅有其他新皮层和基底神经节的信息,通过 整合这些更抽象的信息来生成更高层的意图和目标

同时 aPFC 在进行控制的时候还需要 「工作记忆」 ,也就是在执行一个意图的时候要保持这个意图所需要的记忆。aPFC 的做法其实就是持续唤起新皮层对要保存的场景的模拟,从而在一段时间内记住这些场景。以啮齿动物为例,当它在树林中寻找坚果时,需要记住哪些树木已经采过,从而避免重复采摘,啮齿动物的 aPFC 就会重复模拟之前采过的树木。与海马体做对比的话,海马体是能迅速编码一些信息,但是这些信息是为了能够长期存储的,之后也会慢慢整合到新皮层中。而工作记忆就完全是临时性的,时间稍久就忘记了,以计算机来类比的话,其实非常像 register。通常来说,工作记忆保存的是需要临时操作、实时更新的信息。例如,解决数学题时暂存的数字、语言理解过程中临时保留的句子结构等。海马体则主要对环境信息、情境细节、事件的背景等进行快速编码。

另外,aPFC 还有一个功能就是 抑制杏仁核 (amygdala )。杏仁核的作用是触发一些本能的情绪反应(恐惧、欲望、攻击性等等),aPFC 抑制之下就会人类行为就会相对更加理性和脱离本能反应。而 aPFC 的工作是非常耗能的,所以人在疲惫、压力大的时候 aPFC 的能力就会减弱,所以就会变得更加 动物性 ,即更加冲动、易怒等等。

Breakthrough #4: Mentalizing and the First Primates

灵长类的群体

研究发现对于灵长类动物来说,大脑的大小和它们生活的群体的大小呈正相关。而这种相关性在其他动物上是没有的。对于各种动物来说,群居是有收益也有损失的。收益主要是更加安全,比如一群斑马狮子来说也是有威胁的,而一只斑马就完全是猎物了;但是问题就是一个群体中会出现内部的对于配偶、食物的争斗,这种争斗是要消耗宝贵的能量的。所以一般这些群居动物都会进化出一种信号和服从机制,比如鹿会进行锁角而不是真的你死我活的争斗来决出领导者,败者就要对胜者进行服从。建立了这样的服从和等级的结构之后群体就会更加稳定高效。灵长类至此和其他的群居动物没有太多差异,但是一个区别是灵长类具有一个比较特别的能力,即拥有 心智理论 (theory of mind) ,能够推断他人的意图和知识。

研究发现灵长类群体中的社会等级非常重要,灵长类动物都对社会等级的存在和变化极为敏感。比如先播放上层成员发出 dominance 的声音,然后下层成员发出 submission 的声音,狒狒群体不会有什么反应;而如果反过来播放下层成员发出 dominance 的声音,然后上层成员发出 submission 的声音,狒狒群体就会非常惊恐,盯着扬声器想看看到底发生了什么。而灵长类群体中的社会等级并不是和其他很多哺乳动物一样是看谁的力量强的,很大程度上取决于「出身」,和人类一样。比如对于所有的雌性来说,地位最高的是地位最高的家庭的年长者,然后是她的女儿,接下来才是地位稍次的家庭的年长者,她的女儿,以此类推。而家庭地位的更迭要看整个家庭的力量,如果上位家庭的力量看起来要弱了,下位家庭就可能发起反叛挑战。在这个挑战中,他们都可能是会招募家族(群体)之外的成员来进行帮忙的。

灵长类形成这样子的情况可能和他们曾经在二叠纪-三叠纪灭绝事件后处于一个特殊的生态位有关系。在这个时期,这些灵长类主要是居住在树顶采摘果子来获得能量,这使得整个生活非常容易,获取食物所要付出的能量很少,同时有大量的空闲时间。所以对这些灵长类来说,与其进化出强大的力量,不如进化出更大的大脑来进行社交。 所以在这个时期,演化的压力变成了社交的军备竞赛,一场政治智慧的争夺战。其结果就是今天很多人类的社会本能的蓬勃发展,其中包括看起来比较正面的:友谊、互惠、和解、信任、分享,也包括比较负面的:裙带政治、欺骗等。支撑这些新动作,这些政治行为的能力就是进行心智理论的能力。

建模他人心智、逆强化学习

最早的哺乳动物的的大脑只有不到 0.5g,而最早的猿类的大脑已经来到了 350g。一个问题就是,这里到底增加了什么? 其中有很多部分确实只是已有区块的等比放大,但是也确实有新的部分,其中之一就是 gPFC (granular prefrontal cortex) ,它环绕着 aPFC。之所以说这部分是新的,并不是因为其微电路,其微电路仍然是和其他新皮层区域一样的(所以应该说 gPFC 也是新皮层),而是它的 IO 的连接性。

gPFC 以 aPFC 的状态作为输入,所以它构建了一个关于自己的内在的模型,其作用可以说是「解释意图」。 回顾一下,

  • 新皮层形成了一个世界模型,对世界进行时时刻刻的模拟;
  • 而 aPFC 形成了一个对新皮层的模拟,通过预测自我的行为来形成一个更上层的意图,来更好地进行控制;
  • 而 gPFC 则是更进一步,对 aPFC 进行预测,也就是来预测 aPFC 形成的意图是什么,这就起到了解释意图的效果。

举一个例子,如果我们把灵长类动物放到一个迷宫里面,当他左转的时候我们问「为什么左转」,在不同的抽象层次上会有不同的答案:

  • 从反射的层次来说,左转是硬编码的规则,也就是朝着气味的来源的方向(左侧)移动
  • 从脊椎动物的 TD 学习的角度来说,左转是可以让未来的奖励最大化的行为
  • 从哺乳动物的新皮层和 aPFC 的角度来说,左转是因为知道左边有食物,这是一个整体的意图,就是去左边取食物
  • 从灵长类的 gPFC 的角度来说,左转是因为我知道我现在很饿,而饿的时候吃食物很爽,同时我知道左边有食物。这种对思考这件事情本身能够思考的能力被心理学家和哲学家称为 metacognition

而建模他人心智的就是将「认识自己」的方式运用到「认识他人」上,即会将自己投射到他人的处境上来理解他人,从而获得心智理论。

心智理论也赋予了灵长类以 「观察他人的动作来学习新技能」的能力。很多非灵长类的动物也可以通过观察别人怎么做来学习,但是都只是一种 「对于选择的学习」 ,也就是说本来不知道在这种场景下应该选择使用自己已有技能的哪一种,现在知道了。这个使用简单的反射就可以实现,比如乌龟可以有一个反射是去看其他乌龟正在看的方向。而灵长类所能通过观察学到的东西可以是完全新的技能,之前从来没做过的事情。

这件事情的延伸意义就是对于工具的使用。一旦有一只灵长类动物发明了使用一种工具,那么就可以被其他的目击者学会,然后代代相传下去。

2010 年的时候,Andrew Ng 等人通过 「逆强化学习」 IRL 的方法做出了能够自动驾驶遥控直升机的 AI。这里的做法就是给 AI 以人类开车的视频,然后训练 AI 推断人类开车过程中行为的意图,然后自己推断出 reward function 应该是什么样的。然后最后再使用常规的 RL 的方法去进行学习。这里 IRL 做的事情在原理上就很像 gPFC 做的事情。

Breakthrough #5: Speaking and the First Humans

人类语言与动物之间交流的区别

对于人类独特性的论述古已有之,但是现在实际上证明 人类的大脑和黑猩猩的大脑并没有结构上的区别 ,只是更加放大了一些而已。而使得今天的人类与猩猩如此不同的主要原因可能还是 沟通方式的区别,也就是语言

动物之间当然也是有交流的,但是这种交流的方式是硬编码在基因中的。完全处于不同环境下抚养的其他灵长动物,见面之后仍然能用一些叫声和手势进行沟通。同时我们知道我们可以用一些语言来训练猫、狗等,来和他们进行沟通,但是这实际上只是一种基本的 TD 学习:即我们在训练狗的过程中会给它一些奖励,狗通过 TD 学习知道听到这些声音之后做某些动作就能获得未来的奖励。

所以语言学习区分了两种标签:命令标签陈述标签,训练猫狗的语言只能是前者,也就是产生一个命令让它们做事情,而只有人类语言可以表达陈述性的标签。

另外,还有实验尝试从黑猩猩的幼年开始教人类语言,最后达成的结果是可以达到两三岁幼年人类的语言水平,可以使用简单的词汇的组合。能学会一定的人类语言这个是合理的,因为大脑的结构上确实没有什么区别。而之所以只能达到两三岁人类的水平,可能和 缺乏学习本能 有关。

语言的能力、奇点

语言的最大意义在于可以在不同个体之间传递大脑的内在模拟,从而做到「从他人的想象中学习」。这里对比一下之前的学习方式:

  • 双侧对称动物的强化学习、脊椎动物的 TD 学习:从实际行动中学习
  • 拥有了新皮层的哺乳动物的学习:从想象(模拟)中学习
  • 心理化了的灵长类动物的学习:从观察他人的行动中学习
  • 拥有语言的人类:从他人的想象中学习

语言还赋予了人类以拥有共同的想象从而形成凝聚力的能力,也就是赫拉利说的 「想象的共同体」

更重要的是其机制。类似于:DNA 的强大之处不在于其产生造物(具体的心脏、肢体等器官),而在于其运作的机制,自然选择压力可能最终挑选出最好的组合;语言的出现让人类在几代几十代之后将最有利于生存的知识挑选保留下来。黑猩猩缺乏语言,所以好的内在模拟无法被传播和保留,因此超出了一定的复杂性 threshold 的发明是永远无法达到的。

而当知识的积累到了一定的量,就达到了一个奇点。人类为了应对更多的知识量,发生了几个变化:

  • 进化出了更大的大脑,从而让单个个体能够承载更多的知识
  • 让知识分布在不同的个体中,比如一些人是矛的制造者,一些人是衣服的制造者,也就是产生了专业化
  • 发明了书写,可以让知识的保存不局限于大脑中

大脑中的语言、课程

今天我们已经知道,对于人类来说,运用语言主要是两个脑区负责的:

  • Broca’s Area:负责语言的 产生 ,如果损伤的话人仍然能理解语言,但是无法产生流畅的语言,说的话语法非常混乱,只能表达简单的意义
  • Wernicke’s Area:负责语言的 理解 ,如果损伤的话人无法理解语言,可以流畅说话但是产生的语言没有意义(胡言乱语)

同时我们知道这两个区域负责的是「语言本身」,而不是某种特定的语言形式。也就是说这两个区的损伤带来的这些症状是会体现在说话、书写、手语等各种语言形式上的。

而这两区实际上也是新皮层,只是我们将这两个位置命名成了如此,其结构和黑猩猩的这个位置并没有什么区别。所以也可以说,黑猩猩实际上也是有这两个区的,那么为什么黑猩猩就无法产生语言呢?

实际上我们现在已经知道,我们的情感表达才是黑猩猩手语与吼叫的直系演化,我们的语言其实是完全不同的东西。人类现在控制面部实际上就有两套系统,一个是通过情感直接控制的,这是一些古老的反射;另一套是新皮层控制的,提供对面部的自愿控制。一个病例就是发现自己无法主动控制面部肌肉了,但是在开心的时候还是可以笑。同时,那些 Broca’s Area 或者是 Wernicke’s Area 受损的人也同样可以正常哭和笑。所以也就是说,我们完整继承了黑猩猩的手语、吼叫能力,作为情绪表达。而语言的能力则是完全重新学习来的。

语言相对于其他的技能可以说是非常复杂的,所以其实并没有能够印刻在基因中。而基因对语言的安排是:强制了一套完整的学习课程,经过了这个课程之后人类就会学习到语言。其实类似的事情在其他动物上也有,比如鸟类不是生来就会飞行的,但是他们会根据基因自然地去扑腾翅膀等,这样就能慢慢学会飞行。而人类的婴儿,在四个月大的时候就会去尝试进行交流,然后九个月的时候会有 「共同注意」 的机制,希望成人能够解释一个东西是什么,从而让自己为这个东西贴上标签。同时人们发现,Broca’s Area 和 Wernicke’s Area 这两区并不特殊,如果在婴儿的时候切除掉这两区,那么人仍然能学会语言,只是占用了其他的新皮层作为这两区的功能

所以黑猩猩无法真正学会语言的原因可能就是在这里:他们在基因上没有编码这样的「课程」,从而无法持续学习语言

语言的出现还有一个比较难解释的问题,就是语言早期的功能是利他的,而不是利己的。我们其他的那些进化出来的项目,无一例外都对个体自身的生存有着很大的帮助,但是语言的作用可能是教授他人。所以这里的区别就是语言的进化是一种「群体选择」,而不是「个体选择」,拥有语言的群体的生存状况会更好。

实际上动物在语言之前也有一些利他行为,主要是两种:

  • 一是亲属选择,即会在涉及直系亲属的时候有 bias,这个在基因角度来说是很合理的
  • 二是互惠利他,即期望对方会有回报的时候进行的利他行为

人类最早使用语言也许是在亲子之间,主要是为了让后代学会工具的使用。而之后语言的使用就会扩展到非亲属中,整个群体中。在这个时期,人们首先会用语言来谈论「八卦」,即分享他人的道德违规行为、讨论关系变化。所以这种情况下,cheaters 会有更高的作案成本,会更容易被惩罚;反过来说,也有利于让帮助他人的人得到更多的奖励。所以语言有助于形成一个互惠利他系统,长此以往就会让进化出更高水平的利他主义成为可能。于是这里就形成了反馈循环:利他主义程度高了以后,每个人向他人分享信息的程度就更高。然后更高的分享信息的程度又会促进语言技能的增加,然后使得八卦有效性更高,进一步促进利他主义的发展。人类给他人贴上善恶标签的本能可能也来自于此。

完美风暴:人类是如何出现的

人类和黑猩猩的分歧大概发生在 七百万年前 。而直到两百多万年前,大脑的容量都是保持不变的,但是之后却在很短时间里面迅速变大了三倍。

一千万年前 ,东非是一片绿洲,树木繁茂,我们的祖先就住在树上。但是随后地壳板块的移动让这里形成了新的山脉和,沿着今天的埃塞俄比亚延伸,这个地区就是今天我们所说的 「东非大裂谷」 。新的山脉将大裂谷两侧的黑猩猩分开来, 在西侧 ,环境和之前类似,黑猩猩们基本保持了祖先的状态;而 在东侧 ,树木逐渐减少,形成了越来越开阔的草原,于是演化压力开始发挥作用,这批「东侧猿」后来就变成了人类。到距今大概四百万年前,这些东侧猿的样子仍然和西侧的黑猩猩差不多,唯一区别是他们开始直立行走。不管说直立行走是为了什么,但是这并不需要额外的脑力,大脑的容量在这个时期也是基本保持不变的。

了两百多万年前 ,这时候新的草原上已经生活了大量大型哺乳动物,象、斑马、长颈鹿、野猪、豹子、狮子、鬣狗等等,而我们的祖先是这里面顶级猎食者。他们之所以能做到是因为发明了工具:一个是 Oldowan tools,可能是一种打击制成的黑曜石或者石英的薄片(Oldowan 这个词就是旧石器时代的意思),还有石斧等。这些人被称为 Homo erectus 直立人。值得注意的是这里这个名字是比较糟糕的,因为在称为 Homo erectus 之前这些人就已经直立行走了。Homo erectus 的捕食方式可能是长时间追逐猎物,通过耐力上的优势来追上对方。他们也因此进化出了更多强化耐力的特征:腿部变长、脚弓拱起、无毛、汗腺增多等等。另外,烹饪也应该是在这个时期被发明,烹饪可以帮助直立人从同样的食物中获取更多营养,提供更多的热量盈余。

而随着这段时间大脑的增大,也出现了一个新的问题,就是更大的大脑无法通过产道。直立人的应对进化是 早产 ,将没有发育完全的幼崽直接生育出来,真正大脑长成需要再过 12 年。这是为什么其他很多动物的幼崽剩下来就会站立甚至奔跑,而人类婴儿要差得多的原因。

LLM 与人的对比

新皮层通过渲染内部模拟的方式来推理,这个机制让人类经常在一些问题上犯错。比如考虑这个问题:一个人喜欢独处,喜欢柔和的音乐,戴着眼镜,那么他更有可能是一个图书管理员还是一个建筑工人?一般的回答都会是前者,因为更符合我们想象出来的图书管理员的形象。但是实际情况是,后者的人数是前者的几十倍,所以从统计上来说其实更有可能是后者。我们之所以认为是前者是因为我们能轻易渲染出前者的形象,而想象后者则困难得多。也就是说我们在做这种推理的时候只是去填补角色和场景,而忽略因果和统计关系,这也是人类的很多 Bias 的来源。一定程度上说这个有点像 LLM 工作的方式,就是 填补空缺

当然,纯从语言的层面来说,LLM 只会预测下一个单词,而人类在预测下一个单词的时候是会有 一个新皮层内的世界模型进行模拟的 。相比之下 LLM 这个还是肤浅得多。这里有一个问题就是「回形针问题」,即人类在提出要求说工厂要尽可能生产更多回形针,这个要求实际上是有很多的隐含意思的,比如并不是要把整个地球都变成生产回形针的工厂;比如目的其实是多赚钱而不是真的就想要回形针。也就是说这样的要求背后有一些微秒的约束,要理解这样的约束最重要的能力就是要对提问者的心智建模,也就是心理化过程中带来的智能。

参考