多巴胺本身不直接产生主观的愉悦感,它不是奖励的绝对值,而是奖励预测误差。也就是说,它会在你获得惊喜的时候出现,会鼓励你在获得快感的事情上坚持下去。
但是,多巴胺分泌并不能让你在所有挑战前战无不胜。
多巴胺主要有三个功能,运动控制、行为选择和强化学习。你可能有点懵逼,怎么感觉它们三个风马牛不相及呢?
我第一次学的时候也觉得莫名其妙。我琢磨了很久该怎么捋多巴胺的功能,改了又改,最后我决定按图索骥——从多巴胺在大脑里的实际分布来讲。
多巴胺从何而来?大脑里的绝大多数多巴胺产于一个叫基底核的中脑区域。
其中,又有两大产地:黑质(substantia nigra)和腹侧被盖区(ventral tegmental area)。它们俩挨得特别近,但我们一定要将它们分开讲,因为产地决定了多巴胺的最终去处,也很大程度上决定了它们的功能。
额外说几句
基底核的英文名是「Basal ganglia」。如果你对神经解剖学有一些了解的话,就会发现这个翻译不对劲。
Ganglia(单数为 ganglion)的中文翻译应该是神经「节」,指的是周边神经系统的神经核团(神经核团 = 神经细胞的胞体的聚集,a cluster of neurons)。
而「核」(nucleus)是指的中枢神经系统的神经核团。那为什么不叫基底节,而叫基底核呢?
原因出在英文本身,它本身就是错的;基底核属于中枢神经系统,而不是周边神经系统,所以它本应该叫 basal nuclei,而不是 basal ganglia。
这个错误的英语名字现在已经成为习惯,但在被翻译成中文的时候,被纠正了。这种「英文错的,中文翻译反而是对的」的例子实在少见。
咱们换一种方式来解释:多巴胺是从农村进城的打工仔。这群打工仔主要来自一个省份,叫做基底核。细分一下,多巴胺的籍贯来自这个省份两个紧挨的村儿,一个叫做黑质,另一叫做腹侧被盖区。
因为一些未知原因,来自黑质的多巴胺,走不远,出村后全体都会去同省的另一个城市,叫纹状体(striatum)。去的多了,就形成了通路,这个通路被称为「黑质纹状体通路(nigrostriatal pathway)」。这群多巴胺主要就是负责自主运动的调节和控制,比如维持一个姿势或执行一个动作。
但黑质这个村儿啊,有个问题,因为一些未知原因,村上的建筑物(也就是负责生产多巴胺的神经细胞)特别容易一片儿一片儿的受损甚至彻底坍塌(也就是细胞死亡)。这些细胞一死,人就会出现无法控制运动的现象,比如手抖、路都走不了,严重就会出现帕金森。
帕金森是一种通常在老年人的大脑中出现的疾病,其最明显的症状对动作失去控制权,比如身体僵硬、动作迟缓、或是四肢在不动的时候出现不自主的颤抖等等。现阶段帕金森是不可治愈的,但可以减缓症状。
现在最常见的帕金森治疗方式就是摄入 L-DOPA。L-DOPA 是多巴胺的一个前体。那为啥不直接摄入多巴胺呢?
因为多巴胺不能经过血脑屏障,你无论是口服还是直接打入血液,都没办法进入大脑,那没啥用,但 L-DOPA 可以。这个 L-DOPA 必须长期使用,而且还有很多副作用,更重要的是,它治标不治本。
等大脑里负责生产多巴胺的神经细胞大片死亡,那注入再多的 L-DOPA 都没用了。而患有帕金森的大脑最明显的标志,就是黑质里的神经细胞大片死亡,进而导致黑质纹状体通路里的多巴胺水平降低。
从另一个村儿——腹侧被盖区——出来的多巴胺,就走得比较远了,都要出省。绝大多数会走得特别远,去前额皮层(prefrontal cortex),途径前扣带回(anterior cingulate)和眼窝前额皮质(orbitofrontal cortex),这形成「中脑皮层通路」(mesocortical pathway)。走这个路子的多巴胺主要和做决策有关。
决策(decision-making)是个覆盖很广、内容复杂的认知功能。从某个角度来讲,人的一生,做决定比努力更重要。这里说的决策,主要是指行动选择(action selection),也就是「下一步做什么?」。
在某个环境下,人或动物可以采取多种行动(比如往左走 or 往右走),而基底核里的神经细胞活动决定了到底采取哪一种行动。更具体一点,在未做决定前,所有的行动都被基底核抑制着(控制着自己不去做),而当基底核对一个行为的抑制减少时,这个行为就会自动启动。
这个行为如何实施,不关基底核的事儿,但基底核控制了所有行为的启动开关。换言之,基底核是行动的发起者,但不是实施者。多巴胺在整个这个行动发起的过程中,至少起了两个关键作用:
(1)多巴胺设定了门槛的高低。多巴胺越多,发起行动所需要的动力就越低。往往多巴胺越多,人的冲动性行为就越多,多巴胺越低,人就显得越麻木、反应就越慢。以吸毒这个行为为例,多巴胺越多,「摄入毒品」这一举动所需要的动力门槛就越低,大脑就更难抑制住吸毒行为。
前面我们还提到过另一个与多巴胺有关的疾病——帕金森。帕金森大脑中多巴胺水平偏低,这就导致了患者表现麻木、行动僵硬。但有个有趣的现象值得注意:有一种行为反应,帕金森患者和常人一样,那就是面对危险时下意识做出的「战或逃」反应(这可能是因为战或逃反应时由去甲肾上腺素控制的,而不是多巴胺)。
但如果通过药物提高帕金森患者大脑中的多巴胺水平,就会使得帕金森患者在面对危险的时候做出过激的反应。这些都和多巴胺控制着行为选择的门槛高低这一点密切相关。如果我们能完全了解大脑的正常运转机制,当大脑出问题的时候,一切问题都不会是问题。
(2)多巴胺还给行动选择带来了「学习」这个技能。比如说,如果基底核发起了一个行动 A,并且行动之后多巴胺水平升高了,中脑皮层通路就会做出相应改变,使得下一次遇到类似的环境/场景时,更倾向于选择行动 A。
还有一小部分从腹侧被盖区出来的多巴胺,出省之后,没走多远,到了伏隔核(nucleus accumbens);而这条通路叫做「中脑边缘通路」(mesolimbic pathway)。这条通路特别有名,也叫做「奖励通路」(reward pathway)。
这条通路上,多巴胺越高,「想要」的这份欲望就会越强烈。用学术的话来讲,就是它控制了激励显著性(incentive salience)。一个亿,你给王健林,他可能还瞧不上,但给我,我立马喊你爸爸。换句话说,同一个奖励,对不同人、不同时间、不同环境,会有产生不同的激励显著性。
正因这条通路负责控制激励显著性,这条通路上的多巴胺有个特别重要的任务,那就是强化学习(reinforcement learning)。举个例子,你在夜市上乱晃(探索未知环境),试了一家麻辣小龙虾,特别好吃(奖励),吃了还想吃(激励),从此以后,你每晚都去这家吃麻小(遵从行为)。从探索到遵从,这个养成习惯性行为的过程,就叫强化学习。
如果了解人工智能,这个词儿你一定不陌生。在机器学习里的强化学习是指「如何基于环境而行动,以取得最大化的利益。」其实这个词儿就是从神经科学这儿来的,我们这里强化学习是指:人为了达到某种目的,在特定环境下采取特定行为。
当这种行为带来奖励后,这种行为从此会反复出现,形成习惯,这叫正强化;但如果这种行为带来惩罚,这种行为就会逐渐减弱,这叫负强化。这个认知过程对于动物来说实在是太重要了,没有这个功能,我们和草履虫有什么区别。而多巴胺主要就负责这个正强化。
说到这里,就不能不说上瘾 。
如果习惯了错误的行为,就成了瘾。标准地来说,瘾是指一种重复性的强迫行为,即使知道这个行为会有不好的影响,也还是难以停止;就像是产生了一种依赖,而被依赖的「某种东西」可能是物质性的——物质成瘾(substance addiction)——譬如说烟、酒、药物,也有可能是非物质性的——行为成瘾(behaviour addiction)——譬如说性、网络、游戏、赌博等等。
瘾上来的时候,简直像是变了一个人,心情烦躁、注意力不集中、非常想去把这个小小的但很强烈的愿望给完成了。
以毒品为例,毒品可以间接地增加大脑中的多巴胺的释放。最容易被影响的就是腹侧被盖区相关的这两个通路,分泌大量多巴胺,让这两个通路上的区域习惯这样大量的多巴胺,适应了高水平激活状态。
当停止摄入毒品后,这些区域的神经细胞难以适应新的低水平激活状态,人就会出现「想要」的这种感觉,进而自动生成对毒品的渴求,导致物质成瘾。
除了成瘾,从腹侧被盖区出来的这些多巴胺还和精神分裂 (schizophrenia)有关系。中脑皮层通路被阻断,会出现精神分裂的阴性症状,比如在该有情绪的时候没法表达情绪、不愿与人交流接触。
中脑边缘通路被阻断,就会产生精神分裂症的阳性症状,比如幻觉和妄想。注意,幻觉和妄想有区别,看到王健林喊我女儿是幻觉,坚信王健林是我爸爸那就是妄想。虽然多巴胺和精神分裂的具体关系还不太清楚,但直到目前为止,学术界里所有的精神分裂症形成的理论和假设都和多巴胺有关。
多巴胺不是真正的快乐
乍一看,多巴胺三大通路所带来的功能——控制动作、决策和强化学习——似乎风马牛不相及,但其实这三种功能,都能汇到一个点上,那就是奖励。它们相辅相成,让奖励系统实实在在地运行起来。
为什么这么说呢?让我们回头看看奖励到底是什么。奖励是一种事物的特性。这个特性有三个关键的组成部分:
(1)愉悦感:奖励能够带来愉悦感
(2)为得到满足而行动:奖励能够产生趋向性行为并带来满足感
(3)学习:进而导致强化学习
后面两个特点特别好理解,其实就是对应着前文提到的「行为选择」和「强化学习」这两个功能。
但奖励的第一个特性就比较绕,很容易被误解。说「多巴胺就是快乐的本质」的人,其实就是对奖励和愉悦感的关系产生了误解。
「愉悦感」为奖励提供了一种定义,让奖励能够使人产生渴望进而采取行动。但奖励不等同于愉悦感,更不等同于快乐。
虽然两者常常被混为一谈,但其实「渴望」和「喜欢」是两码事。毒品上瘾就是最好的例子,瘾君子对毒品渴望,但他们并不会喜欢毒品。而且随着吸食毒品的次数升高,它所带来的愉悦感会越来越少。
多巴胺本身其实不直接产生主观的愉悦感。
它可能参与了产生愉悦感的过程——比如说 2019 年 1 月 西班牙巴塞罗那大学的科学家就发现大脑中要是多巴胺水平低,听音乐时产生的愉悦感就会变低,这说明多巴胺对产生音乐相关的愉悦感是必不可少的——但这不是多巴胺的主要作用,愉悦感不是完全由多巴胺产生的。
写到这儿的,我一直单曲循环邓紫棋唱的那版《你不是真正的快乐》。不由感叹,邓紫棋真是唱出了多巴胺的心声啊。真·硬·核。
如果非要给多巴胺安一个角儿,不如说多巴胺是「励志」。
说起来,发现多巴胺的这个过程就挺励志的。回顾现代神经科学历史,如果大脑是一场舞台剧,神经科学家是编剧,神经递质们各自有各自的角色,那多巴胺最开始就是个给男主去甲肾上腺素当炮灰的小弟。这怎么说呢?
在很长一段时间里,科学家一直以为,多巴胺仅是去甲肾上腺素的一个前体。去甲肾上腺素是另一种重要的神经递质,后面我们会细谈。前体就是指是一个半成品; 多巴胺只是一个半成品,完成品是去甲肾上腺素。谁能想到一个半成品这么牛逼呢?
1958 年瑞典药理学家阿尔维德·卡尔森(Arvid Carlsson)在兔子身上做去甲肾上腺素相关的研究的时,意外发现多巴胺有控制动作的作用。如果缺少多巴胺,兔子会出现类似于人类帕金森患者的症状。
这说明多巴胺不仅仅是个前体,其本身也是一个负责大脑某些重要功能的神经递质。很快,他们实验室又开发出了一种在大脑中测量多巴胺含量的办法,以此找出了多巴胺在大脑中的分布图。卡尔森因此在 2000 年得到了诺贝尔奖。
爱情的保质期?渣渣复渣渣
除了「多巴胺 = 快乐」这个误解,另一个常在科普文中看到一个概念是:「无论是一见钟情还是日久生情,爱情 = 苯基乙胺 + 多巴胺。」
要是一句话我全都看不懂,就会让人觉得很没有说服力,甚至还会刺激人产生一种逆反感,「你们这些科学家就是闲着没事而」。要是一句话我全都懂,我又会觉得,好 low 啊,这谁不知道。
最微妙的就是这种,一句话里大多词我都认识,其中大半的内容我有可以多唠几句的切身体验(that is 爱情),一小部分特有格调而且还有我认识的词儿(that is 多巴胺),再加上一个我不认识、但一看就牛逼的词儿(that is 苯基乙胺),这样的一句话就莫名其妙特有说服力。
你看到「苯基乙胺」可能摸不着头脑,但如果说「安非他命」你可能就觉得耳熟了。这个概念衍生出极多、而且很有噱头的误解,比如「只要大脑产生足够多这两种激素,就会产生爱情」;而「爱情的消失,也只是因为这些化学物质的消失」。
确实有神经科学研究观察到热恋中的人的大脑的多巴胺水平比常人要更高。但这不能过度解读成「多巴胺开始降低,热恋期就过了」吧。亲啊,渣就渣,不要拿多巴胺当借口好么,我们多巴胺可不背锅。
类似的,我在网上还看过一句话,「对同一个异性,多巴胺这样让人像吸毒一样快乐的情欲激素只可以持续分泌几个月到 4 年不等。」
先不说多巴胺怎么跟情欲扯上关系了,就说若大脑的多巴胺只能分泌 4 年 ,那你一定要不断热恋,坚持不懈,否则成单身狗的那天就是你得帕金森的日子;还有,所有母胎单身的小伙伴——请你们就地抱抱自己——你们能活着就已经是奇迹。
渣渣复渣渣,多巴胺不背锅。
多巴胺究竟是什么?
说多巴胺是奖励,其实还是不准确的。
因为多巴胺不是奖励的绝对值,而是奖励预测误差(reward prediction error)。
简单来讲,你第一次主动帮忙妈妈做了家务事,妈妈奖励你一颗巧克力。你本来没期待会收到巧克力的(即预测中会得到巧克力的可能性为 0 ) ,所以巧克力的出现是一个意外之喜(即预测误差)。当你收到巧克力那一刻,这奖励预测误差就会引起多巴胺短暂但强烈的释放。
有意思的是,等你学习到「做家务事」和「得到巧克力」两者的必然联系后,下次多巴胺释放的时间点,就会提前到「做家务事」的时刻。
这就是为什么多巴胺的奖励机制中,不能不提的就是「预测」这一环节。这是一个非常重要的发现,这才是真正地触碰到了「多巴胺究竟是什么」这个问题的答案。
这里多说几句,为什么之前讲的不算是触碰到了真正的答案呢?难道知道多巴胺和奖励有关不是一份答案吗?
这倒不是这个意思。但只知道两者有关,并不足以让我们建出一个大脑来。当然,建出人造大脑并不是我们的最终目标,但如果我们能造,就说明我们已经完完全全搞明白大脑里发生了什么。
因为这一发现,2017 年 ,Wolfram Schultz、Peter Dayan 和 Ray Dolan 三人得到了 The Brain Prize(大脑科学奖)。
剑桥大学的 Schultz 首先发现了多巴胺和预测之间的这一联系,按他原话说, 「这是一个让我们想要买一辆更大的车或一栋更大房屋,或是在工作中得到提拔的生物学过程。」
Peter Dayan 进一步推动了 Schultz 的工作,提出了上面说的「奖励预测误差」这一概念,并从数学上提供了模型,进一步解释了多巴胺是如何驱动我们并更新目标的。
而 Ray Dolan 则又进一步研究了多巴胺是如何帮助我们学习,又是如何调控「期待」的。
我觉得这一知识点对我们自己的日常生活也很有启发性。
最近两年,我觉得越来越觉得没劲儿去驱动自己?做了很多努力,似乎也有些成果,但却感受不到 reward。我向朋友吐露这一困扰时,都笑我,我拥有的,哪个不是高价值的奖赏,还求什么?
但我们这帮做神经科学的都搞忘了一个非常简单的道理,满足感并非来自于奖赏的绝对值,而在于奖励的意外感。
100 分 (给你 1 个亿)不一定就比 1 分 (给你 100 万 )的事件更让你感到满足,因为如果你本来的奖励基线是 100 分(比如你做出了很多努力、很确认这事儿能带来 1 个亿收益),那实际收获为 100 分 ,你并不会感到意外,也不会有奖励感(不能说完全没有,但不强)。
但如果你原本的基线是 0,即使收获 1 分 ,也是有实实在在的 1 分奖励的。当然,如果你本来期待 1 个亿越南盾,结果得了 100 百万人民币,肯定是个很强的奖励。
姑且可以把多巴胺想成奖励的意外性。
100 分 的奖励不一定就好于 1 分的奖励,因为如果你的期待是 100, 最后得到的是 100, 那真正能感受到的奖励为 0 。
当然,这个道理谁都能明白。
但对于这个知识点,另一种理解是:那最好是不要努力,就不会有期待。让期待的奖励值恒定为零,那任何奖励都会带来愉悦感。
(诶,这个样子有点像抑郁状态呢?什么都不想做、对什么都没有期待,说不定这也算是可以解释「为什么人会抑郁」的一个歪理?)
但如果这样认为,那就是对人的奖励系统没搞明白。奖励作用有一个必要条件,那就是 behavioural engagement(行为参与),用产品经理的话说,就是衡量网站用户的活跃度的分析指标——参与度。
原本为 0 的 期待值,如果完全随机地等待天降奖励,奖励的不确定性会一定程度提高,这种不确定性会将基线提高,比如变成了 0.5。
不仅如此,人会对小概率事件产生「它很常见」的错觉,这就更导致基线会不成比例地提高,比如变成 0.6。
这时,你的奖励基线从 0,变成了 0.6,但随机出现的 1 分 奖励还是完全随机的,但你能得到的奖励预测误差会随着得到更多奖励而逐渐归零。
类似于警报疲劳(alarm fatigue)——类似于「狼来了」的故事——我觉得可以把这种回归现象称为奖励疲劳(reward fatigue)。
也就是说,即使你是宇宙第一锦鲤女孩,也会慢慢感觉不到奖励。你可能令人羡慕,但自己有没有体验到满足感那是另一个问题了。
那如何能够确保一直有更多的奖励预测误差呢?很简单,只有做出努力去寻找奖励。让奖励从偶然事件变成必然事件。
这就解释了为什么多巴胺和奖励之间的准确联系,更进一步解释了大脑是如何通过一个这么简单的化学物质驱动我们去达到各式各样的成就。
来,让我们和多巴胺一起大喊:我爱学习,学习使我快乐!