您當前的位置:首頁 > 攝影

巴甫洛夫的經典條件反射和斯金納的操作條件反射有什麼區別和聯絡?

作者:由 李曉煦 發表于 攝影時間:2021-03-22

下文提及書稿已出版,詳見

李曉煦:《三生有幸》上架開賣

==

以下為答主待刊書稿的一個相關章節,既有乾貨又不乏八卦,還帶一點不知道是瞎說還是大實話的私貨。可能略有偏離問題原意。歡迎私信評論指正。

==

Kanizsa 三角形與神經網路的模式識別

1976年,義大利心理學家 Gaetano Kanizsa 在《科學美國人》雜誌發表了一組視覺錯覺實驗素材[1]。此後幾乎所有的心理學導論教科書都引用了其中的基本範例(第一圖),稱之為「Kanizsa 三角形」。第二圖是原著中稍微複雜的一個變體。第三圖轉自

moillusions。com

巴甫洛夫的經典條件反射和斯金納的操作條件反射有什麼區別和聯絡?

巴甫洛夫的經典條件反射和斯金納的操作條件反射有什麼區別和聯絡?

相信所有讀者都看到左圖有一個與背景同色的直邊三角形擋在前面。右圖顯示,即使是弧邊,也有同樣效果。實際上,你的視網膜在物理上只看到這兩個三角形包括六個角在內的若干區域性。然而,這個視覺效果是如此強烈,以至於可以感受到前景的三角形邊緣內外畫素亮度差別,似乎內部 (A處) 要更亮一些,同樣也是白色的背景畫素點 (B處) 略暗一些。如果讀者用手機對著感受到的白色前景三角形邊緣線放大,讓所有黑色畫素點跑到取景框外,拍下照片再看,可以確證其實內外畫素點在物理上完全一樣。

讀者看到這幅圖的瞬間,在毫秒級的時間尺度立即識別前景的白色三角形,這個識別過程不涉及藉助語言符號的有意識推理。這個實驗並不需要作統計分析就已說服讀者,不過其中仍有一個常識的盲點值得闡明:假如熟悉模式識別問題的神經網路演算法[2],而且確信自己的腦神經系統演算法原理與之類似,這樣的讀者對於 Kanizsa 三角形的視覺感受不應有任何驚奇;反之,如果讀者將自己的腦解讀為符號系統的計算機,Kanizsa 三角形的視覺感受就成為一個需要解答的懸疑。

巴甫洛夫的狗與條件反射

巴甫洛夫的條件反射實驗最初是生理學層面的研究。巴甫洛夫本人是純粹的生理學家,1904年獲得諾貝爾生理與醫學獎,不是因為發現條件反射,而是因為對狗消化過程的研究。條件反射的發現與獲得諾獎確實有因果關係,只是因果方向要反過來——正因為他研究狗的消化得了諾貝爾獎,才有機會發現狗唾液分泌的條件反射。在獲得諾獎之後,他與他的研究團隊仍然經歷了多年的動亂坎坷,一戰、革命、內戰、…。在最困難的時候,實驗室種了胡蘿蔔和土豆接濟生活,研究團隊甚至被迫到城市社群偷狗。到巴甫洛夫實驗室吃狗糧對這些「被試」並不是什麼好事,至少要外科手術開上一刀,唾液腺接入導管測量口水的分泌。要測胃液的話,動的手術就更不人道,平均每條狗能在實驗中存活十天左右,其間收集的狗胃液不僅提供資料,還售作胃藥原料賺取研究經費[3]——整一個狗被試的奧斯維辛。

研究團隊偶然發現,新來的狗看到食物才流口水,沒幾天後,不用看到食物只要看到實驗員就流口水了。作為一個生理學實驗室,研究團隊本來只想搞清楚,怎麼讓狗在各種與食物完全無關的刺激下也能流口水(以及生產胃液)。1927年,巴甫洛夫的專著在歐美首次出版[4],「條件反射」這四個字的英文是

Conditioned Reflex

。在實驗設計文獻中,「設定實驗條件」就是操控,這個詞很容易被誤讀為字面意思:操控實驗條件促成的生理反應,然而這個誤讀恰好是巴甫洛夫純生理學的研究團隊最初本意。當然,隨著研究出乎意料的進展,研究團隊的關注重點逐漸從「反射」轉到了「條件」。

Conditioned

作為(被動時態或者完成時態的)動詞有了全新的內涵:「中性(音叉)刺激與無條件刺激(食物)二者聯結的習得」。中性刺激之後緊跟無條件刺激,或者兩者同時呈現(但不可以時序調轉)。實驗動物多次重複這種連貫整體處境,把其中的中性刺激識別為整體模式重要的區域性。通常,狗完成十次左右的聯結刺激訓練,就能對單獨的音叉刺激產生流口水的生理反應。這種「聯結習得」被叫作(動名詞的)「經典條件作用 (

Classical Conditioning

)」,原先的中性刺激在聯結習得之後就能單獨引發生理反應,所以稱之為「被條件作用訓練好的」刺激 (

Conditioned Stimulus

),簡譯為「條件刺激」。這也就是「條件反射」的新內涵:單獨條件刺激引發的生理反應。簡體中文文獻經常把

Conditioning

這個動名詞本身不恰當地翻譯成「條件反射」,如果理解

Conditioning

的賓語已經不再是巴甫洛夫最初關注的「流口水的生理反應」,可能會避免這種誤譯。在經典條件作用模型中,這個動詞的意思就是「習得」,賓語是「中性刺激與無條件刺激的聯結」。

從神經網路模式識別的視角,狗的經典條件作用過程相當於 Kanizsa 三角形補上那些缺掉的邊線後對神經網路作完整圖形的識別訓練。訓練完成之後,單獨呈現條件刺激就相當於單獨呈現(缺掉邊線的)區域性關鍵特徵,仍然可以喚起整體模式呈現的刺激結果(看到完整的前景三角形)[5]。聯結習得並不需要特別高階的腦結構,即使非常低等的動物比如蟑螂[6],也能勝任經典條件作用。

晚年的巴甫洛夫在斯大林時代學術聲望達到頂點。1926年,他領導的研究院已經被公認為全世界規模最大的心理學研究機構[7]。巴甫洛夫的研究工作一直持續到1936年去世前夕。他特別要求研究助手密切記錄他在臨終狀態的持續口述報告,作為人類臨終過程研究的第一手資料。巴甫洛夫傳記有這樣一句名言,其實是臨終現場助手代接電話時的答覆:「巴甫洛夫很忙,巴甫洛夫正在死亡。」[8]

斯金納的鴿子與操作條件作用

1927年,斯金納還是一位二十三歲的英語文學專業大學生。當時的文壇巨擘威爾斯讀到巴甫洛夫新譯為英文的專著[4],激動地寫了篇不惜溢美之詞的書評。雖然威爾斯也承認自己不懂生理學實驗,但是在書評中,他甚至自問自答了一個「巴甫洛夫和蕭伯納同時落水先救誰」的問題。斯金納後來寫到,威爾斯「讓蕭伯納淹死算了」的決定,促使他痛下決心放棄心愛的文藝,從此投身行為科學。兩年後,巴甫洛夫到訪哈佛為國際生理學年會作大會演講,斯金納專程跑去,搞到一張配有簽名的偶像照片。終其一生,這張珍貴的照片一直隨著斯金納換辦公室,最後掛在他去世前的家中書房[9]。

巴甫洛夫的經典條件反射和斯金納的操作條件反射有什麼區別和聯絡?

斯金納在實證研究「術」的層面很大程度繼承發展自桑代克的研究設計,在學術思想「道」的層面,最終超越巴甫洛夫,取而代之成為行為主義學術史(甚至整個二十世紀心理學史)影響最深遠的學者[10]。他曾經在一次媒體訪談中說漏嘴,留下一句特扎心的名言——

It is a mistake to suppose that the whole issue is how to free man。 The issue is to improve the way in which he is controlled。

(把人類的根本問題說成是如何獲得自由,這是個誤區。人類真正的問題在於如何被更好地控制。)

在美國社會,這似乎非常政治不正確。斯金納之所以相信控制而非自由,是因為發現包括人在內的各種動物都很容易透過強化、懲罰習得特定的複雜行為。比如下圖的影片連結,一對鴿子竟然能透過簡單的投食強化學會「打乒乓球」。

巴甫洛夫的經典條件反射和斯金納的操作條件反射有什麼區別和聯絡?

【生活大爆炸tbbt】鴿子打乒乓球_趣味科普人文_科技_bilibili_嗶哩嗶哩

https://www。bilibili。com/video/av9110413/

在簡體中文、俄文公眾傳媒,巴甫洛夫知名度遠高於斯金納。只適用於巴甫洛夫學說的「條件反射」一詞,幾乎成為「經典條件作用」和「操作條件作用」共同的代名詞。這解釋了斯金納的「操作條件作用」為什麼經常被不恰當地中譯為「操作條件反射」。「反射」對應的英文

Reflex

,顯然是指本能生理層面的、非隨意的反應。然而斯金納的操作 (

Operant

)幾乎就是

Reflexive

的反義詞,特指主動、隨意發起的行為。在谷歌學術搜尋帶引號嚴格匹配的

Operant Conditioned Reflex,

竟然還有103個結果,其中多數是母語中文、俄文的作者。如果在谷歌(而非「谷歌學術」)搜尋,有2070個結果,相比之下

Operant Conditioning

是162萬個結果,大體服從通常英文錯誤表達和主流表達之間的比例。

初學者很難吃透斯金納的術語

Operant

,因為這個詞存在兩層彼此緊張衝突的意象。第一層就是與

Reflexive

(反射)相對的意思:斯金納的鴿子主動去啄球;巴甫洛夫的狗流口水不能說是主動的,它只是被呈現了一盤狗糧或者聽到音叉,流口水是反射性生理行為,所以巴甫洛夫的學說可以叫條件反射,斯金納的學說如果非要構造一個對應的名詞,也許適合叫強化操作,或者強化行為。

斯金納學術思想真正激進的地方在

Operant

的第二層意思。斯金納指出,鴿子並不是以意識驅動行為去啄球,是鴿子先做了這件事,它的行為反過來驅動了意識——假如鴿子確實有意識。所以斯金納避免用英語裡帶有「想法驅動行為」意象的

Initiative

,也不用

Active

。與這兩個詞對比,

Operant

的主動性限制於客觀行為,避免牽涉主觀意識是否主動。如果將斯金納的學說與桑代克的「效果律」對比,這第二層意思會更明顯。斯金納學說強調,強化與懲罰的賓語是行為的頻率(成功啄球與失敗啄球的頻率),而不是行為的個體(鴿子),完全規避對個體主觀層面感受好壞的討論。強化與懲罰是因,行動頻率是果。桑代克與之相反,其學說涉及個體主觀層面的「滿意效果」與「困擾效果」。為了自別於實驗設計層面極其相似的桑代克「效果律」[11],斯金納特別用術語「強化 (

Reinforce

)」,不用更通俗易懂的「獎勵 (

Reward

)」。

「積極心理學」、「積極情感」中的「積極 (

Positive

)」更準確的翻譯是「正向」,與之對應,「消極(

Negative

)」更準確的翻譯是「負向」。在翻譯斯金納學說的時候,這一組形容詞搭配上「強化-懲罰」,非常容易產生誤讀,即使英文母語的研究者也常常搞錯。「負向強化」並不是懲罰。比如大鼠處在持續施加的噪音環境,如果做對了一個動作(連續壓槓桿兩次),噪音隨之暫停五秒鐘。這一種撤除刺激帶來的強化,文獻稱之「負向強化」。習得無助的研究就用到「負向強化」。持續電擊狗,如果狗掙扎反抗頭頂到開關,電擊暫停。反過來,也有「負向懲罰」。在管理學中,最常見的例子是扣獎金。員工每個月都有所謂的全勤獎,若出現遲到一次,當月的全勤獎就沒有了,解讀為獎勵刺激的撤消,就叫作「負向懲罰」。

最後,讀者可以自測一下,下圖影片[12]中被試的行為是條件反射還是操作條件作用?

巴甫洛夫的經典條件反射和斯金納的操作條件反射有什麼區別和聯絡?

【智商150】喵星人乖乖打鈴要飯,智商不得了_動物圈_生活_bilibili_嗶哩嗶哩

http://www。bilibili。com/video/av12041487/

影片中,按鈴似乎使貓流口水。然而在斯金納的學說中,是投擲的貓糧強化了貓按鈴行為的發生頻率。這裡還藏著第三位被試:其實影片中投擲貓糧的那隻手才是條件反射,他聽到了鈴聲就會投貓糧,這件事情越做越自動化,聽到本來中性的鈴聲刺激手臂肌肉就會生理反射投出貓糧。當然,這只是一個內涵大於嚴謹的段子。

兩類條件作用的同與異

心理學教科書比較強調兩類條件作用的區別,主流心理學教科書較少見到對兩類條件作用以神經網路模式識別作統一解讀[5]。不確定性在兩類條件作用的聯結習得過程起到非常不同的作用,這可能是兩類條件作用最鮮明的差別。在條件反射的習得過程,(中性刺激與無條件刺激)聯結呈現的絕對次數是最主要的因素,聯結的不確定性只會阻礙條件反射的習得。然而,在強化操作的習得中,強化物在操作行為之後的呈現模式起著更重要的作用,在同樣的平均呈現機率或者平均時間間隔下,不確定性甚至有更好的效果。比如,平均每三次操作行為獲得一次強化,完全隨機1/3機率呈現的情形優於嚴格的每三次呈現一次,呈現滯後時間隨機變化的情形優於呈現滯後時間不變的情形。

兩類條件作用基本的差別是生理層面的被動反射和行為層面的主動操作,或可追溯演化歷史,比如求生存與求繁衍之間的差異。可能很多讀者還會想到六十年代著名的「爬行動物腦-古哺乳動物腦-新哺乳動物腦」三層學說[13] 。然而,即使低等如蟑螂、蜜蜂的昆蟲,不僅可以習得經典條件反射[6],甚至其觸鬚的特定主動行為頻次也可以被強化[14]。兩類條件作用更深一層的一致性表現在,都可以與已經習得的另一個經典條件反射作二階的聯結。經典條件作用文獻中的例子即二階條件作用 (

Second-order Conditioning

) ,指條件刺激(音叉發聲)習得之後,可以作為新一輪經典條件作用的無條件刺激。比如音叉發聲與籠子震動刺激同時呈現若干次,但沒有呈現食物,籠子震動仍可習得為二階的條件刺激。單獨震動籠子而不敲音叉,狗也會流口水。操作條件作用文獻中的例子即次級強化 (

Secondary Reinforcement

),指條件刺激(撫摸貓頭)習得之後,替代無條件刺激(投擲貓糧)作為新一輪操作條件作用的強化物。不少文獻也將次級強化物稱為「條件強化物 (

Conditioned Reinforcer

)」,意思是條件刺激用於強化。

兩類條件作用的一致性還表現在,二者都具有「生物準備性 (

Biological Preparedness

)」——不同的物種,更為敏感的感官刺激比不敏感的感官刺激更容易習得聯結。巴甫洛夫的狗習得音叉鳴聲與食物刺激的聯結,大約需要十次左右訓練,如果要習得某種氣味與食物刺激的聯結,只需要一次或者兩次。狗對嗅覺最敏感。鳥類與狗不同,如果訓練斯金納的鴿子和巴甫洛夫的狗習得藍色麝香食物與(引發嘔吐的)無條件刺激物聯結,結果鴿子習得藍色色彩的條件反射,未習得麝香氣味的條件反射;狗相反,習得麝香氣味的條件反射,未習得藍色色彩的條件反射。生物準備性的例子主要見於經典條件作用,但是強化物與懲罰物的刺激有同樣的原理。食物適合作幾乎所有動物被試的強化物,噪音就只適合部分動物作為懲罰物。不知讀者們是否瞭解深海的魚類對什麼刺激敏感?估計大家都想不到——居然是電場。Jared Diamond 在《昨日世界》中寫到一個有趣的例子:研究者發現他研究的魚每週末那一天總是特別興奮活躍,莫非魚也過週末?結果是他的助手習慣在那天對鏡梳髮,鏡子鄰近魚缸,靜電導致電場變化。深海魚類透過電場的變化感知周邊生物的臨近,極個別物種比如電鰩甚至演化出釋放高壓電攻擊獵物的絕技。我們生活在聲與光的世界,它們生活在貌似更高科技的電場世界。

註釋

Kanizsa, G。 (1976)。 Subjective contours。

Scientific American

234

(4), 48-52。 [

pdf

推薦初學神經網路模型的讀者參考 Smilkov, D。 & Carter, S。 Tinker With a Neural Network in Your Browser。 [

tensorflow

]; Kanizsa三角形作為一個神經網路模式識別問題,機器學習訓練背景的學生可能認為它的解答演算法是這個領域的聖盃,但是對識別的結果本身有極高的接受度,不會用錯覺、幻覺這樣的詞彙去描述。反之,不瞭解機器學習的60年代認知主義心理學研究者,會認為這個現象本身很反常,對於符號系統的計算機,殘缺的關鍵區域性輸入不應該感知一個完整的全域性物件。

The New Yorker: Drool 。 [

html

Pavlov, I。 P。 (1927)。 Conditioned reflexes, GV Anrep。

London: Oxford University Press

。 [

pdf

操作條件作用的神經網路模式識別解釋見於 Michael Shermer的TED演講,較少見於主流的心理學教科書。 [

TED

Watanabe, H。, & Mizunami, M。 (2006)。 Classical conditioning of activities of salivary neurones in the cockroach。

Journal of Experimental Biology

209

(4), 766-779。 [

html

1926年,復旦大學心理學院建成標誌性建築子彬院,“《申報》稱,大樓規模據世界第三位,僅次於蘇俄巴甫洛夫心理學院和美國普林斯頓心理學院。” [

html

Pavlov is busy。 He is dying

。” [

html

Catania, A。 C。, & Laties, V。 G。 (1999)。 Pavlov and Skinner: Two lives in science。

Journal of the Experimental Analysis of Behavior

72

(3), 455-461。 [

pdf

Haggbloom, S。 J。, Warnick, R。, Warnick, J。 E。, Jones, V。 K。, Yarbrough, G。 L。, Russell, T。 M。, 。。。 & Monte, E。 (2002)。 The 100 most eminent psychologists of the 20th century。

Review of General Psychology

6

(2), 139。 [

pdf

Skinner, B。 F。 (1987)。 Whatever happened to psychology as the science of behavior?。

American psychologist

42

(8), 780。 [

researchgate

twitter

東華君@知乎:人類有三個大腦? ——有趣的Triune Brain假說。作者指出,雖然在該學說仍然是很好的科普近似模型,但已不再獲得主流神經科學界的支援 。 [

zhihu

Kisch, J。, & Erber, J。 (1999)。 Operant conditioning of antennal movements in the honey bee。

Behavioural Brain Research

99

(1), 93-102。 [

html

==

最後附帶一個教科書裡問「區別」時的應試參考答案,比較無趣。難回答的是「聯絡」——它們都是時序事件的神經網路模式識別。習得聯結的訓練階段,前後事件整合呈現。習得之後,呈現事件組合的先發區域性,喚起前後事件整合呈現的效果。事件可以是各種刺激(強化懲罰),也可以是操作行為。

巴甫洛夫的經典條件反射和斯金納的操作條件反射有什麼區別和聯絡?