您當前的位置:首頁 > 書法

演算法歧視:看不見的不正義

作者:由 Jeff曹建峰 發表于 書法時間:2022-12-05

演算法歧視:看不見的不正義

人工智慧在影響人們的生活,網上的和現實世界中的生活。演算法將人們在網路世界中的上網習慣、購物記錄、GPS位置資料等各種網上足跡和活動,轉變為對人們的各種打分和預測。這些打分和預測進而左右影響人們的生活的各種決策工作,其中的歧視和不公平由此成為一個顯著的問題,無論人們是否意識到歧視的存在。

以大資料、機器學習、人工智慧、演算法等為核心的自動決策系統的應用日益廣泛,從購物推薦、個性化內容推薦、精準廣告到貸款評估、保險評估、僱員評估再到司法程式中的犯罪風險評估,越來越多的決策工作為機器、演算法和人工智慧所取代,認為演算法可以為人類社會中的各種事務和決策工作帶來完全的客觀性。然而,這不過是妄想,是一廂情願。無論如何,演算法的設計都是程式設計人員的主觀選擇和判斷,他們是否可以不偏不倚地將既有的法律或者道德規則原封不動地編寫程序序,是值得懷疑的。演算法歧視(Algorithmic Bias)由此成為一個需要正視的問題。規則程式碼化帶來的不透明、不準確、不公平、難以審查等問題,需要認真思考和研究。

人工智慧演算法決策日益盛行

人們的網路存在,或者說數字存在(Digital Existence),日益受到演算法左右。如今,在網路空間,演算法可以決定你看到什麼新聞,聽到什麼歌曲,看到哪個好友的動態,看到什麼型別的廣告;可以決定誰得到貸款,誰得到工作,誰獲得假釋,誰拿到救助金。諸如此類。當然,基於演算法、大資料、資料探勘、機器學習等技術的人工智慧決策不侷限於解決資訊過載這一難題的個性化推薦。當利用人工智慧系統對犯罪人進行犯罪風險評估,演算法可以影響其刑罰;當自動駕駛汽車面臨道德抉擇的兩難困境,演算法可以決定犧牲哪一方;當將人工智慧技術應用於武器系統,演算法可以決定攻擊目標。其中存在一個不容忽視的問題:當將本該由人類負擔的決策工作委託給人工智慧系統,演算法能否做到不偏不倚?如何確保公平之實現?

演算法歧視不容忽視

網際網路上的演算法歧視早已有之。演算法歧視並不鮮見。影象識別軟體犯過種族主義大錯,比如,谷歌公司的圖片軟體曾錯將黑人的照片標記為“大猩猩”, Flickr的自動標記系統亦曾錯將黑人的照片標記為“猿猴”或者“動物”。 2016年3月23日,微軟公司的人工智慧聊天機器人Tay上線。出乎意料的是,Tay一開始和網民聊天,就被“教壞”了,成為了一個集反猶太人、性別歧視、種族歧視等於一身的“不良少女”。於是,上線不到一天,Tay就被微軟公司緊急下線了。

網際網路上的演算法歧視問題早已引起人們注意。研究表明,在谷歌搜尋中,相比搜尋白人的名字,搜尋黑人的名字更容易出現暗示具有犯罪歷史的廣告;在谷歌的廣告服務中,男性比女性看到更多高薪招聘廣告,當然,這可能和線上廣告市場中固有的歧視問題有關,廣告主可能更希望將特定廣告投放給特定人群。此外,非營利組織ProPublica研究發現,雖然亞馬遜公司宣稱其“致力於成為地球上最以消費者為中心的公司”,但其購物推薦系統卻一直偏袒其自己以及其合作伙伴的商品,即使其他賣家的商品的價格更低,而且,在其購物比價服務中,亞馬遜公司隱瞞了其自己以及其合作伙伴的商品的運費,導致消費者不能得到公正的比價結果。

當人工智慧用在應聘者評估上,可能引發僱傭歧視。如今,在醫療方面,人工智慧可以在病症出現前幾個月甚至幾年就可以預測到病症的發生。當人工智慧在對應聘者進行評估時,如果可以預測到該應聘者未來將會懷孕或者患上抑鬱症,並將其排除在外,這將造成嚴重的僱傭歧視。伊隆•馬斯克警告道,對於人工智慧,如果發展不當,可能就是在“召喚惡魔”。當把包括道德決策在內的越來越多的決策工作委託給演算法和人工智慧,人們不得不深思,演算法和人工智慧未來會不會成為人的自由意志的主宰,會不會成為人類道德準則的最終發言人。

犯罪風險評估中的歧視:法官和犯罪風險評估軟體哪個更靠譜?

人們常說,犯罪人遭受什麼樣的刑罰,取決於法官早餐吃什麼。刑罰和定罪是兩回事。確定犯罪人所應遭受的刑罰,屬於法官自由裁量權之範圍。法律形式主義認為,法官以理性、機械、深思熟慮的方式將法律推理應用於案件事實,法官在量刑時受到諸多規則和指引約束。法律現實主義則認為,法律推理的理性適用並不能充分解釋法官的判決,以及影響司法判決的心理、政治、社會等因素。法官在餓著肚子時更加嚴厲,傾向於給犯罪人判處更重的刑罰。一項實證研究表明,司法正義取決於法官早餐吃什麼,在用餐之前,法官做出有利判決(假釋)的比例從約65%下跌到0;在用餐之後,法官做出有利判決(假釋)的比例又會急劇上升到約65%。

正是由於法官在量刑時常常受到諸多非法律的外在因素影響,基於大資料、資料探勘、人工智慧等技術的犯罪風險評估系統開始大行其道。Northpointe公司開發的犯罪風險評估演算法COMPAS對犯罪人的再犯風險進行評估,並給出一個再犯風險分數,法官可以據此決定犯罪人所應遭受的刑罰。非營利組織ProPublica研究發現,這一算法系統性地歧視了黑人,白人更多被錯誤地評估為低犯罪風險,而黑人被錯誤地評估為高犯罪風險的機率是白人的兩倍。透過跟蹤調查7000多名犯罪人,ProPublica發現,COMPAS給出的再犯風險分數在預測未來犯罪方面非常不可靠,在被預測為未來會犯暴力犯罪的犯罪人中,僅有20%的犯罪人後來確實再次實施暴力犯罪。綜合來看,這一演算法並不比擲硬幣準確多少。

犯罪風險評估系統是一個“黑箱”,它如何得出結論,人們無從知曉,開發它的公司又拒絕對簿公堂,稱演算法是其私人財產,在缺乏必要的問責機制的情況下,無法矯正的演算法歧視對刑事司法正義而言,就是一種嘲諷。Northpointe公司曾向ProPublica披露說其犯罪風險評估演算法會考慮受教育水平、工作等諸多因素,但未披露具體算式,認為是其私人財產。所以人們無從知曉Northpointe公司是否將美國社會中固有的種族歧視問題編寫進其演算法。比如,即使集體統計資料顯示黑人比白人更容易犯罪,將這一集體統計資料應用於黑人個體是否妥當?再比如,一直存在所謂的“天生犯罪人”理論,認為犯罪與否和一個個體的長相、基因等生理特徵有關,在資料探勘中考慮這些資料是否妥當?為了確保公平,犯罪風險評估演算法在進行資料探勘時可以使用哪些資料?更重要的是,是否可以依據秘密資訊以及由此產生的犯罪風險分數對犯罪人進行判刑?所有這些問題都需要認真對待,否則利用人工智慧系統對犯罪人進行打分、計算刑期等,就可能帶來意想不到的系統性歧視。美國國會正在推動《量刑改革法案》(Sentencing Reform Bill),將引入“犯罪風險得分”,並據此對犯罪人進行量刑、減刑等,如何透過有效的機制在刑事司法程式中避免機器歧視並在出現機器歧視、不公正時進行問責或者糾正,顯得尤為重要。

人工智慧決策三大問題:公平、透明性和可責性

有些歧視或許無關緊要,但在涉及信用評估、犯罪風險評估、僱傭評估等重大活動時,人工智慧決策的結果將影響甚至決定貸款額度、刑罰選擇、僱傭與否,這時候歧視就不再是無足輕重的。如今,在醫療方面,人工智慧系統基於大資料、資料探勘等技術,可以對患者進行預測式診斷,甚至可以在患者病發前數月甚至數年就預測到這一事實,這為精準醫療和預防試醫療提供了可能性。但是,如果將這一技術應用於僱員能力評估,使其掌握是否僱傭某一特定個體的生殺大權,具有強大預測功能的人工智慧系統可能會將未來會患上抑鬱症等疾病或者懷孕的那些人系統性地排除在外。因此需要重視演算法的公平、透明性和可責性這三大問題。

演算法預設(By Default)是公平的嗎?

長久以來,人們對計算機技術存在一個廣為人知的誤解:演算法決策傾向於是公平的,因為數學關乎方程,而非膚色。人類決策受到諸多有意或者無意的偏見以及資訊不充分等因素影響,可能影響結果的公正性。所以存在一種利用數學方法將人類社會事務量化、客觀化的思潮,Fred Benenson將這種對資料的崇拜稱之為數學清洗(Mathwashing),就是說,利用演算法、模型、機器學習等數學方法重塑一個更加客觀的現實世界。《人類簡史》一書的作者將之稱為“資料宗教”,對資料的使用未來將成為一切決策工作的基礎,從垃圾郵件過濾、信用卡欺詐檢測、搜尋引擎、熱點新聞趨勢到廣告、保險或者貸款資質、信用評分,大資料驅動的機器學習和人工智慧介入並影響越來越多的決策工作,認為大資料、演算法等可以消除決策程式中的人類偏見。

但是,在自主決策系統越來越流行的今天,有幾個問題需要預先回答:第一,公平可以量化、形式化嗎?可以被翻譯成操作性的演算法嗎?第二,公平被量化為計算問題會帶來風險嗎?第三,如果公平是機器學習和人工智慧的目標,誰來決定公平的考量因素?第四,如何讓演算法、機器學習和人工智慧具有公平理念,自主意識到資料探勘和處理中的歧視問題?

大資料應用日益廣泛,迴應這些問題極為必要。首先,公平是一個模糊的概念,法律上的公平被翻譯成演算法公平可能存在困難,但在犯罪偵查、社會治安、刑事司法程式中,基於大資料的人工智慧系統正在將公平問題演算法化,包括在犯罪嫌疑人搜尋、社會治安維護、量刑等諸多方面。其次,公平被量化、被演算法化可能帶來歧視問題。美國FTC在2016年1月釋出的《大資料:包容性工具抑或排斥性工具?》(Big Data: a Tool for Inclusion or Exclusion?)特別關注大資料中的歧視和偏見問題,對於消費者,一方面確保公平機會法律得到有效執行,另一方面防止大資料分析中採取歧視等不公平行為;對於企業,FTC建議企業考察以下問題:資料集是否具有代表性?所使用的資料模型是否會導致偏見?基於大資料進行預測的準確性如何?對大資料的依賴是否會導致道德或者公平性問題?

歐盟同樣關心大資料和演算法中的歧視問題,歐盟資料保護委員會2015年11月釋出的《應對大資料挑戰:呼籲透過設計和可責性實現透明性、使用者控制及資料保護》(Meeting the Challenges of Big Data: a Call for Transparency, User Control, Data Protection by Design and Accountability)警惕人們重視大資料對窮人或者弱勢群體的歧視,並提出是否可以讓機器代替人類來做道德、法律等判斷的問題,其實就是公平能否演算法化的問題。最後,當利用犯罪風險評估軟體對犯罪人進行評估,決定司法判決結果的就不再是規則,而是程式碼。但當程式設計人員將既定規則寫進程式碼時,不可避免要對這些規則進行調整,但公眾、官員以及法官並不知曉,無從審查嵌入到自主決策系統中的規則的透明性、可責性以及準確性。

顯然,演算法的好壞取決於所使用的資料的好壞。比如,如果拿一個個體吃的食物來評估其犯罪風險,那必然會得到很荒謬的結果。而且,資料在很多方面常常是不完美的,這使得演算法繼承了人類決策者的種種偏見。此外,資料可能僅僅反映出更大的社會範圍內持續存在著的歧視。當然,資料探勘可能意外發現一些有用的規律,而這些規律其實是關於排斥和不平等的既有模式。不加深思熟慮就依賴演算法、資料探勘等技術可能排斥弱勢群體等參與社會事務。更糟糕的是,歧視在很多情況下都是演算法的副產品,是演算法的一個難以預料的、無意識的屬性,而非程式設計人員有意識的選擇,這更增加了識別問題根源或者解釋問題的難度。因此,在自主決策系統之應用日益廣泛的網際網路時代,人們需要摒棄演算法本質上是公平的誤解,考慮如何透過設計確保演算法和人工智慧系統的公平性,因為很多歧視來源於產品設計(Discrimination by Design)。

演算法決策可能暗藏歧視

演算法決策在很多時候其實就是一種預測,用過去的資料預測未來的趨勢。演算法模型和資料輸入決定著預測的結果。因此,這兩個要素也就成為了演算法歧視的主要來源。一方面,演算法在本質上是“以數學方式或者計算機程式碼表達的意見”,包括其設計、目的、成功標準、資料使用等都是設計者、開發者的主觀選擇,他們可能將自己的偏見嵌入算法系統。

另一方面,資料的有效性、準確性,也會影響整個演算法決策和預測的準確性。比如,資料是社會現實的反應,訓練資料本身可能是歧視性的,用這樣的資料訓練出來的AI系統自然也會帶上歧視的影子;再比如,資料可能是不正確、不完整或者過時的,帶來所謂的“垃圾進,垃圾出”的現象;更進一步,如果一個AI系統依賴多數學習,自然不能相容少數族裔的利益。此外,演算法歧視可能是具有自我學習和適應能力的演算法在互動過程中習得的,AI系統在與現實世界互動過程中,可能沒法區別什麼是歧視、什麼不是歧視。

偏見也可能是機器學習的結果。比如一個甄別錯誤姓名的機器學習模型,如果某個姓是極為獨特的,那麼包含這個姓的姓名為假的機率就很高;但是這可能造成對少數民族的歧視,因為他們的姓可能本來就不同於普通的姓氏。當谷歌搜尋“學習到”搜尋奧巴馬的人希望在日後的搜尋中看到更多關於奧巴馬的新聞,搜尋羅姆尼的人希望在日後的搜尋中看到更少關於奧巴馬的新聞,那也是從機器學習過程中產生的偏見。

最後,演算法傾向於將歧視固化或者放大,使歧視自我長存於整個演算法裡面。奧威爾在他的政治小說《1984》中寫過一句很著名的話:“誰掌握過去,誰就掌握未來;誰掌握現在,誰就掌握過去。”這句話其實也可以用來類比演算法歧視。歸根到底,演算法決策是在用過去預測未來,而過去的歧視可能會在演算法中得到鞏固並在未來得到加強,因為錯誤的輸入形成的錯誤輸出作為反饋,進一步加深了錯誤。最終,演算法決策不僅僅會將過去的歧視做法程式碼化,而且會創造自己的現實,形成一個“自我實現的歧視性反饋迴圈”。因為如果用過去的不準確或者有偏見的資料去訓練演算法,出來的結果肯定也是有偏見的;然後再用這一輸出產生的新資料對系統進行反饋,就會使偏見得到鞏固,最終可能讓演算法來創造現實。包括預測性警務、犯罪風險評估等等都存在類似的問題。所以,演算法決策其實缺乏對未來的想象力,而人類社會的進步需要這樣的想象力。

作為“黑箱”(Black box)的演算法的透明化(Transparency)困境

演算法的公平性是一個問題,演算法的不透明性更是一個問題。人們質疑自主決策系統,主要是因為這一系統一般僅僅輸出一個數字,比如信用分數或者犯罪風險分數,而未提供做出這一決策所依據的材料和理由。傳統上,法官在做出判決之前,需要進行充分的說理和論證,這些都是公眾可以審閱的。但是,自主決策系統並不如此運作,普遍人根本無法理解其演算法的原理和機制,因為自主決策系統常常是在演算法這一“黑箱”中做出的,不透明性問題由此產生。

Jenna Burrell在其論文《機器如何“思考”:理解機器學習演算法中的不透明性》(How the Machine “Thinks”: Understanding Opacity in Machine Learning Algorithms)論述了三種形式的不透明性:因公司商業秘密或者國家秘密而產生的不透明性,因技術文盲而產生的不透明性,以及從機器學習演算法的特徵以及要求將它們有效適用的測量中產生的不透明性。因此,在需要質疑自主決策系統的結果時,比如希望在法庭上挑戰演算法決策的合理性或者公平性,如何解釋演算法和機器學習就成了一大難題。這種不透明性使得人們很難了解演算法的內在工作機制,尤其是對一個不懂計算機技術的外行而言。

如何向演算法問責(Accountability)?

如果人們不滿意政府的行為,可以提起行政訴訟,如果不滿意法官的判決,可以提起上訴,正當程式(Due Process)確保這些決策行為可以得到某種程度的審查。但是,如果人們對演算法決策的結果不滿意,是否可以對演算法進行司法審查呢?在演算法決定一切的時代,對演算法進行審查是極為必要的。但是,需要解決兩個問題。第一,如果演算法、模型等可以被直接審查,人們需要審查什麼?對於技術文盲而言,審查演算法是一件極為困難的事。第二,人們如何判斷演算法是否遵守既有的法律政策?第三,在缺乏透明性的情況下,如何對演算法進行審查?如前所述,演算法的不透明性是一個普遍的問題,因為企業可以對演算法主張商業秘密或者私人財產。在這種情況下,對演算法進行審查可能是很困難的。此外,從成本-效益分析的角度來看,解密演算法從而使之透明化可能需要花費非常大的代價,可能遠遠超出所能獲得的效益。此時,人們只能嘗試對不透明的演算法進行審查,但這未必能得到一個公平的結果。

構建技術公平規則,透過設計實現公平(Fairness by Design)

人類社會中的法律規則、制度以及司法決策行為受到程序正義(Procedural Justice)和正當程式約束。但是,各種規則比如徵信規則、量刑規則、保險規則等正被寫程序序當中,被程式碼化。然而,程式設計人員可能並不知道公平的技術內涵,也缺乏一些必要的技術公平規則指引他們的程式設計。對於諸如行政機構等做出的外在決策行為,人們建立了正當程式予以約束。對於機器做出的秘密決策行為,是否需要受到正當程式約束呢?也許,正如Danielle Keats Citron在其論文《技術正當程式》(Technological Due Process)中所呼籲的那樣,對於關乎個體權益的自主決策系統、演算法和人工智慧,考慮到演算法和程式碼,而非規則,日益決定各種決策工作的結果,人們需要提前構建技術公平規則,透過設計保障公平之實現,並且需要技術正當程式,來加強自主決策系統中的透明性、可責性以及被寫進程式碼中的規則的準確性。而這一切,僅僅依靠技術人員是無法達成的。

在政府層面,為了削弱或者避免人工智慧演算法歧視,美國白宮人工智慧報告將“理解並解決人工智慧的道德、法律和社會影響”列入國家人工智慧戰略,並建議AI從業者和學生都能接受倫理培訓。英國下議院科學技術委員會呼籲成立一個專門的人工智慧委員會,對人工智慧當前以及未來發展中的社會、倫理和法律影響進行研究。

在行業層面,谷歌作為業界代表,則在機器學習中提出“機會平等”(Equality of Opportunity)這一概念,以避免基於一套敏感屬性的歧視。Matthew Joseph等人在其論文《羅爾斯式的公平之於機器學習》(Rawlsian Fairness for Machine Learning)中基於羅爾斯的“公平的機會平等” (Fair Equality of Opportunity)理論,引入了“歧視指數”( Discrimination Index)的概念,提出瞭如何設計“公平的”演算法的方法。無論如何,在人工智慧日益代替人類進行各種決策的時代,設計出驗證、證實、知情同意、透明性、可責性、救濟、責任等方面的機制,對於削弱或者避免演算法歧視、確保公平正義,是至關重要的。