MIT道德機器實驗:當事故不可避免,自動駕駛汽車該怎麼選

@ 2018-12-12

人工智慧的快速發展,使得人們開始關注機器如何做出道德決策,以及如何量化社會對引導機器行為的倫理原則的預期。自動駕駛汽車已經在一些道路上開始巡航測試,這就需要人類社會就危及生命的交通事故無法避免地出現時應適用的原則達成一致。任何設計人工智慧倫理的嘗試都必須要了解公眾的道德認知,因此,在這件事情上達成共識不僅需要工程師和倫理學家的探討,更重要的是要聽取未來消費者們的意見。

麻省理工學院於2016年部署了「道德機器」(Moral Machine)這一在線實驗平台,旨在探索自動駕駛汽車面臨的道德困境。「道德機器」(Moral Machine)被設計為一款多語言的在線「嚴肅遊戲」,用於盡可能地在全世界範圍內收集數據,通過了解公民希望自動駕駛汽車在不可避免的事故情況下如何解決道德難題來進行道德偏好的評估。實驗結果於2018年10月發表在《自然》雜誌網站上。

在道德機器的主介面上,用戶可以看到不可避免的事故場景,根據自動駕駛汽車是突然轉向還是繼續行駛,從而導向兩種不同的結果。事故場景是由道德機器產生的,遵循的探索策略集中於9個因素:保留人類(或寵物),保持直行(或轉彎),保護行人(或乘客),保護更多的生命(或更少的生命),保護男人(或女人),保護年輕人(或年長者),保護合法過馬路的行人(或亂穿馬路者),保護健康者(或不健康者),保較高社會地位者(或較低社會地位者)。

道德機器困境。自動駕駛汽車突然剎車失靈。如果繼續行駛,將會導致1名女運動員和1名男運動員死亡(左)。轉彎會導致1名女運動員和1名過重的男人死亡 (右)。

基於最終收集到的來自233個國家和地區的數百萬人用10種語言做出的4000萬項決定 ,研究者從四個方面描述了實驗結果:首先,總結全球的道德偏好;其次,根據受訪者的人口統計數據記錄個人偏好的變化;第三,報告了跨文化倫理差異,發現了三個主要的國家集群;第四,分析發現倫理差異與現代制度和深厚文化特質的相關性。

世界地圖突出顯示道德機器訪客的位置。每個點代表至少一個訪問者做出至少一個決定的位置(n = 3960萬)。每個地點的訪客數量或決策都沒有表示出來。

全球首選項

調查結果顯示,在道德機器實驗中,呈現出三種十分強烈的偏好,分別為:保護人類而不是保護動物,保護更多的生命,保護年輕的生命。在研究者看來,這三個偏好應該為政策制定者著重考慮。

2017年,德國自動化和聯網駕駛道德委員會(German Ethics Commission on Automated and Connected Driving)提出了一套倫理規則,是迄今為止唯一一次嘗試為自主車輛的倫理選擇提供官方指導的方針。在這一規則的第7條中明確指出,在進退兩難的情況下,保護人類生命應該優先於保護其他動物生命,這一規則與調查結果中所顯示的社會期望是一致的。這一規則的第9條規定,任何基於個人特徵(如年齡)的區別都應被禁止,顯然與調查中保護年輕生命的傾向相衝突的,顯示出公眾意見與專業觀點之間的張力。

全球首選項圖示。

個體差異

研究者通過進一步分析完成了關於年齡、教育、性別、收入、政治和宗教觀點的回答來評估個體差異,以評估偏好是否受這六個特徵的影響。

分析發現,個體變量對於9個因素中的任何一個都沒有顯著的影響。其中最顯著的影響是由受訪者的性別和宗教信仰所決定的。例如,男性受訪者對女性的寬恕傾向較低、宗教信仰與人的寬容傾向有微弱的相關性。綜合來說,這6個變量中沒有一個將其亞群分裂為相反的效應方向,雖然存在一些個體差異(如男性和女性受訪者都表示更傾向於保留女性,但後者顯示出更強的偏好),但這對於政策制定者來說並不是關鍵信息。

文化集群

通過地理定位,研究者們可以識別道德機器應答者的居住國家,並尋找具有同質道德傾向的國家集群。通過分析,他們將這些國家分為三類:

第一個集群(研究者稱之為西方集群)包含北方美國以及許多歐洲國家的新教、天主教和東正教基督教文化團體。該集群的內部結構也顯示出顯著的表面效度,一個子集群包含斯堪的納維亞國家,一個子集群包含大英國協國家。

第二個集群(研究者稱之為東方集群)包含了許多遠東國家和地區,如日本和中國台灣等儒家文化團體,印尼等伊斯蘭國家,以及巴基斯坦和沙烏地阿拉伯等等。

第三個集群(研究者稱之為一個廣泛的南方集群)包括中美洲和南美洲的拉丁美洲國家,除了一些部分受法國影響的國家。

這種集群模式表明,地理和文化上的接近可能使一些不同國家地區的人集中在對機器倫理的共同偏好上。然而,集群之間的差異可能會帶來更大的問題:例如對於東部集群來說,保留較年輕角色而不是較老角色的偏好要低得多,而對於南部集群來說則要高得多,偏愛保留較高地位角色的情況也是如此;與其他兩個集群相比,南部集群的國家對人類的保護相比對寵物的保護要弱得多。只有(微弱)傾向於不讓行人超過乘客,(適度)傾向於不讓合法的人超過非法的人,似乎在所有群體中都有相同程度的傾向性。

研究者認為,製造商和政策制定者們需要注意到,在他們設計人工智慧系統和政策的國家和地區,人群的道德偏好是什麼。雖然公眾的道德偏好不一定是道德政策制定的決定性因素,但人們購買自動駕駛汽車並在容忍它們上路的意願,將取決於所採用的道德規則的適應性。

國家層面的預測

通過進一步分析,研究者們還發現道德機器揭示的偏好與國家與地區間的文化和經濟差異高度相關。兩個國家或地區間在文化上越相似,這兩國人在道德機器中的選擇就越相似。

通過觀察個人主義文化和集體主義文化之間的系統性差異,可以發現:來自個人主義文化的被調查者,強調每個人的獨特價值,顯示出偏好保護更多生命的強烈傾向;來自集體主義文化的被調查者,強調對較年長成員的尊重,顯示出較不喜歡保護年輕的生命。由於政策制定者最需要考慮的是對保護多數人的偏好和對保護年輕人的偏愛,這種個人主義和集體主義文化的分裂可能會成為通用機器倫理的一個重要障礙。

政策制定者需要考慮那些非法過馬路的人應該得到和合法過馬路的行人同樣的保護嗎?與其他倫理優先事項相比,它們的保護優先性是否應該降低?通過觀察發現,來自較貧窮和制度較弱的國家和地區的參與者對非法過馬路的行人更寬容,大概是因為他們的遵守規則程度較低,對違規行為的懲罰較輕。

此外,來自經濟上不平等的國家和地區的人們在道德機器上也不平等地對待富人和窮人,這種關係可以用不平等滲透到人們的道德偏好中來解釋;在幾乎所有國家和地區,參與者都表現出對女性的偏好,然而在婦女健康和生存前景較好的國家,這種偏好更強。

討論

雖然到目前為止,人類從未允許一台機器在沒有實時監控的情況,在一瞬間自主決定誰該生、誰該死,但不久的將來,它將發生在我們生活中最平凡的方面。在我們允許汽車做出道德決定之前,我們需要進行一次全球對話,向那些設計道德算法的公司以及將對它們進行監管的政策制定者表達我們的偏好。

道德機器的實驗向我們展現了面對極端情況時,人類的三種強烈偏好,它們可以做為討論通用機器倫理的基石。這一實驗的雄心和目標是非典型的,研究者們通過部署一個病毒式的在線平台接觸到大量參與者,此前沒有任何研究嘗試過在200多個國家使用九維實驗設計來衡量道德偏好。雖然這一方法繞開了常規調研方法的困難,但是也導致無法保證樣本完全匹配每個國家和地區的社會人口等缺陷。不過,換個角度來看,樣本採集的範圍是那群接近網絡並對科技有興趣的人,他們也更有可能參與到早期無人駕駛汽車使用當中,數據上對他們的偏重也並非毫無意義。

研究者指出,雖然我們可以讓機器準確地遵循道德偏好,但我們無法達到普遍的共識,因為即便是通過道德機器表達的最強烈的偏好也顯示出巨大的文化差異。不過,這並不意味著人類通往共識機器倫理的旅程從一開始就註定要失敗,因為我們雖無法否認人類在道德領域中會經歷內心衝突、人際分歧和文化差異這些實質性困難,但這些困難並非致命的,從數據中我們發現世界廣泛地區還是表現出了一些相對一致的傾向性。

雖然研究者一再強調道德機器實驗旨在探索自動駕駛汽車面臨的道德困境,通過研究公眾的道德偏好來給以後的政策制定者以建議。但是有不少網友表示,這個實驗的重點好像並不是關於自動駕駛汽車,而主要是對參加測試的人的價值體系、決策優先級和過程的探索,這樣的研究結果一方面展示了人類很難就這些問題的正確答案達成一致的現實,要制定關於這些問題的法律和標準是非常困難的;另一方面它並沒有反映出人們實際上是如何開車的,真正面對事故時的應激反應是不可通像測試中這樣經過深思熟慮的。這像一個單純的思想實驗,只是電車問題的更複雜的版本而已。也有網友表示,應對無人駕駛汽車上路可能帶來的一系列問題的當務之急應當是努力降低事故率;除此之外,無人駕駛需要和路面交通系統結合起來,實現了人車的完全分離,實驗中所面臨的那些問題就不再是問題了。這些質疑也從側面反應出很多人還並未做好讓機器來決定人類命運的準備,就目前而言,給機器以道德似乎超出了人類的心智可以承受的範圍。


相关文章