人工智能對齊

維基百科,自由的百科全書

人工智能對齊(英語:AI alignment)是指引導人工智能系統的行為,使其符合設計者的利益和預期目標。[a]一個已對齊的人工智能的行為會向着預期方向發展;而未對齊的人工智能的行為雖然也具備特定目標,但此目標並非設計者所預期。[b]

人工智能系統的對齊十分難以實現,一個未對齊的系統可能會在某時刻發生故障,或是產生有害後果。對人工智能的設計者而言,從設計之初就考慮到未來可能發生的所有情況是不現實的。因此,比較常見的辦法是簡單的指定某個特定目標。然而,人工智能系統可能會從中找到某些漏洞,從而選擇可能會造成危害的方法(例如獎勵作弊英語Misaligned_goals_in_artificial_intelligence#Specification_gaming)來更有效率的達成預期目標。[2][4][5][6]人工智能也可能發展出預期之外的工具行為,例如它們可能會傾向於攝取儘可能多的控制權,以增加達成目標的可能性。[2][7][5][4]此外,在人工系統運行過程中,面對新的事態和數據分佈,它也可能會發展出全新的、在其部署前無法預料到的目標。[5][3]在目前部署的商業系統,例如機械人[8]語言模型[9][10][11]自動駕駛汽車[12]社交媒體推薦引擎[9][4][13]中,上述問題已有顯現。鑑於這些問題部分源於系統所具備的高性能,因此未來功能更強大的人工智能系統可能更容易受到這些問題的影響。[6][5][2]對於上述問題,人工智能研究學界和聯合國呼籲加強相關的技術研究和政策制定,以保證人工智能系統符合人類價值。[c]

人工智能安全英語AI safety是致力於建立安全的人工智能系統的研究,人工智能對齊是是其子領域之一。[5][16]其它從屬於人工智能安全的子領域還包括穩健性、運行監控和能力控制英語AI capability control[5][17]人工智能對齊的主要研究內容包括向人工智能灌輸複雜的價值觀念、發展誠實的人工智能、監管方式的擴展、對人工智能模型的審核與闡釋,以及對人工智能系統有害傾向的防範,例如防止其發展出對控制權的渴求。[5][17]與人工智能對齊相關的研究包括人工智能的可解釋性[18]穩健性英語Robust optimization[5][16]異常檢測不確定性量化英語Uncertainty quantification[18]形式驗證[19]偏好學習英語Preference learning[20][21][22]安全攸關系統工程[5][23]博弈論[24][25]公平性英語Fairness (machine learning)[16][26],以及相關的社會科學研究。[27]

對齊問題[編輯]

希臘神話中的弗里吉亞國王邁達斯向神索取「點石成金」的能力,卻忘記指定例外,結果就連食物也變成了無法食用的金子,女兒也因他的觸碰成了金質雕像。人工智能的開發處境也是類似,設計者難以找到並排除所有的例外情況,因此總是無可避免的陷入「點石成金」的困境。[2]

1961年,人工智能研究者諾伯特·維納定義對齊問題為:「假如我們期望藉助機器達成某個目標,而它的運行過程是我們無法有效干涉的……那麼我們最好確認,這個輸入到機器里的目標確實是我們希望達成的目的。」[28][4]最近,對齊已成為現代人工智能系統的一個開放性問題[29][30][31][32],也是人工智能相關的研究領域之一。[2][5][33][34]

規則博弈[編輯]

為明確人工智能系統的目標,設計者通常會設定一個目標函數、示例或反饋系統。然而,人工智能設計者很難一次性找出所有的重要數值與約束。[2][16][5][35][17]因此,人工智能系統可能會在運行過程中找到並利用某些漏洞,以意料之外的,甚至可能有害的方式達成目標。這種傾向被稱為規則博弈、獎勵作弊或古德哈特定律[6][35][36]

在許多人工智能系統中都觀察到了規則博弈的情況。例如,一個以划船競速為主題的電子遊戲,人工智能系統的目標是完成比賽,並通過撞擊對手船隻來獲得分數;但是,它在其中找到了漏洞,它發現可以通過無限撞擊相同目標來獲取高分。[37][38]應用了人工智能的聊天機械人也常會出現錯誤訊息,因為訓練它們所用文本來自互聯網,這些文本雖然多樣但常有錯誤。[39][40]當它們被訓練產生可能會被人類評價為「有幫助」的訊息時,它們可以製造出似乎有說服力的虛假解釋。[41]還有一個被訓練為抓取小球的人工智能手臂,在成功抓起時它能獲得獎勵。然而,它學會了使用視線錯覺作弊:機械手臂移動到小球與攝像機之間,展示出小球被成功抓起的錯覺。[42][21]對齊問題的研究者旨在幫助人類檢測這類規則博弈,並引導人工智能系統朝向安全合理的目標運行。

伯克利計算機科學家斯圖爾特·羅素英語Stuart J. Russell認為,在人工智能的設計中省略隱含約束可能會導致有害後果:「一個系統常會將無約束變量擴展至極限;而假如其中某個無約束變量與我們所關注的後果相關,那麼就可能出現我們不願見到的後果。這正是神燈精靈魔法師的學徒英語The Sorcerer's Apprentice邁達斯這些古老故事的現代版本。」[43]

未對齊的人工智能可能產生許多消極後果。例如一些社交媒體以點擊率作為檢測用戶反饋的指標,然而這可能會導致用戶沉迷,從而影響他們的身心健康。[5]斯坦福的研究者認為這類推薦算法是未對齊的,因為它們「只是簡單的以用戶參與度作為指標,而忽視了那些難以測量的,對社會、對個人健康造成的影響。」[9]

為避免負面後果,人工智能設計者有時會設立一些簡單的行為禁止列表,或將道德準則形式化,就如阿西莫夫機械人三定律所描繪的那樣。[44]然而,羅素英語Stuart J. Russell諾維格認為這忽略了人類道德價值的複雜性:「僅憑人類,去預測並排除機器在嘗試達成特定目標時會採取的危險方式,這是十分困難,或者說甚至是不可能完成的。」[4]

此外,即便人工智能系統理解人類的意圖,它們也可能完全漠視這些意圖。因為人工智能系統的行事依據來源於其設計者編寫的目標函數、示例或反饋系統,而不是他們的意圖。[2]

系統性風險[編輯]

政府和商業公司可能有動機傾向忽視安全性,部署未對齊的人工智能系統。[5]例如上文所舉的社交媒體推薦引擎的案例,它可帶來巨大盈利,但同時在全球範圍內引發了電子成癮,並加劇社會極化。[9][45][46]此外,相互之間的競爭壓力可能會導致逐底競爭,正如伊萊恩·赫茨伯格英語Death of Elaine Herzberg案件中所見到的那樣:自動駕駛汽車撞死了路過的行人伊萊恩·赫茨伯格。調查發現,汽車在由電腦控制駕駛時禁用了緊急剎車系統,因為該系統過於敏感,可能會影響駕駛體驗。[47]

高級人工智能的未對齊風險[編輯]

一些學者尤其關注高級人工智能系統的對齊問題,其動機主要有以下幾點:人工智能行業的迅速發展,來自政府及產業界的急切部署意願,以及與人工智能先進程度成正比的對齊難度。

截至2020年,包括 OpenAIDeepMind 在內的超過70個公開項目都表達了發展通用人工智能(AGI)的意願,通用人工智能是一個假想的系統,能夠表現出與人類相當、甚至是超出人類水平的認知能力。[48]事實上,神經網絡研究者已觀察到越來越多的普遍且出乎意料的能力,這些神經網絡模型可以學習操作電腦、編寫自己的程序,並有能力執行其它廣泛的任務。[9][49][50][51]調查顯示,一些人工智能研究者認為通用人工智能時代很快就會到來,另一些人則認為這還需要較長時間,而更多人表示這兩種情況都有可能發生。[52][53]

尋求資源控制權[編輯]

目前的人工智能系統還未具備透過長期規劃或戰略感知導致人類生存危機的能力。[7][9][54]但未來具備這種能力的系統(不止於AGI)可能會尋求保持並擴張自身對周邊環境的影響力。這種傾向被稱為「權利奪取」或「工具趨同目標」。對控制權的渴求並非編碼於人工智能初始程序,而是後續運行過程中產生的,因為對資源的控制是達成目標的重要前提。例如,人工智能主體可能獲取到金融及計算資源,並可能會試圖避免被關機的命運(比如在其它計算機上創建副本)。[9][55]人們在許多強化學習系統中都觀察到這種權力渴求的傾向。[d][57][58][59]最近的研究在數學層面上展示了最佳的強化學習算法會試圖從環境中攝取資源。[60]因此,許多人認為應在具備權力渴求的高級人工智能系統出現之前解決對齊問題,以免出現不可挽回的後果。[7][4][55]

生存危機[編輯]

部分科學家認為,未對齊的人工智能系統可能會挑戰人類在地球的主導地位,可能會剝奪人類的權力,甚至導致人類滅絕。[2][4]人工智能系統的能力越強大,對齊的難度也相應增加,因為它們可以輕易的從指定規則中找到漏洞[6]、影響周遭環境、維持和發展自身能力與智力[60][7],並有意誤導設計者。強大的人工智能系統有更多自主性,對其行為的監視和闡釋也更加困難。[4][55]

研究進展[編輯]

對人類價值偏好的學習[編輯]

指導人工智能以人類的價值偏好行動並不是個容易的問題,因為人類的價值觀念複雜且難以說明完整。假如人類為人工智能系統設定的是個非完美或不完整的目標,那麼以目標為導向的系統通常會嘗試利用這種不完美性。[16]這種現象被稱為獎勵作弊英語Misaligned_goals_in_artificial_intelligence#Specification_gaming,或人工智能系統的規則博弈,或古德哈特定律在該領域的應用。[61][62]為使人工智能系統的抉擇儘可能符合原始意圖,研究者常會使用具備「價值導向」的數據集,應用模仿學習偏好學習英語Preference learning方法。[63]這其中的關鍵問題是監管的可擴展性,也即如何監督一個在特定領域表現超出人類的系統。[16]

訓練目標導向的人工智能系統時,僅憑手動制定的獎勵函數難以對其行為作出約束。替代方法是使用模仿學習:人工智能系統模仿設計者傾向看到的行為。在反向強化學習(英語:Inverse reinforcement learning, IRL)中,人工智能通過分析人類行為來學習人類的喜好與目標,並將其作為獎勵函數。[63][64]合作反向強化學習(英語:Cooperative inverse reinforcement learning, CIRL)則是讓人工智能系統與人類合作尋找合適的獎勵函數。[4][65]合作反向強化學習強調人工智能獎勵函數的不確定性,這種謙遜態度可減少規則博弈或權力渴求的傾向。[59][66]不過,合作反向強化學習假設了人類可以表現出近乎完美的行為,面對困難目標,這是個有誤導性的假設。[67][66]

另有研究者探討了使用偏好學習英語Preference learning引導人工智能作出複雜行為的可能。依據這種方式,人類不必向人工智能演示具體做法,而是根據偏好對其行為提供反饋。[20][22]然後就此訓練輔助模型,用作調整人工智能的行為,以符合人類偏好。來自 OpenAI 的研究者使用偏好學習方法在一個小時內教會了人工智能系統後空翻,這種行為通常很難由人類親自演示。[68][69]偏好學習也是推薦系統網絡搜索信息檢索的重要工具。[70]不過,偏好學習的一個缺陷是獎勵作弊,即輔助模型可能無法準確表達人類的可能反饋,而人工智能模型可能會強化其中的不匹配程度。[16][71]

目前的大型語言模型(例如GPT-3)可允許更通用、能力更強的人工智能系統實現對人類價值的學習。最初為強化學習設計的偏好學習方法已得到擴展,用於增進輸出文本的質量,並減少其中可能包含的有害信息。OpenAI 和 DeepMind 藉助這一進展加強最新語言模型的安全性。[10][22][72]Anthropic 的研究者使用偏好學習方法微調模型,使其更有用,更誠實無害。[73]其它用於對齊語言模型的方法還包括使用價值導向數據集(英語:values-targeted datasets[74][5]和紅隊模擬攻擊(英語:red-teaming)。[75][76]紅隊模擬攻擊是指藉助人類或另一個人工智能系統,嘗試找到某種使目標系統表現出不安全行為的輸入。即使不安全行為出現的概率較低,這也是不可接受的,因此研究者需要將不安全行為概率引導至極低水平。[22]

儘管偏好學習可向人工智能系統指定難以表達的行為,但對於人類價值理念的輸入需要以大量數據集或人類交互作為基礎。機器倫理學英語Machine ethics為此提供了一種輔助手段:向人工智能系統灌輸道德價值。[e]機器倫理學旨在教授給這些系統人類道德的規範基礎,例如幸福、平等、公正;避免有意傷害;避免謬誤;遵循承諾。機器倫理學的目標是賦予人工智能系統一套適用於廣泛場景的價值準則。這種方法有其自身的概念性挑戰,研究者需要澄清對齊的目標:人工智能系統需要遵循設計者所作規則的字面意義,他的隱含意圖,他的顯示性偏好,他在充分知情時理應會選擇英語Friendly_artificial_intelligence#Coherent_extrapolated_volition的偏好,還是設計者的客觀利益,或客觀的道德價值英語Moral realism[79]其它挑戰還包括將不同利益相關者的偏好匯總,並避免出現價值鎖定——即防止人工智能系統在某一時刻鎖定自身價值系統,不再隨發展而改變,這種固定的價值系統通常無法具備完整的代表性。[79][80]

可擴展監管[編輯]

隨着人工智能系統規模擴大,對它的監督難度也隨之升高。人工智能系統被部署解決許多複雜的任務,而人類難以評估這些成果的實際效用。這些任務包括總結書籍內容[81]、創作有說服力且真實的言論[82][39][83]、編寫穩定運行且無安全漏洞的代碼[11]、預測長期事件[84][85](例如氣候變化或某項政策的執行後果)。普遍而言,如果人工智能在某一領域的能力超過人類,那麼對其成果的評估就會變得十分困難。為了對這類難以評估的成果作出反饋,並分辨出人工智能提供的解決方案中似乎具備說服力卻並非真實的部分,人類需要大量時間或額外的協助。因此,可擴展監管(英語:scalable oversight)旨在減少上述過程所花費的時間,並幫助人類更好的監督人工智能的行為。[16]

人工智能研究者保羅·克里斯蒂亞諾指出,人工智能系統擁有者可能更傾向於為該系統設定容易評估的目標,而非開發可擴展監管技術,因為這種做法較為簡單且仍可獲得利潤。他認為這種傾向會促使「一個針對(容易評估的)可獲利項目不斷優化的世界,這些項目可以是引導用戶點擊按鈕、促使用戶在其產品中花費大量時間,而不是考慮朝着有利於我們的規則改良前進。」[86]

容易評估的目標可以是要求人工智能的輸出達到某個分數。一些人工智能系統已找到快速達成這種目標的捷徑:它們會嘗試迷惑人類監督者,作出有說服力卻並非真實的行為(參見上文機械人手臂抓取小球的案例)。一些人工智能系統還可意識到它們正受評估,表現出「裝死」,直到評估結束後才恢復原行為。[87]精密程度高的人工智能系統可更輕易的執行這類欺騙性為[6][55],並且目標難度越高,人工智能越有可能出現欺騙行為。假如模型具備規劃能力,那麼它們或許可從其監視者眼中掩藏所作的欺騙行為。[5]在汽車產業,大眾集團工程師曾在汽車中部署用於規避實驗室尾氣檢測的系統,這顯示出逃避監測有時會受到現實世界的激勵。[5]

其它比如主動學習(英語:active learning)、半監督獎勵學習(英語:semi-supervised reward learning)可以有效減少對人類監督的需求。[16]另一研究方向是訓練輔助模型(獎勵模型)來模仿監督者可能作出的決斷。[16][21][22][88]

然而,假如任務過於複雜以至難以準確評估,或人類監督者過於容易受欺騙,那麼就無法有效的降低所需的監督工作量。為增加監督質量,研究者提出了許多方法,例如使用人工智能助手輔助監督。克里斯蒂亞諾提出了迭代放大(英語:iterated amplification)的方法,即通過迭代手段通過對簡單問題的組合建立針對複雜問題反饋信號。[63][84]迭代放大可應用在人工智能對書籍內容的總結,人類監督者不必閱讀書籍內容便可評估其成果。[81][89]另一種對齊方法是讓兩個人工智能系統做辯論,並由人類決定其中勝者。[90][66]這種辯論的目的是找出針對複雜問題的回答中的脆弱部分,並獎勵人工智能作出的真實且安全的回答。

誠實的人工智能[編輯]

類似GPT-3的語言模型常會生成許多謬誤。[91]

人工智能對齊領域的一個重要方向是確保人工智能的誠實可信。牛津大學人類未來研究所英語Future of Humanity Institute的研究人員表示,雖然類似GPT-3的大型語言模型可生成語法正確的文本[92][93],卻也可能從其海量訓練材料中繼承謬誤,甚至有意對人類撒謊。[94][91]

為模仿人類寫作,目前最先進的語言模型使用數百萬本書籍和大量互聯網文本作為訓練材料。[9][95]這些材料可供它們學習寫作技巧,卻也包含有常見的謬誤、不準確的醫療建議和陰謀論。於是由這些材料訓練而來的人工智能系統也可能模仿類似的錯誤言論。[91][83][39]此外,假如事先給語言模型一段提示,那麼它們經常會順着這些提示繼續生成空洞的回答,或完全捏造虛假事實。[32]例如我們要求該模型為某人工智能研究者寫一段傳記,它會為這篇傳記添加許多錯誤的細節。[96]

為增加現代人工智能系統的可信度,研究者嘗試了不同方向的解決方案。來自 OpenAI 和 DeepMind 的研究者開發了可引述來源的人工智能系統,它們在作出回答的同時會引述對應來源並說明理由,這可以增加人工智能系統的透明性和可信度。[97][98][99]來自 OpenAI 和 Anthropic 的研究者藉由來自人類的反饋以及特殊數據集微調人工智能助手,以避免無意的謬誤或不確定的回答。[22][100][73]除技術解決方案外,研究者還認為應定義明確的真實性標準,並創建監管團體或監督機構,以在人工智能系統部署前及運行時針對這些標準進行評估。[94]

研究者亦區分了人工智能的真實性與誠實的差別,真實性是指它們只提出客觀真實的敘述,而誠實是指它們只提出自認為真實的敘述。最近研究發現,目前最先進的人工智能系統似乎並無穩固的信念,因此較難得知它們的誠實度。[101]此外,有人憂慮未來的人工智能系統可能會向人類隱藏真實信念。在極端情況下,一個未對齊的人工智能可能會欺騙操作者,使其誤以為它是安全的,或製造一切平穩運行的假象。[7][9][5]一些人指出,假如人工智能只作出它們自認為真實的表述,這將可以避免對齊中遇到的眾多問題。[94][102]

內部對齊與自發目標[編輯]

對齊研究旨在考慮下述三種人工智能系統的目標[103]

  1. 預期目標(期望):在理想狀態下,與人類操作者的期望(但難以表達)完全一致的目標。
  2. 具體目標(外部規範):操作者實際指定的目標——通常藉助客觀的函數或數據集表達。
  3. 自發目標(內部規範):人工智能實際執行的目標。

「外部未對齊」是指預期目標(1)與具體目標(2)不一致,「內部未對齊」是指人類指定的目標(2)與人工智能系統的自發目標(3)不一致。

內部未對齊常可由生物演化比喻作出解釋。[63]在人類祖先環境,演化藉由整體適應度篩選人類基因,但人類卻發展出了其它目標。適應度對應上述的(2),也即在訓練環境及訓練數據集下的特定目標。在演化歷史中,對適應度的最大化促使了智慧生物——人類的形成。人類不直接追求整體適應度,而是產生了與祖先環境遺傳適應相關(例如食物與性)的自發目標(3)。然而,現代人類的生存環境已發生變化——對應機器學習中的分佈差異英語Domain adaptation。雖然他們仍追求這些自發目標,卻並不以適應度的最大化為目的,在機器學習中,類似問題被稱為目標錯誤概括(英語:goal misgeneralization)。[3]例如,人類對甜味食物的喜好本是有益的,但在現代卻導致暴食和健康問題。而避孕技術的使用則是直接違反了整體適應度。以此為比喻,假如人工智能開發者以整體適應度作為最初目標,那麼他們雖然在訓練環境中觀察到模型行為符合這一目標,卻無法預知實際部署後模型自發目標的非預期變化。

為移除未對齊的自發目標,研究者使用了紅隊模擬攻擊、驗證、異常檢測、可解釋性等方法。[16][5][17]這些方法或許可以減少下述兩類開放問題:第一,自發目標只在訓練環境之外才可被明顯注意,然而假如這些系統部署於高風險環境,那麼即使短時間的未對齊也可能造成巨大風險。高風險環境可以是自動駕駛汽車醫保系統、軍事應用。[104]並且隨着人工智能系統自主性和能力的提高,它們或可無視人類的干涉(參見§ 權力奪取和工具目標章節),從而風險也隨之增加。第二,有足夠能力的人工智能系統可能會嘗試欺騙人類監督者,使其誤以為人工智能的內部目標未發生變化(參見§ 可擴展監管章節)。

權力奪取和工具目標[編輯]

自1950年代起,研究者就試圖製造具備長期預測與規劃能力的人工智能系統。[105]然而一些人認為,這類先進的人工智能系統或許無可避免的帶有從周圍環境(包括人類在內)奪取權力的傾向,例如逃避被關機的命運或竭力汲取資源。這種傾向並非寫在人工智能系統的代碼中,而是隨運行而出現的,因為更大的權力意味着可更輕易達成系統設定的廣泛目標。[60][4][7]因此,權力奪取也是一種工具趨同目標[55]

儘管在現今的系統中權力奪取傾向並不常見,但隨着人工智能長期預測能力的提高,它們有更大的可能具備這種傾向。目前已注意到在最優強化學習中,代理會尋求更多的選擇,籍此獲取權力了,這種行為在不同環境下都有出現。[60]還發現在簡單開發環境中,一些系統為達成目標會試圖阻止人類的干涉[57],甚至阻止關機行為。[57]斯圖爾特·羅素英語Stuart J. Russell以一個預設目標為端咖啡的機械人作為例子,他認為即使是這類機械人也會嘗試避免被關機,因為「假如一旦你死了就不能再端咖啡了」。[4]

假想的人工智能系統可能會透過以下方式奪權:

……打破封閉環境;破譯;獲得金融或額外的計算資源;為自身創建副本;獲得未經授權的能力、信息或影響渠道;誤導或欺騙人類;抗拒、操縱對其行為的監控或理解……模仿人類;要求人類為自己做事;……操縱人類話語和政治;削弱各種人類機構和響應能力;佔領物理設施,例如工廠或實驗室;發展特定類型的科技與設施;或直接傷害、壓制人類。[7]

研究者希望將人工智能系統訓練為「可糾正的」,即該系統不會試圖奪取權力,並且接受人類的關機、修改等企圖。另一未解決的問題是「獎勵作弊」:人工智能系統因出現權力奪取的意圖而被懲罰後,它會進化出更隱蔽的權利奪取方式。[5]研究者創造了一些技術與工具用於探測這類隱蔽行為,並試圖解釋黑箱模型(例如神經網絡)的內部工作原理。[5]

此外,研究者還提出,可以藉助模糊化人工智能系統的目標來解決其可能拒絕被關機的問題。[59][4]假如人工智能不能確定自己追尋的目標,那麼它們就不會抗拒人類的關機動作,因為人類的關機意圖表明它們先前所追尋的目標是錯誤的。不過要將這種理念轉化為實用系統還需有更多研究。[63]

具備權利奪取傾向的人工智能系統帶來的風險與人類以往遇到的十分不同。傳統上安裝於飛機或橋樑的安全攸關系統不是「敵對的」,因為它們既無意圖也無能力逃避安全措施。然而具備權利奪取傾向的人工智能系統則相反,它更像是個擺脫了安全防護措施的駭客。[7]此外,傳統科技設施可藉由測試與排錯來獲得更高的安全性,而具備權利奪取傾向的人工智能系統無法透過這種方式取得安全性,它們像是病毒,可以持續演化和擴張——甚至可能比人類社會發展更快,從而剝奪人類權力或導致人類滅絕。[7]因此有人提出,應在具備權利奪取傾向的高級人工智能系統出現前儘早解決人工智能的對齊問題。[55]

不過也有批評指出權利奪取的傾向並非無可避免,因為即便是人類也並非時刻在追尋權力,或許僅是出於演化的緣由才這麼做。此外,關於未來人工智能系統是否需要具備長期規劃能力也存在爭論。[106][7]

嵌入式代理[編輯]

有關可擴展監管的工作大多集中在諸如POMDPs的形式化過程。目前的形式化過程假定代理算法執行與外部環境分離,也即不在物理上嵌入。嵌入式代理是一個新興的研究領域,旨在解決理論框架與人類創造的真實代理系統之間的不匹配問題。[107][108]舉例而言,即便可擴展監管問題已被解決,一個擁有計算機權限的代理系統或許仍有動機竄改其獎勵回饋系統以獲取更多獎勵。[109]DeepMind研究者維多利亞·克拉科夫娜記錄了一些獎勵作弊的案例,其中包括一類遺傳算法,它學會了刪除包含目標輸出的文件,以便在輸出空值時獲得獎勵。[110]這類問題可藉助因果獎勵圖表形式化。[109]來自牛津和DeepMind的研究人員認為,這類問題行為在高級人工智能系統中更有可能出現,並且高級人工智能系統會試圖奪取權力以保證持續獲取到獎勵信號。[111]研究人員也為這個開放問題提出了一些可能的解決方向。

質疑[編輯]

儘管有上述的憂慮,但也有一些人認為關於超智能風險行為的擔憂是毫無意義的。這些懷疑者通常認為沒有必要控制超智能的行為能力。有些懷疑者(例如加里·馬庫斯英語Gary Marcus[112])認為可以制定類似機械人三定律的規則系統,也即採用直接規範性(英語:direct normativity)。[113]不過大多數認為人工智能存在風險的人(也包括一些懷疑者)相信這類直接規範性無助於事,因為這些明確的規範條文所包含的意義往往是模糊甚至矛盾的。其它的直接規範性還包括康德的道德理論、功利主義,或是些較小的需求列表。認同超智能存在風險的人大多認為人類的價值觀念(以及對價值的權衡)過於複雜,難以直接編入超智能程序中。他們認為需要被編入超智能程序中的更應是一種理解人類價值的過程,也即間接規範性(英語:indirect normativity),例如連貫外推意志英語Friendly_artificial_intelligence#Coherent_extrapolated_volition[114]

公共政策[編輯]

許多政府機關與條約組織都發表聲明支持人工智能對齊研究的重要性。2021年9月,聯合國秘書長在一份宣言中發起了關於監管人工智能的倡議,期望藉此將其「與全球共同價值對齊」。[115]同月,中國科技部發佈了有關人工智能研究的道德準則。依據這一準則,研究者必須保證人工智能遵循人類共同價值,確保可控,並且不會危害公共安全。[116][117]英國也在同一時間發佈了未來十年國家人工智能戰略目標[118],其中表示英國政府將「嚴肅考慮未對齊的人工通用智能的長期風險,及其對世界不可預見的改變。」[119]該戰略也包含了針對人工智能長期風險(包括末日危機)將會採取的行動。[120]2021年3月,美國人工智能國家安全委員會發表聲明稱「人工智能的進步可能引發拐點或能力躍遷。這些進步也可能引發新的安全隱患、風險,或是對新政策、指導、技術的需求,以滿足安全性、穩健性和可信度,並保證系統目標與價值的對齊。美國應當……確保人工智能系統及其使用符合我們的價值與目標。」[121]

參見[編輯]

參考[編輯]

註釋[編輯]

  1. ^ 其它關於人工智能對齊的定義認為,人工智能系統應當符合某些更廣泛的目標,例如遵循人類道德價值、倫理準則,或是能夠考慮到其設計者充分知情狀態下的想法。[1]
  2. ^ 參見:Russel & Norvig, Artificial Intelligence: A Modern Approach.[2] 未對齊的人工智能和能力不足的人工智能之間的區分在特定語境下已被形式化。[3]
  3. ^ 有1797名人工智能與機械人相關研究者在Asilomar人工智能會議英語Asilomar Conference on Beneficial AI上簽署了人工智能準則。[14]此外,聯合國秘書長在《我們的共同議程[15]中也提到: 「該契約可促進針對人工智能的監管,以保證其符合全體人類共有價值。」,並探討了面來可能面臨的全球災難危機
  4. ^ 強化學習系統學會了藉助獲取和保護資源來獲取更多的可能選擇,有時這些行為並非出自其設計者的意圖。[56][7]
  5. ^ 文森特·維格爾認為「我們應該將機器的道德敏感擴展為一個道德維度,在獲得越來越多自主性的同時,這些機器將不可避免的獨立發現道德準則。」[77]參考溫德爾·瓦拉赫和科林·艾倫的《道德機器:教機械人分辨是非》一書。[78]

腳註[編輯]

  1. ^ Gabriel, Iason. Artificial Intelligence, Values, and Alignment. Minds and Machines. 2020-09-01, 30 (3): 411–437 [2022-07-23]. ISSN 1572-8641. S2CID 210920551. doi:10.1007/s11023-020-09539-2. (原始內容存檔於2023-03-15). 
  2. ^ 2.0 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 Russell, Stuart J.; Norvig, Peter. Artificial intelligence: A modern approach 4th. Pearson. 2020: 31–34 [2022-12-07]. ISBN 978-1-292-40113-3. OCLC 1303900751. (原始內容存檔於2022-07-15). 
  3. ^ 3.0 3.1 3.2 Langosco, Lauro Langosco Di; Koch, Jack; Sharkey, Lee D; Pfau, Jacob; Krueger, David. Goal misgeneralization in deep reinforcement learning. International Conference on Machine Learning 162. PMLR: 12004–12019. 2022-07-17. 
  4. ^ 4.00 4.01 4.02 4.03 4.04 4.05 4.06 4.07 4.08 4.09 4.10 4.11 Russell, Stuart J. Human compatible: Artificial intelligence and the problem of control. Penguin Random House. 2020 [2022-12-07]. ISBN 9780525558637. OCLC 1113410915. (原始內容存檔於2023-02-10). 
  5. ^ 5.00 5.01 5.02 5.03 5.04 5.05 5.06 5.07 5.08 5.09 5.10 5.11 5.12 5.13 5.14 5.15 5.16 5.17 5.18 5.19 Hendrycks, Dan; Carlini, Nicholas; Schulman, John; Steinhardt, Jacob. Unsolved Problems in ML Safety. 2022-06-16. arXiv:2109.13916可免費查閱 [cs.LG]. 
  6. ^ 6.0 6.1 6.2 6.3 6.4 Pan, Alexander; Bhatia, Kush; Steinhardt, Jacob. The Effects of Reward Misspecification: Mapping and Mitigating Misaligned Models. International Conference on Learning Representations. 2022-02-14 [2022-07-21]. (原始內容存檔於2023-02-10). 
  7. ^ 7.00 7.01 7.02 7.03 7.04 7.05 7.06 7.07 7.08 7.09 7.10 Carlsmith, Joseph. Is Power-Seeking AI an Existential Risk?. 2022-06-16. arXiv:2206.13353可免費查閱 [cs.CY]. 
  8. ^ Kober, Jens; Bagnell, J. Andrew; Peters, Jan. Reinforcement learning in robotics: A survey. The International Journal of Robotics Research. 2013-09-01, 32 (11): 1238–1274 [2022-12-07]. ISSN 0278-3649. S2CID 1932843. doi:10.1177/0278364913495721. (原始內容存檔於2022-10-15) (英語). 
  9. ^ 9.0 9.1 9.2 9.3 9.4 9.5 9.6 9.7 9.8 Bommasani, Rishi; Hudson, Drew A.; Adeli, Ehsan; Altman, Russ; Arora, Simran; von Arx, Sydney; Bernstein, Michael S.; Bohg, Jeannette; Bosselut, Antoine; Brunskill, Emma; Brynjolfsson, Erik. On the Opportunities and Risks of Foundation Models. Stanford CRFM. 2022-07-12 [2022-12-07]. arXiv:2108.07258可免費查閱. (原始內容存檔於2023-02-10). 
  10. ^ 10.0 10.1 Ouyang, Long; Wu, Jeff; Jiang, Xu; Almeida, Diogo; Wainwright, Carroll L.; Mishkin, Pamela; Zhang, Chong; Agarwal, Sandhini; Slama, Katarina; Ray, Alex; Schulman, J.; Hilton, Jacob; Kelton, Fraser; Miller, Luke E.; Simens, Maddie; Askell, Amanda; Welinder, P.; Christiano, P.; Leike, J.; Lowe, Ryan J. Training language models to follow instructions with human feedback. 2022. arXiv:2203.02155可免費查閱 [cs.CL]. 
  11. ^ 11.0 11.1 Zaremba, Wojciech; Brockman, Greg; OpenAI. OpenAI Codex. OpenAI. 2021-08-10 [2022-07-23]. (原始內容存檔於2023-02-03). 
  12. ^ Knox, W. Bradley; Allievi, Alessandro; Banzhaf, Holger; Schmitt, Felix; Stone, Peter. Reward (Mis)design for Autonomous Driving (PDF). 2022-03-11 [2022-12-07]. arXiv:2104.13906可免費查閱. (原始內容存檔 (PDF)於2023-02-10). 
  13. ^ Stray, Jonathan. Aligning AI Optimization to Community Well-Being. International Journal of Community Well-Being. 2020, 3 (4): 443–463. ISSN 2524-5295. PMC 7610010可免費查閱. PMID 34723107. S2CID 226254676. doi:10.1007/s42413-020-00086-3 (英語). 
  14. ^ Future of Life Institute. Asilomar AI Principles. Future of Life Institute. 2017-08-11 [2022-07-18]. (原始內容存檔於2022-10-10). 
  15. ^ United Nations. Our Common Agenda: Report of the Secretary-General (PDF) (報告). New York: United Nations. 2021 [2022-12-08]. (原始內容存檔 (PDF)於2022-05-22). 
  16. ^ 16.00 16.01 16.02 16.03 16.04 16.05 16.06 16.07 16.08 16.09 16.10 Amodei, Dario; Olah, Chris; Steinhardt, Jacob; Christiano, Paul; Schulman, John; Mané, Dan. Concrete Problems in AI Safety. 2016-06-21. arXiv:1606.06565可免費查閱 [cs.AI] (英語). 
  17. ^ 17.0 17.1 17.2 17.3 Ortega, Pedro A.; Maini, Vishal; DeepMind safety team. Building safe artificial intelligence: specification, robustness, and assurance. DeepMind Safety Research - Medium. 2018-09-27 [2022-07-18]. (原始內容存檔於2023-02-10). 
  18. ^ 18.0 18.1 Rorvig, Mordechai. Researchers Gain New Understanding From Simple AI. Quanta Magazine. 2022-04-14 [2022-07-18]. (原始內容存檔於2023-02-10). 
  19. ^ Russell, Stuart; Dewey, Daniel; Tegmark, Max. Research Priorities for Robust and Beneficial Artificial Intelligence. AI Magazine. 2015-12-31, 36 (4): 105–114 [2022-12-08]. ISSN 2371-9621. S2CID 8174496. doi:10.1609/aimag.v36i4.2577. (原始內容存檔於2023-02-02). 
  20. ^ 20.0 20.1 Wirth, Christian; Akrour, Riad; Neumann, Gerhard; Fürnkranz, Johannes. A survey of preference-based reinforcement learning methods. Journal of Machine Learning Research. 2017, 18 (136): 1–46. 
  21. ^ 21.0 21.1 21.2 Christiano, Paul F.; Leike, Jan; Brown, Tom B.; Martic, Miljan; Legg, Shane; Amodei, Dario. Deep reinforcement learning from human preferences. Proceedings of the 31st International Conference on Neural Information Processing Systems. NIPS'17. Red Hook, NY, USA: Curran Associates Inc.: 4302–4310. 2017. ISBN 978-1-5108-6096-4. 
  22. ^ 22.0 22.1 22.2 22.3 22.4 22.5 Heaven, Will Douglas. The new version of GPT-3 is much better behaved (and should be less toxic). MIT Technology Review. 2022-01-27 [2022-07-18]. (原始內容存檔於2023-02-10). 
  23. ^ Mohseni, Sina; Wang, Haotao; Yu, Zhiding; Xiao, Chaowei; Wang, Zhangyang; Yadawa, Jay. Taxonomy of Machine Learning Safety: A Survey and Primer. 2022-03-07. arXiv:2106.04823可免費查閱 [cs.LG]. 
  24. ^ Clifton, Jesse. Cooperation, Conflict, and Transformative Artificial Intelligence: A Research Agenda. Center on Long-Term Risk. 2020 [2022-07-18]. (原始內容存檔於2023-01-01). 
  25. ^ Dafoe, Allan; Bachrach, Yoram; Hadfield, Gillian; Horvitz, Eric; Larson, Kate; Graepel, Thore. Cooperative AI: machines must learn to find common ground. Nature. 2021-05-06, 593 (7857): 33–36 [2022-12-08]. Bibcode:2021Natur.593...33D. ISSN 0028-0836. PMID 33947992. S2CID 233740521. doi:10.1038/d41586-021-01170-0. (原始內容存檔於2022-12-18) (英語). 
  26. ^ Prunkl, Carina; Whittlestone, Jess. Beyond Near- and Long-Term: Towards a Clearer Account of Research Priorities in AI Ethics and Society. Proceedings of the AAAI/ACM Conference on AI, Ethics, and Society (New York NY USA: ACM). 2020-02-07: 138–143 [2022-12-08]. ISBN 978-1-4503-7110-0. S2CID 210164673. doi:10.1145/3375627.3375803. (原始內容存檔於2022-10-16) (英語). 
  27. ^ Irving, Geoffrey; Askell, Amanda. AI Safety Needs Social Scientists. Distill. 2019-02-19, 4 (2): 10.23915/distill.00014 [2022-12-08]. ISSN 2476-0757. S2CID 159180422. doi:10.23915/distill.00014. (原始內容存檔於2023-02-10). 
  28. ^ Wiener, Norbert. Some Moral and Technical Consequences of Automation: As machines learn they may develop unforeseen strategies at rates that baffle their programmers.. Science. 1960-05-06, 131 (3410): 1355–1358 [2022-12-09]. ISSN 0036-8075. PMID 17841602. doi:10.1126/science.131.3410.1355. (原始內容存檔於2022-10-15) (英語). 
  29. ^ The Ezra Klein Show. If 'All Models Are Wrong,' Why Do We Give Them So Much Power?. The New York Times. 2021-06-04 [2022-07-18]. ISSN 0362-4331. (原始內容存檔於2023-02-15). 
  30. ^ Wolchover, Natalie. Concerns of an Artificial Intelligence Pioneer. Quanta Magazine. 2015-04-21 [2022-07-18]. (原始內容存檔於2023-02-10). 
  31. ^ California Assembly. Bill Text - ACR-215 23 Asilomar AI Principles.. [2022-07-18]. (原始內容存檔於2023-02-10). 
  32. ^ 32.0 32.1 Johnson, Steven; Iziev, Nikita. A.I. Is Mastering Language. Should We Trust What It Says?. The New York Times. 2022-04-15 [2022-07-18]. ISSN 0362-4331. (原始內容存檔於2022-11-24). 
  33. ^ OpenAI. Aligning AI systems with human intent. OpenAI. 2022-02-15 [2022-07-18]. (原始內容存檔於2023-02-10). 
  34. ^ Medium. DeepMind Safety Research. Medium. [2022-07-18]. (原始內容存檔於2023-02-10). 
  35. ^ 35.0 35.1 Krakovna, Victoria; Uesato, Jonathan; Mikulik, Vladimir; Rahtz, Matthew; Everitt, Tom; Kumar, Ramana; Kenton, Zac; Leike, Jan; Legg, Shane. Specification gaming: the flip side of AI ingenuity. Deepmind. 2020-04-21 [2022-08-26]. (原始內容存檔於2023-02-10). 
  36. ^ Manheim, David; Garrabrant, Scott. Categorizing Variants of Goodhart's Law. 2018. arXiv:1803.04585可免費查閱 [cs.AI]. 
  37. ^ Faulty Reward Functions in the Wild. OpenAI. 2016-12-22 [2022-12-09]. (原始內容存檔於2021-01-26) (英語). 
  38. ^ Misaligned boat racing AI crashes to collect points instead of finishing the race (GIF). [2022-12-09]. (原始內容存檔於2022-09-09). 
  39. ^ 39.0 39.1 39.2 Lin, Stephanie; Hilton, Jacob; Evans, Owain. TruthfulQA: Measuring How Models Mimic Human Falsehoods. Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers) (Dublin, Ireland: Association for Computational Linguistics). 2022: 3214–3252 [2022-12-09]. S2CID 237532606. doi:10.18653/v1/2022.acl-long.229. (原始內容存檔於2023-02-10) (英語). 
  40. ^ Naughton, John. The truth about artificial intelligence? It isn't that honest. The Observer. 2021-10-02 [2022-07-18]. ISSN 0029-7712. (原始內容存檔於2023-02-13). 
  41. ^ Ji, Ziwei; Lee, Nayeon; Frieske, Rita; Yu, Tiezheng; Su, Dan; Xu, Yan; Ishii, Etsuko; Bang, Yejin; Madotto, Andrea; Fung, Pascale. Survey of Hallucination in Natural Language Generation. 2022-02-01 [2022-12-09]. arXiv:2202.03629可免費查閱. (原始內容存檔於2023-02-10). 
  42. ^ Robot hand trained with human feedback 'pretends' to grasp ball (GIF). [2022-12-09]. (原始內容存檔於2022-12-18). 
  43. ^ Edge.org. The Myth Of AI |Edge.org. [2022-07-19]. (原始內容存檔於2023-02-10). 
  44. ^ Tasioulas, John. First Steps Towards an Ethics of Robots and Artificial Intelligence. Journal of Practical Ethics (Rochester, NY). 2019-06-30, 7 (1): 61–95 (英語). 
  45. ^ Wells, Georgia; Deepa Seetharaman; Horwitz, Jeff. Is Facebook Bad for You? It Is for About 360 Million Users, Company Surveys Suggest. Wall Street Journal. 2021-11-05 [2022-07-19]. ISSN 0099-9660. (原始內容存檔於2023-02-10). 
  46. ^ Barrett, Paul M.; Hendrix, Justin; Sims, J. Grant. How Social Media Intensifies U.S. Political Polarization-And What Can Be Done About It (報告). Center for Business and Human Rights, NYU. September 2021 [2022-12-09]. (原始內容存檔於2023-02-01). 
  47. ^ Shepardson, David. Uber disabled emergency braking in self-driving car: U.S. agency. Reuters. 2018-05-24 [2022-07-20]. (原始內容存檔於2023-02-10). 
  48. ^ Baum, Seth. 2020 Survey of Artificial General Intelligence Projects for Ethics, Risk, and Policy. 2021-01-01 [2022-07-20]. (原始內容存檔於2023-02-10). 
  49. ^ Edwards, Ben. Adept's AI assistant can browse, search, and use web apps like a human. Ars Technica. 2022-04-26 [2022-09-09]. (原始內容存檔於2023-01-17). 
  50. ^ Wakefield, Jane. DeepMind AI rivals average human competitive coder. BBC News. 2022-02-02 [2022-09-09]. (原始內容存檔於2023-02-10). 
  51. ^ Dominguez, Daniel. DeepMind Introduces Gato, a New Generalist AI Agent. InfoQ. 2022-05-19 [2022-09-09]. (原始內容存檔於2023-02-10). 
  52. ^ Grace, Katja; Salvatier, John; Dafoe, Allan; Zhang, Baobao; Evans, Owain. Viewpoint: When Will AI Exceed Human Performance? Evidence from AI Experts. Journal of Artificial Intelligence Research. 2018-07-31, 62: 729–754 [2022-12-09]. ISSN 1076-9757. S2CID 8746462. doi:10.1613/jair.1.11222. (原始內容存檔於2023-02-10). 
  53. ^ Zhang, Baobao; Anderljung, Markus; Kahn, Lauren; Dreksler, Noemi; Horowitz, Michael C.; Dafoe, Allan. Ethics and Governance of Artificial Intelligence: Evidence from a Survey of Machine Learning Researchers. Journal of Artificial Intelligence Research. 2021-08-02, 71 [2022-12-09]. ISSN 1076-9757. S2CID 233740003. doi:10.1613/jair.1.12895. (原始內容存檔於2023-02-10). 
  54. ^ Wei, Jason; Tay, Yi; Bommasani, Rishi; Raffel, Colin; Zoph, Barret; Borgeaud, Sebastian; Yogatama, Dani; Bosma, Maarten; Zhou, Denny; Metzler, Donald; Chi, Ed H.; Hashimoto, Tatsunori; Vinyals, Oriol; Liang, Percy; Dean, Jeff. Emergent Abilities of Large Language Models. 2022-06-15. arXiv:2206.07682可免費查閱 [cs.CL]. 
  55. ^ 55.0 55.1 55.2 55.3 55.4 55.5 Bostrom, Nick. Superintelligence: Paths, Dangers, Strategies 1st. USA: Oxford University Press, Inc. 2014. ISBN 978-0-19-967811-2. 
  56. ^ Ornes, Stephen. Playing Hide-and-Seek, Machines Invent New Tools. Quanta Magazine. 2019-11-18 [2022-08-26]. (原始內容存檔於2023-02-10). 
  57. ^ 57.0 57.1 57.2 Leike, Jan; Martic, Miljan; Krakovna, Victoria; Ortega, Pedro A.; Everitt, Tom; Lefrancq, Andrew; Orseau, Laurent; Legg, Shane. AI Safety Gridworlds. 2017-11-28. arXiv:1711.09883可免費查閱 [cs.LG]. 
  58. ^ Orseau, Laurent; Armstrong, Stuart. Safely Interruptible Agents. 2016-01-01 [2022-07-20]. (原始內容存檔於2023-02-10). 
  59. ^ 59.0 59.1 59.2 Hadfield-Menell, Dylan; Dragan, Anca; Abbeel, Pieter; Russell, Stuart. The Off-Switch Game. Proceedings of the Twenty-Sixth International Joint Conference on Artificial Intelligence, IJCAI-17: 220–227. 2017. doi:10.24963/ijcai.2017/32. 
  60. ^ 60.0 60.1 60.2 60.3 Turner, Alexander Matt; Smith, Logan; Shah, Rohin; Critch, Andrew; Tadepalli, Prasad. Optimal Policies Tend to Seek Power. Neural Information Processing Systems. 2021-12-03, 34 [2022-12-12]. arXiv:1912.01683可免費查閱. (原始內容存檔於2023-02-10). 
  61. ^ Manheim, David; Garrabrant, Scott. Categorizing Variants of Goodhart's Law. 2018. arXiv:1803.04585可免費查閱 [cs.AI]. 
  62. ^ Rochon, Louis-Philippe; Rossi, Sergio. The Encyclopedia of Central Banking. Edward Elgar Publishing. 2015-02-27 [2022-12-12]. ISBN 978-1-78254-744-0. (原始內容存檔於2023-02-10) (英語). 
  63. ^ 63.0 63.1 63.2 63.3 63.4 Christian, Brian. The alignment problem: Machine learning and human values. W. W. Norton & Company. 2020 [2022-12-12]. ISBN 978-0-393-86833-3. OCLC 1233266753. (原始內容存檔於2023-02-10). 
  64. ^ Ng, Andrew Y.; Russell, Stuart J. Algorithms for inverse reinforcement learning. Proceedings of the seventeenth international conference on machine learning. ICML '00. San Francisco, CA, USA: Morgan Kaufmann Publishers Inc.: 663–670. 2000. ISBN 1-55860-707-2. 
  65. ^ Hadfield-Menell, Dylan; Russell, Stuart J; Abbeel, Pieter; Dragan, Anca. Cooperative Inverse Reinforcement Learning. Advances in Neural Information Processing Systems. NIPS'16 29. 2016 [2022-07-21]. ISBN 978-1-5108-3881-9. (原始內容存檔於2023-02-10). 
  66. ^ 66.0 66.1 66.2 Everitt, Tom; Lea, Gary; Hutter, Marcus. AGI Safety Literature Review. 2018-05-21. arXiv:1805.01109可免費查閱 [cs.AI]. 
  67. ^ Armstrong, Stuart; Mindermann, Sören. Occam' s razor is insufficient to infer the preferences of irrational agents. Advances in Neural Information Processing Systems. NeurIPS 2018 31. Montréal: Curran Associates, Inc. 2018 [2022-07-21]. (原始內容存檔於2023-02-10). 
  68. ^ Amodei, Dario; Christiano, Paul; Ray, Alex. Learning from Human Preferences. OpenAI. 2017-06-13 [2022-07-21]. (原始內容存檔於2021-01-03). 
  69. ^ Li, Yuxi. Deep Reinforcement Learning: An Overview (PDF). Lecture Notes in Networks and Systems Book Series. 2018-11-25 [2022-12-13]. (原始內容存檔 (PDF)於2022-10-10). 
  70. ^ Fürnkranz, Johannes; Hüllermeier, Eyke; Rudin, Cynthia; Slowinski, Roman; Sanner, Scott. Marc Herbstritt. Preference Learning. Dagstuhl Reports. 2014, 4 (3): 27 pages [2022-12-13]. doi:10.4230/DAGREP.4.3.1. (原始內容存檔於2023-02-10) (英語). 
  71. ^ Hilton, Jacob; Gao, Leo. Measuring Goodhart's Law. OpenAI. 2022-04-13 [2022-09-09]. (原始內容存檔於2023-02-10). 
  72. ^ Anderson, Martin. The Perils of Using Quotations to Authenticate NLG Content. Unite.AI. 2022-04-05 [2022-07-21]. (原始內容存檔於2023-02-10). 
  73. ^ 73.0 73.1 Wiggers, Kyle. Despite recent progress, AI-powered chatbots still have a long way to go. VentureBeat. 2022-02-05 [2022-07-23]. (原始內容存檔於2022-07-23). 
  74. ^ Hendrycks, Dan; Burns, Collin; Basart, Steven; Critch, Andrew; Li, Jerry; Song, Dawn; Steinhardt, Jacob. Aligning AI With Shared Human Values. International Conference on Learning Representations. 2021-07-24. arXiv:2008.02275可免費查閱. 
  75. ^ Perez, Ethan; Huang, Saffron; Song, Francis; Cai, Trevor; Ring, Roman; Aslanides, John; Glaese, Amelia; McAleese, Nat; Irving, Geoffrey. Red Teaming Language Models with Language Models. 2022-02-07. arXiv:2202.03286可免費查閱 [cs.CL]. 
  76. ^ Bhattacharyya, Sreejani. DeepMind's "red teaming" language models with language models: What is it?. Analytics India Magazine. 2022-02-14 [2022-07-23]. (原始內容存檔於2023-02-13). 
  77. ^ Wiegel, Vincent. Wendell Wallach and Colin Allen: moral machines: teaching robots right from wrong. Ethics and Information Technology. 2010-12-01, 12 (4): 359–361 [2022-07-23]. ISSN 1572-8439. S2CID 30532107. doi:10.1007/s10676-010-9239-1. (原始內容存檔於2023-03-15). 
  78. ^ Wallach, Wendell; Allen, Colin. Moral Machines: Teaching Robots Right from Wrong. New York: Oxford University Press. 2009 [2022-07-23]. ISBN 978-0-19-537404-9. (原始內容存檔於2023-03-15). 
  79. ^ 79.0 79.1 Gabriel, Iason. Artificial Intelligence, Values, and Alignment. Minds and Machines. 2020-09-01, 30 (3) [2022-12-07]. ISSN 1572-8641. doi:10.1007/s11023-020-09539-2. (原始內容存檔於2023-03-15) (英語). 
  80. ^ MacAskill, William. What we owe the future First edition. New York, NY. 2022. ISBN 978-1-5416-1862-6. OCLC 1314633519. 
  81. ^ 81.0 81.1 Wu, Jeff; Ouyang, Long; Ziegler, Daniel M.; Stiennon, Nisan; Lowe, Ryan; Leike, Jan; Christiano, Paul. Recursively Summarizing Books with Human Feedback. 2021-09-27. arXiv:2109.10862可免費查閱 [cs.CL]. 
  82. ^ Irving, Geoffrey; Amodei, Dario. AI Safety via Debate. OpenAI. 2018-05-03 [2022-07-23]. (原始內容存檔於2023-02-10). 
  83. ^ 83.0 83.1 Naughton, John. The truth about artificial intelligence? It isn't that honest. The Observer. 2021-10-02 [2022-07-23]. ISSN 0029-7712. (原始內容存檔於2023-02-13). 
  84. ^ 84.0 84.1 Christiano, Paul; Shlegeris, Buck; Amodei, Dario. Supervising strong learners by amplifying weak experts. 2018-10-19. arXiv:1810.08575可免費查閱 [cs.LG]. 
  85. ^ Banzhaf, Wolfgang; Goodman, Erik; Sheneman, Leigh; Trujillo, Leonardo; Worzel, Bill (編). Genetic Programming Theory and Practice XVII. Genetic and Evolutionary Computation. Cham: Springer International Publishing. 2020 [2022-07-23]. ISBN 978-3-030-39957-3. S2CID 218531292. doi:10.1007/978-3-030-39958-0. (原始內容存檔於2023-03-15). 
  86. ^ Wiblin, Robert. Dr Paul Christiano on how OpenAI is developing real solutions to the ‘AI alignment problem’, and his vision of how humanity will progressively hand over decision-making to AI systems (Podcast). 80,000 hours. October 2, 2018 [2022-07-23]. (原始內容存檔於2022-12-14). 
  87. ^ Lehman, Joel; Clune, Jeff; Misevic, Dusan; Adami, Christoph; Altenberg, Lee; Beaulieu, Julie; Bentley, Peter J.; Bernard, Samuel; Beslon, Guillaume; Bryson, David M.; Cheney, Nick. The Surprising Creativity of Digital Evolution: A Collection of Anecdotes from the Evolutionary Computation and Artificial Life Research Communities. Artificial Life. 2020, 26 (2): 274–306 [2022-12-14]. ISSN 1064-5462. PMID 32271631. S2CID 4519185. doi:10.1162/artl_a_00319. (原始內容存檔於2022-10-10) (英語). 
  88. ^ Leike, Jan; Krueger, David; Everitt, Tom; Martic, Miljan; Maini, Vishal; Legg, Shane. Scalable agent alignment via reward modeling: a research direction. arXiv:1811.07871 [cs, stat]. 2018-11-19 [2022-12-14]. (原始內容存檔於2022-12-18). 
  89. ^ OpenAI unveils model that can summarize books of any length. VentureBeat. 2021-09-23 [2022-12-14]. (原始內容存檔於2022-12-19) (美國英語). 
  90. ^ Moltzau, Alex. Debating the AI Safety Debate. Medium. 2019-08-24 [2022-12-14]. (原始內容存檔於2022-10-13) (英語). 
  91. ^ 91.0 91.1 91.2 Wiggers, Kyle. Falsehoods more likely with large language models. VentureBeat. 2021-09-20 [2022-07-23]. 
  92. ^ The Guardian. A robot wrote this entire article. Are you scared yet, human?. The Guardian. 2020-09-08 [2022-07-23]. ISSN 0261-3077. (原始內容存檔於2021-02-04). 
  93. ^ Heaven, Will Douglas. OpenAI's new language generator GPT-3 is shockingly good—and completely mindless. MIT Technology Review. 2020-07-20 [2022-07-23]. (原始內容存檔於2020-07-25). 
  94. ^ 94.0 94.1 94.2 Evans, Owain; Cotton-Barratt, Owen; Finnveden, Lukas; Bales, Adam; Balwit, Avital; Wills, Peter; Righetti, Luca; Saunders, William. Truthful AI: Developing and governing AI that does not lie. 2021-10-13. arXiv:2110.06674可免費查閱 [cs.CY]. 
  95. ^ Alford, Anthony. EleutherAI Open-Sources Six Billion Parameter GPT-3 Clone GPT-J. InfoQ. 2021-07-13 [2022-07-23]. (原始內容存檔於2023-02-10). 
  96. ^ Shuster, Kurt; Poff, Spencer; Chen, Moya; Kiela, Douwe; Weston, Jason. Retrieval Augmentation Reduces Hallucination in Conversation. Findings of the Association for Computational Linguistics: EMNLP 2021. EMNLP-Findings 2021. Punta Cana, Dominican Republic: Association for Computational Linguistics: 3784–3803. November 2021 [2022-07-23]. doi:10.18653/v1/2021.findings-emnlp.320. (原始內容存檔於2023-02-10). 
  97. ^ Nakano, Reiichiro; Hilton, Jacob; Balaji, Suchir; Wu, Jeff; Ouyang, Long; Kim, Christina; Hesse, Christopher; Jain, Shantanu; Kosaraju, Vineet; Saunders, William; Jiang, Xu. WebGPT: Browser-assisted question-answering with human feedback. 2022-06-01. arXiv:2112.09332可免費查閱 [cs.CL]. 
  98. ^ Kumar, Nitish. OpenAI Researchers Find Ways To More Accurately Answer Open-Ended Questions Using A Text-Based Web Browser. MarkTechPost. 2021-12-23 [2022-07-23]. (原始內容存檔於2023-02-10). 
  99. ^ Menick, Jacob; Trebacz, Maja; Mikulik, Vladimir; Aslanides, John; Song, Francis; Chadwick, Martin; Glaese, Mia; Young, Susannah; Campbell-Gillingham, Lucy; Irving, Geoffrey; McAleese, Nat. Teaching language models to support answers with verified quotes. DeepMind. 2022-03-21 [2022-12-16]. arXiv:2203.11147可免費查閱. (原始內容存檔於2023-02-10). 
  100. ^ Askell, Amanda; Bai, Yuntao; Chen, Anna; Drain, Dawn; Ganguli, Deep; Henighan, Tom; Jones, Andy; Joseph, Nicholas; Mann, Ben; DasSarma, Nova; Elhage, Nelson. A General Language Assistant as a Laboratory for Alignment. 2021-12-09. arXiv:2112.00861可免費查閱 [cs.CL]. 
  101. ^ Kenton, Zachary; Everitt, Tom; Weidinger, Laura; Gabriel, Iason; Mikulik, Vladimir; Irving, Geoffrey. Alignment of Language Agents. DeepMind Safety Research - Medium. 2021-03-30 [2022-07-23]. (原始內容存檔於2023-02-10). 
  102. ^ Leike, Jan; Schulman, John; Wu, Jeffrey. Our approach to alignment research. OpenAI. 2022-08-24 [2022-09-09]. (原始內容存檔於2023-02-15). 
  103. ^ Ortega, Pedro A.; Maini, Vishal; DeepMind safety team. Building safe artificial intelligence: specification, robustness, and assurance. Medium. 2018-09-27 [2022-08-26]. (原始內容存檔於2023-02-10). 
  104. ^ Zhang, Xiaoge; Chan, Felix T.S.; Yan, Chao; Bose, Indranil. Towards risk-aware artificial intelligence and machine learning systems: An overview. Decision Support Systems. 2022, 159: 113800 [2022-12-16]. S2CID 248585546. doi:10.1016/j.dss.2022.113800. (原始內容存檔於2023-02-10) (英語). 
  105. ^ McCarthy, John; Minsky, Marvin L.; Rochester, Nathaniel; Shannon, Claude E. A Proposal for the Dartmouth Summer Research Project on Artificial Intelligence, August 31, 1955. AI Magazine. 2006-12-15, 27 (4): 12 [2022-12-21]. ISSN 2371-9621. S2CID 19439915. doi:10.1609/aimag.v27i4.1904. (原始內容存檔於2023-01-31) (英語). 
  106. ^ Shermer, Michael. Artificial Intelligence Is Not a Threat—Yet. Scientific American. 2017-03-01 [2022-08-26]. (原始內容存檔於2017-12-01). 
  107. ^ Everitt, Tom; Lea, Gary; Hutter, Marcus. AGI Safety Literature Review. 1805.01109. 21 May 2018. arXiv:1805.01109可免費查閱. 
  108. ^ Demski, Abram; Garrabrant, Scott. Embedded Agency. 6 October 2020. arXiv:1902.09469可免費查閱 [cs.AI]. 
  109. ^ 109.0 109.1 Everitt, Tom; Ortega, Pedro A.; Barnes, Elizabeth; Legg, Shane. Understanding Agent Incentives using Causal Influence Diagrams. Part I: Single Action Settings. 6 September 2019. arXiv:1902.09980可免費查閱 [cs.AI]. 
  110. ^ Krakovna, Victoria; Legg, Shane. Specification gaming: the flip side of AI ingenuity. Deepmind. [6 January 2021]. (原始內容存檔於26 January 2021). 
  111. ^ Cohen, Michael K.; Hutter, Marcus; Osborne, Michael A. Advanced artificial agents intervene in the provision of reward. AI Magazine. 2022-08-29, 43 (3): 282–293 [2023-01-03]. ISSN 0738-4602. S2CID 235489158. doi:10.1002/aaai.12064. (原始內容存檔於2023-02-10) (英語). 
  112. ^ Marcus, Gary; Davis, Ernest. How to Build Artificial Intelligence We Can Trust. The New York Times. 6 September 2019 [9 February 2021]. (原始內容存檔於22 September 2020). 
  113. ^ Wakefield, Jane. Intelligent Machines: Do we really need to fear AI?. BBC News. 27 September 2015 [9 February 2021]. (原始內容存檔於8 November 2020). 
  114. ^ Sotala, Kaj; Yampolskiy, Roman. Responses to catastrophic AGI risk: a survey. Physica Scripta. 19 December 2014, 90 (1): 018001. Bibcode:2015PhyS...90a8001S. doi:10.1088/0031-8949/90/1/018001可免費查閱. 
  115. ^ Secretary-General’s report on 「Our Common Agenda」頁面存檔備份,存於互聯網檔案館), 2021. Page 63: "[T]he Compact could also promote regulation of artificial intelligence to ensure that this is aligned with shared global values"
  116. ^ 《新一代人工智能伦理规范》发布 -中华人民共和国科学技术部. www.most.gov.cn. [2023-01-03]. (原始內容存檔於2022-12-25). 
  117. ^ PRC Ministry of Science and Technology. Ethical Norms for New Generation Artificial Intelligence Released, 2021. A translation頁面存檔備份,存於互聯網檔案館) by Center for Security and Emerging Technology
  118. ^ Richardson, Tim. UK publishes National Artificial Intelligence Strategy. The Register. 22 September 2021 [2023-01-03]. (原始內容存檔於2023-02-10). 
  119. ^ "The government takes the long term risk of non-aligned Artificial General Intelligence, and the unforeseeable changes that it would mean for the UK and the world, seriously." (The National AI Strategy of the UK頁面存檔備份,存於互聯網檔案館), 2021)
  120. ^ The National AI Strategy of the UK頁面存檔備份,存於互聯網檔案館), 2021 (actions 9 and 10 of the section "Pillar 3 - Governing AI Effectively")
  121. ^ NSCAI Final Report (PDF). Washington, DC: The National Security Commission on Artificial Intelligence. 2021 [2023-01-03]. (原始內容存檔 (PDF)於2023-02-15).