时代聚焦AI安全——可解释性
今年的NIPS多集中在人工智能安全上,此外精彩的部分還有凱特·克勞福德關(guān)于人工智能公平性問題上被忽視的主題演講、ML安全研討會、以及關(guān)于“我們是否需要可解釋性?”可解釋ML討論會辯論。
值校準(zhǔn)文件
逆向獎勵設(shè)計是為了解決RL代理根據(jù)人類設(shè)計的代理獎勵函數(shù)推斷出人類的真實(shí)獎勵函數(shù)的一種設(shè)計。與反強(qiáng)化學(xué)習(xí)(IRL)不同,它可以讓代理人從人的行為推斷出獎勵函數(shù)。論文中提出了一個IRD方法,假設(shè)人類選擇一個可以導(dǎo)致訓(xùn)練環(huán)境中正確行為的代理獎勵,代理人就獎勵函數(shù)的不確定性遵循風(fēng)險規(guī)避策略,模擬真實(shí)獎勵的不確定性。
盡管目前還不清楚它們將如何推廣到更復(fù)雜的環(huán)境,但是這篇論文中關(guān)于如何避免某些副作用和阻止獎勵黑客行為的觀點(diǎn)還是有些令人備受鼓舞的。這種方法也有可能過于規(guī)避一些新事物,但是在這種環(huán)境下看到一些安全探索的方法是非常棒的。
重復(fù)反向RL是指推導(dǎo)出包含安全標(biāo)準(zhǔn)的固有人類偏好的問題,并在許多任務(wù)中保持不變的。每個任務(wù)的獎勵功能是任務(wù)不變內(nèi)在獎勵(代理人未觀察到的)和特定任務(wù)獎勵(代理人觀察到的)的組合。這種多任務(wù)設(shè)置有助于解決反強(qiáng)化學(xué)習(xí)(IRL)中的可識別性問題,其中不同的獎勵功能可以產(chǎn)生相同的行為。
作者提出了一種算法來推斷內(nèi)在獎勵,同時最大限度地減少代理人犯錯誤的次數(shù)。他們證明了:“主動學(xué)習(xí)”案例的錯誤數(shù)量有上限,在錯誤數(shù)量的上限內(nèi),代理可以選擇任務(wù)。如果超出這個錯誤數(shù)量的上限,則代理人無法選擇任務(wù)。雖然它仍然存在很多人類難以解釋的現(xiàn)象,但是綜合來看,讓代理人選擇它所訓(xùn)練的任務(wù)似乎是個好主意。
來自人類偏好的深度RL(Christiano等人)是指利用人類反饋來教授深度RL代理人理解關(guān)于人類可以評估但可能無法證明的復(fù)雜事物(例如后空翻)。人類創(chuàng)造了代理行為的兩個軌跡片段,并選擇出哪一個更接近目標(biāo),這種方法可以非常有效地利用有限的人類反饋,使代理人學(xué)習(xí)更復(fù)雜的事物(如MuJoco和Atari所示)。
分散式多智能體RL的動態(tài)安全可中斷性(EI Mhamdi等人)將安全可中斷性問題推廣到多智能體設(shè)置。不可中斷的動態(tài)可以出現(xiàn)在任何一組代理人中,比如如果代理B收到代理A的中斷影響并因此被激勵以防止A被中斷,則可能發(fā)生這種情況。多智能體定義的重點(diǎn)在于當(dāng)存在中斷的情況下保持系統(tǒng)動態(tài)性,而不是收集在多智能體環(huán)境中難以保證的最優(yōu)策略。
Aligned AI研討會
這場研討會上有很多很有見解的會談比如Ian Goodfellow的“對齊AI的對抗魯棒性”和Gillian Handfield的“不完全契約和AI對齊”。
Ian提出的ML安全性對于長期的AI安全至關(guān)重要。敵對例子的有效性不僅受當(dāng)前的ML系統(tǒng)(例如自駕車)的短期視角的影響,還受一些水平不高的參與人的影響。從長遠(yuǎn)角度來看,調(diào)整高級代理的價值也是一個壞消息,由于古德哈特定律,他可能會無意中尋找獎勵函數(shù)的對抗性例子。因?yàn)閿硨Φ睦訒蓴_代理人的判斷,所以依靠代理人對環(huán)境或人類偏好的不能確保結(jié)果的準(zhǔn)確性。
Gillian從經(jīng)濟(jì)學(xué)的角度來看待人工智能安全,將人造智能的目標(biāo)與人類的合同的設(shè)計相對比。與造成合同不完整相同的問題(設(shè)計師無法考慮所有相關(guān)的偶然事件或者精確地制定所涉及的變量,以及激勵當(dāng)事方游戲系統(tǒng))導(dǎo)致人為代理人的副作用和獎勵黑客行為。
談話的核心問題是如何利用不完全契約理論的見解來更好地理解和系統(tǒng)地解決AI安全中的規(guī)范問題,這是一個非常有趣的研究方向,客觀規(guī)格問題似乎比不完整的合同問題更難。
人工智能系統(tǒng)的可解釋性
作者在可解釋的ML討論會上就可解釋性與長期安全性之間的關(guān)系進(jìn)行了討論,并探討了何種形式的解釋能夠幫助在安全問題方面取得進(jìn)展(相關(guān)幻燈片和視頻)。
副作用和安全探索問題將從識別對應(yīng)于不可逆狀態(tài)的表示(如“破碎”或“卡住”)中受益。雖然現(xiàn)有的關(guān)于神經(jīng)網(wǎng)絡(luò)表示的研究著重于可視化,但與安全有關(guān)的概念往往難以形象化。
解釋特定的預(yù)測或決定的本地解釋性技術(shù)對安全也很有用。我們可以監(jiān)測出訓(xùn)練環(huán)境特殊的特征或者表示與危險狀態(tài)接近的特征是否會影響代理人的決定。
解釋能力在很多方面對安全是有用的。作為解釋性問題的基礎(chǔ)-安全性可以為解釋能力做些什么,似乎還沒有人弄明白。正如研討會的最后一場辯論中所爭論的那樣,在ML社區(qū)里,一直在進(jìn)行著一場對話,試圖制定一個模糊的解釋性思想-它是什么,我們是否還需要它,什么樣的理解是有用的,等等。但是我們需要記住最重要的:解釋欲望在某種程度上是由我們的系統(tǒng)易出錯所驅(qū)動的-理解我們的AI系統(tǒng)如果100%穩(wěn)健且沒有錯誤,那么它就不那么重要了。從安全的角度來看,我們可以將解釋性的作用理解為幫助我們確保系統(tǒng)安全。
對于那些有興趣將解釋性錘子應(yīng)用于安全釘或處理其他長期安全問題的人,FLI最近宣布了一個新的補(bǔ)助計劃,現(xiàn)在是AI領(lǐng)域深入思考價值取向的好時機(jī)。正如Pieter Abbeel在主題演講結(jié)束時所說的那樣:“一旦你建立了非常好的AI裝置,你如何確保他們的價值體系與我們的價值體系保持一致?因?yàn)樵谀承r候,他們可能比我們聰明,它們實(shí)際關(guān)心的關(guān)于我們所關(guān)心的東西可能很重要?!?/span>
本文由北郵@愛可可-愛生活老師推薦,阿里云云棲社區(qū)組織翻譯。
文章原標(biāo)題《NIPS 2017 Report》
作者:Vikas Bhandary
譯者:烏拉烏拉,審校:袁虎。
文章為簡譯,更為詳細(xì)的內(nèi)容,請查看原文文章
總結(jié)
以上是生活随笔為你收集整理的时代聚焦AI安全——可解释性的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Python入门教程之Python保留字
- 下一篇: 阿里巴巴发布智能运维故障管理AI+生态计