GDPR到底是如何影响机器学习的?
摘要:?GDPR時(shí)代來(lái)臨,你的機(jī)器學(xué)習(xí)模型還能訓(xùn)練嗎?
一般數(shù)據(jù)保護(hù)條例(GDPR)對(duì)數(shù)據(jù)科學(xué)產(chǎn)生了很大的影響?,F(xiàn)在GDPR有99條正文條款和173篇聲明(Recital),長(zhǎng)而復(fù)雜,但是隨著時(shí)間的推移以及條款的執(zhí)行,它可能會(huì)變得更加復(fù)雜。同時(shí),由于GDPR的存在,律師和隱私工程師將成為未來(lái)大型數(shù)據(jù)科學(xué)項(xiàng)目的核心組成部分。
本文主要討論GDPR與機(jī)器學(xué)習(xí)(ML)之間三個(gè)最常見(jiàn)的問(wèn)題。
1.GDPR是否禁止機(jī)器學(xué)習(xí)?
總的來(lái)說(shuō),在GDPR生效后,ML不會(huì)在歐盟被禁止。
但是,從技術(shù)的角度來(lái)看,這個(gè)問(wèn)題的答案是肯定的。GDPR作為法律條文,確實(shí)做出了對(duì)使用自動(dòng)化決策的全面禁止的規(guī)定。當(dāng)GDPR使用“自動(dòng)化決策”這個(gè)術(shù)語(yǔ)時(shí),該法規(guī)指的是任何模型都可以在沒(méi)有人直接參與決策的情況下做出決定。這可能包括數(shù)據(jù)主體的自動(dòng)“概要分析”,例如將其分類(lèi)為“潛在客戶(hù)”或“40-50歲男性”等特定組,以確定貸款申請(qǐng)人是否有資格獲得貸款。
因此,GDPR對(duì)ML模型的產(chǎn)生的影響是在沒(méi)有人直接參與決策制定的情況下,它們是否可以自動(dòng)部署。如果可以自動(dòng)部署,那么在大量的ML模型中這種自動(dòng)部署的設(shè)置將會(huì)被默認(rèn)禁止。盡管有許多律師或數(shù)據(jù)科學(xué)家確實(shí)反對(duì)過(guò),但參與起草和解釋GDPR的歐盟官方工作組還是堅(jiān)持該項(xiàng)規(guī)定。
當(dāng)然,GDPR禁止ML也有例外情況。簡(jiǎn)單來(lái)說(shuō),該法規(guī)確定了使用自主決策合法的三個(gè)領(lǐng)域:合同處理的必要性,其他法律另行授權(quán)的情況,或數(shù)據(jù)主體明確同意的情況。
但是,讓用戶(hù)同意并不容易,用戶(hù)可以同意許多不同類(lèi)型的數(shù)據(jù)處理,并且他們也可以在任何時(shí)候撤銷(xiāo)同意,這意味著用戶(hù)同意需要細(xì)化和進(jìn)一步的規(guī)范。
那么,GDPR是否真的禁止使用ML模型?當(dāng)然不是,但在許多應(yīng)用ML的例子中,它使得這些模型及其輸入數(shù)據(jù)的部署和管理變得越來(lái)越困難。
2.?ML有沒(méi)有“解釋權(quán)”
作者去年寫(xiě)了一篇專(zhuān)門(mén)討論這個(gè)問(wèn)題的文章。潛在的解釋能力的存在可能會(huì)對(duì)數(shù)據(jù)科學(xué)產(chǎn)生巨大的影響,因?yàn)镸L模型的預(yù)測(cè)能力很大程度上很難解釋,即使有可能,也很難解釋。
在GDPR的第13-15條中反復(fù)聲明,數(shù)據(jù)主體有權(quán)獲得“有關(guān)所涉邏輯的有意義的信息”以及自動(dòng)決策的“重要性和設(shè)想的后果”。然后,在GDPR的第22條中規(guī)定,數(shù)據(jù)主體有權(quán)利不受上述影響類(lèi)型的影響。最后,作為該條例中包含的一項(xiàng)非約束性評(píng)論的一部分,第71條聲明(Recital)表示,數(shù)據(jù)主體除了能夠?qū)@些決定提出質(zhì)疑之外,還有權(quán)對(duì)自動(dòng)決策做出解釋。綜上所述,這三項(xiàng)規(guī)定在數(shù)據(jù)主體和處理數(shù)據(jù)的模型之間創(chuàng)建了許多新的復(fù)雜的義務(wù),這表明了一種相當(dāng)強(qiáng)大的可解釋性權(quán)利。
雖然理論上,歐盟監(jiān)管機(jī)構(gòu)可以以最嚴(yán)格的方式解釋這些條款,但是現(xiàn)實(shí)中要想實(shí)現(xiàn)充分合理解釋似乎是不可能的。歐盟監(jiān)管機(jī)構(gòu)甚至可以將這些條款解讀為,當(dāng)ML被用于在沒(méi)有人為干預(yù)的情況下做出決定時(shí),以及當(dāng)這些決定對(duì)數(shù)據(jù)主體產(chǎn)生重大影響時(shí),這些人有權(quán)獲得關(guān)于正在發(fā)生的事情的一些基本形式的信息。在GDPR中被稱(chēng)為“有意義的信息”和“設(shè)想的后果”可能會(huì)在此背景下被讀出。歐盟監(jiān)管機(jī)構(gòu)可能會(huì)將注意力集中在一個(gè)數(shù)據(jù)主體上,該數(shù)據(jù)主體基于有關(guān)模型的信息和其部署的上下文的相關(guān)信息,對(duì)數(shù)據(jù)的使用做出明智的決定。
3.?數(shù)據(jù)主體是否有能力要求模型在沒(méi)有數(shù)據(jù)的情況下進(jìn)行訓(xùn)練?
作者認(rèn)為在實(shí)踐中答案是否定的。在GDPR下,所有數(shù)據(jù)的使用都需要有法律依據(jù),《條例》第6條規(guī)定了六個(gè)相應(yīng)的依據(jù)。最重要的兩個(gè)是“合法利益”的基礎(chǔ),以及用戶(hù)明確同意使用該數(shù)據(jù)的地方。當(dāng)處理的法律基礎(chǔ)是后者時(shí),數(shù)據(jù)主體將會(huì)保留對(duì)這些數(shù)據(jù)的極大控制權(quán),也就是說(shuō),他們可以在任何時(shí)候撤銷(xiāo),而處理這些數(shù)據(jù)的法律依據(jù)將不再存在。
因此,如果一個(gè)組織從一個(gè)數(shù)據(jù)主體收集數(shù)據(jù),用戶(hù)同意將他們的數(shù)據(jù)用于訓(xùn)練一個(gè)特定模型,然后數(shù)據(jù)主體隨后撤回該同意,那么用戶(hù)何時(shí)可以強(qiáng)制模型重新訓(xùn)練新數(shù)據(jù)呢?
只有當(dāng)該模型繼續(xù)使用該用戶(hù)的數(shù)據(jù)時(shí),答案才會(huì)出現(xiàn)。正如GDPR的29條規(guī)定的那樣,即使撤銷(xiāo)同意后,撤回之前所發(fā)生的所有處理仍然合法。因此,如果這些數(shù)據(jù)被合法的用于創(chuàng)建模型或預(yù)測(cè),那么這些數(shù)據(jù)所產(chǎn)生的任何東西都可能被保留下來(lái)。在實(shí)踐中,一旦用一組訓(xùn)練數(shù)據(jù)創(chuàng)建了一個(gè)模型,訓(xùn)練數(shù)據(jù)就可以在不影響模型的情況下被刪除或修改。
然而,從技術(shù)上講,一些研究表明,模型可能會(huì)保留關(guān)于訓(xùn)練數(shù)據(jù)的信息,即使在訓(xùn)練數(shù)據(jù)被刪除之后,這些信息仍然可能被發(fā)現(xiàn),正如研究人員Nicolas Papernot等人所寫(xiě)的那樣。這意味著,在某些情況下,在不重新訓(xùn)練模型的情況下刪除數(shù)據(jù)不能保證訓(xùn)練數(shù)據(jù)不會(huì)被重新發(fā)現(xiàn),或者不能保證原始數(shù)據(jù)不會(huì)被繼續(xù)使用。
但是訓(xùn)練數(shù)據(jù)通過(guò)模型被重新發(fā)現(xiàn)幾乎是不可能的。作者認(rèn)為,這種重新發(fā)現(xiàn)只是在學(xué)術(shù)環(huán)境中進(jìn)行的,與企業(yè)數(shù)據(jù)科學(xué)家的日常相差甚遠(yuǎn)。盡管這在理論上是有可能的,但這似乎是一個(gè)邊緣案例,監(jiān)管者和數(shù)據(jù)科學(xué)家只有在這種特定類(lèi)型的實(shí)例變得更加現(xiàn)實(shí)的情況下才能解決這個(gè)問(wèn)題。
文章原標(biāo)題《how-will-the-gdpr-impact-machine-learning》
原文鏈接
本文為云棲社區(qū)原創(chuàng)內(nèi)容,未經(jīng)允許不得轉(zhuǎn)載。
總結(jié)
以上是生活随笔為你收集整理的GDPR到底是如何影响机器学习的?的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: NLP深度学习:近期趋势概述(二)
- 下一篇: 黑科技揭秘:眼科大夫如何应用5G+8K完