日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 人工智能 > pytorch >内容正文

pytorch

2.10 词嵌入除偏-深度学习第五课《序列模型》-Stanford吴恩达教授

發布時間:2025/4/5 pytorch 67 豆豆
生活随笔 收集整理的這篇文章主要介紹了 2.10 词嵌入除偏-深度学习第五课《序列模型》-Stanford吴恩达教授 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

詞嵌入除偏 (Debiasing Word Embeddings)

現在機器學習和人工智能算法正漸漸地被信任用以輔助或是制定極其重要的決策,因此我們想盡可能地確保它們不受非預期形式偏見影響,比如說性別歧視、種族歧視等等。本節視頻中我會向你展示詞嵌入中一些有關減少或是消除這些形式的偏見的辦法。

本節視頻中當我使用術語bias時,我不是指bias本身這個詞,或是偏見這種感覺,而是指性別、種族、性取向方面的偏見,那是不同的偏見,同時這也通常用于機器學習的學術討論中。不過我們討論的大部分內容是詞嵌入是怎樣學習類比像Man:Woman,就像King:Queen,不過如果你這樣問,如果Man對應Computer Programmer,那么Woman會對應什么呢?所以這篇論文(上圖編號1所示:Bolukbasi T, Chang K W, Zou J, et al. Man is to Computer Programmer as Woman is to Homemaker? Debiasing Word Embeddings[J]. 2016.)的作者Tolga Bolukbasi、Kai-Wei Chang、James Zou、Venkatesh SaligramaAdam Kalai發現了一個十分可怕的結果,就是說一個已經完成學習的詞嵌入可能會輸出Man:Computer Programmer,同時輸出Woman:Homemaker,那個結果看起來是錯的,并且它執行了一個十分不良的性別歧視。如果算法輸出的是Man:Computer Programmer,同時Woman:Computer Programmer這樣子會更合理。同時他們也發現如果Father:Doctor,那么Mother應該對應什么呢?一個十分不幸的結果是,有些完成學習的詞嵌入會輸出Mother:Nurse。

因此根據訓練模型所使用的文本,詞嵌入能夠反映出性別、種族、年齡、性取向等其他方面的偏見,一件我尤其熱衷的事是,這些偏見都和社會經濟狀態相關,我認為每個人不論你出身富裕還是貧窮,亦或是二者之間,我認為每個人都應當擁有好的機會,同時因為機器學習算法正用來制定十分重要的決策,它也影響著世間萬物,從大學錄取到人們找工作的途徑,到貸款申請,不論你的的貸款申請是否會被批準,再到刑事司法系統,甚至是判決標準,學習算法都在作出非常重要的決策,所以我認為我們盡量修改學習算法來盡可能減少或是理想化消除這些非預期類型的偏見是十分重要的。

至于詞嵌入,它們能夠輕易學會用來訓練模型的文本中的偏見內容,所以算法獲取到的偏見內容就可以反映出人們寫作中的偏見。在漫長的世紀里,我認為人類已經在減少這些類型的偏見上取得了進展,幸運的是對于人工智能來說,實際上我認為有更好的辦法來實現更快地減少AI領域中相比與人類社會中的偏見。雖然我認為我們仍未實現人工智能,仍然有許多研究許多難題需要完成來減少學習算法中這些類型的偏見。

本節視頻里我想要做的是與你們分享一個例子,它是一篇論文的一套辦法,就是下面引用的這篇由Bolukbasi和其他人共同撰寫的論文,它是研究減少詞嵌入中偏見問題的。就是這些,假設說我們已經完成一個詞嵌入的學習,那么babysitter就是在這里,doctor在這里,grandmother在這里,grandfather在這里,也許girl嵌入在這里,boy嵌入在這里,也許she嵌在這里,he在這里(上圖編號1所示的區域內),所以首先我們要做的事就是辨別出我們想要減少或想要消除的特定偏見的趨勢。

為了便于說明,我會集中討論性別歧視,不過這些想法對于所有我在上個幻燈片里提及的其他類型的偏見都是通用的。這個例子中,你會怎樣辨別出與這個偏見相似的趨勢呢?主要有以下三個步驟:

一、對于性別歧視這種情況來說,我們能做的是 ehe?eshee_{he}-e_{she}ehe??eshe? ,因為它們的性別不同,然后將 emale?efemalee_{male}-e_{female}emale??efemale? ,然后將這些值取平均(上圖編號2所示),將這些差簡單地求平均。這個趨勢(上圖編號3所示)看起來就是性別趨勢或說是偏見趨勢,然后這個趨勢(上圖編號4所示)與我們想要嘗試處理的特定偏見并不相關,因此這就是個無偏見趨勢。在這種情況下,偏見趨勢可以將它看做1D子空間,所以這個無偏見趨勢就會是299D的子空間。我已經略微簡化了,原文章中的描述這個偏見趨勢可以比1維更高,同時相比于取平均值,如同我在這里描述的這樣,實際上它會用一個更加復雜的算法叫做SVU,也就是奇異值分解,如果你對主成分分析(Principle Component Analysis)很熟悉的話,奇異值分解這個算法的一些方法和主成分分析 (PCA)其實很類似。

二、中和步驟,所以對于那些定義不確切的詞可以將其處理一下,避免偏見。有些詞本質上就和性別有關,像grandmother、grandfather、girl、boy、she、he,他們的定義中本就含有性別的內容,不過也有一些詞像doctorbabysitter我們想使之在性別方面是中立的。同時在更通常的情況下,你可能會希望像doctorbabysitter這些詞成為種族中立的,或是性取向中立的等等,不過這里我們仍然只用性別來舉例說明。對于那些定義不明確的詞,它的基本意思是不像grandmothergrandfather這種定義里有著十分合理的性別含義的,因為從定義上來說grandmothers是女性,grandfather是男性。所以對于像doctorbabysitter這種單詞我們就可以將它們在這個軸(上圖編號1所示)上進行處理,來減少或是消除他們的性別歧視趨勢的成分,也就是說減少他們在這個水平方向上的距離(上圖編號2方框內所示的投影),所以這就是第二個中和步。

三、均衡步,意思是說你可能會有這樣的詞對,grandmothergrandfather,或者是girlboy,對于這些詞嵌入,你只希望性別是其區別。那為什么要那樣呢?在這個例子中,babysittergrandmother之間的距離或者說是相似度實際上是小于babysittergrandfather之間的(上圖編號1所示),因此這可能會加重不良狀態,或者可能是非預期的偏見,也就是說grandmothers相比于grandfathers最終更有可能輸出babysitting。所以在最后的均衡步中,我們想要確保的是像grandmothergrandfather這樣的詞都能夠有一致的相似度,或者說是相等的距離,和babysitter或是doctor這樣性別中立的詞一樣。這其中會有一些線性代數的步驟,但它主要做的就是將grandmothergrandfather移至與中間軸線等距的一對點上(上圖編號2所示),現在性別歧視的影響也就是這兩個詞與babysitter的距離就完全相同了(上圖編號3所示)。所以總體來說,會有許多對像grandmother-grandfather,boy-girl,sorority-fraternity,girlhood-boyhood,sister-brother,niece-nephew,daughter-son這樣的詞對,你可能想要通過均衡步來解決他們。

最后一個細節是你怎樣才能夠決定哪個詞是中立的呢?對于這個例子來說doctor看起來像是一個應該對其中立的單詞來使之性別不確定或是種族不確定。相反地,grandmothergrandfather就不應是性別不確定的詞。也會有一些像是beard詞,一個統計學上的事實是男性相比于比女性更有可能擁有胡子,因此也許beard應該比female更靠近male一些。

因此論文作者做的就是訓練一個分類器來嘗試解決哪些詞是有明確定義的,哪些詞是性別確定的,哪些詞不是。結果表明英語里大部分詞在性別方面上是沒有明確定義的,意思就是說性別并是其定義的一部分,只有一小部分詞像是grandmother-grandfather,girl-boy,sorority-fraternity等等,不是性別中立的。因此一個線性分類器能夠告訴你哪些詞能夠通過中和步來預測這個偏見趨勢,或將其與這個本質是299D的子空間進行處理。

最后,你需要平衡的詞對的數實際上是很小的,至少對于性別歧視這個例子來說,用手都能夠數出來你需要平衡的大部分詞對。完整的算法會比我在這里展示的更復雜一些,你可以去看一下這篇論文了解詳細內容,你也可以通過編程作業來練習一下這些想法。

參考資料:針對性別特定詞匯的均衡算法

如何對兩個單詞除偏,比如:“actress“(“女演員”)和“actor”(“演員”)。 均衡算法適用于您可能希望僅通過性別屬性不同的單詞對。 舉一個具體的例子,假設"actress“(“女演員”)比“actor”(“演員”)更接近“保姆”。 通過將中和應用于"babysit”(“保姆”),我們可以減少與保姆相關的性別刻板印象。 但是這仍然不能保證"actress“(“女演員”)和“actor”(“演員”)與"babysit"(“保姆”)等距。 均衡算法可以解決這個問題。

均衡背后的關鍵思想是確保一對特定的單詞與49維 g⊥g_\perpg? 距離相等 。均衡步驟還可以確保兩個均衡步驟現在與 ereceptionistdebiasede_{receptionist}^{debiased}ereceptionistdebiased? 距離相同,或者用其他方法進行均衡。下圖演示了均衡算法的工作原理:

公式的推導有點復雜(參考論文:Bolukbasi T, Chang K W, Zou J, et al. Man is to Computer Programmer as Woman is to Homemaker? Debiasing Word Embeddings[J]. 2016.)

主要步驟如下:

μ=ew1+ew22(1)\mu=\frac{e_{w1}+e_{w2}}{2}\tag1μ=2ew1?+ew2??(1)μB=μ?bias_axix∣∣bias_axis∣∣2+∣∣bias_axis∣∣2?bias_axis(2)\mu_B=\frac{\mu*bias\_axix}{||bias\_axis||_2}+||bias\_axis||_2*bias\_axis\tag2μB?=bias_axis2?μ?bias_axix?+bias_axis2??bias_axis(2)μ⊥=μ?μB(3)\mu_{\perp}=\mu-\mu_B\tag3μ?=μ?μB?(3)ew1B=∣1?∣∣μ⊥∣∣22∣?(ew1?μ⊥)?μB∣(ew1?μ⊥)?μB∣(4)e_{w1B}=\sqrt{|1-||\mu_{\perp}||_2^2|}*\frac{(e_{w1}-\mu_{\perp})-\mu_B}{|(e_{w1}-\mu_{\perp})-\mu_B|}\tag4ew1B?=1?μ?22???(ew1??μ?)?μB?(ew1??μ?)?μB??(4)ew2B=∣1?∣∣μ⊥∣∣22∣?(ew2?μ⊥)?μB∣(ew2?μ⊥)?μB∣(5)e_{w2B}=\sqrt{|1-||\mu_{\perp}||_2^2|}*\frac{(e_{w2}-\mu_{\perp})-\mu_B}{|(e_{w2}-\mu_{\perp})-\mu_B|}\tag5ew2B?=1?μ?22???(ew2??μ?)?μB?(ew2??μ?)?μB??(5)e1=ew1B+μ⊥(6)e_1=e_{w1B}+\mu_{\perp}\tag6e1?=ew1B?+μ?(6)e2=ew2B+μ⊥(7)e_2=e_{w2B}+\mu_{\perp}\tag7e2?=ew2B?+μ?(7)

總結一下,減少或者是消除學習算法中的偏見問題是個十分重要的問題,因為這些算法會用來輔助制定越來越多的社會中的重要決策,在本節視頻中分享了一套如何嘗試處理偏見問題的辦法,不過這仍是一個許多學者正在進行主要研究的領域。

參考文獻:

The debiasing algorithm is from Bolukbasi et al., 2016, Man is to Computer Programmer as Woman is to Homemaker? Debiasing Word Embeddings
The GloVe word embeddings were due to Jeffrey Pennington, Richard Socher, and Christopher D. Manning. (https://nlp.stanford.edu/projects/glove/)

總結

以上是生活随笔為你收集整理的2.10 词嵌入除偏-深度学习第五课《序列模型》-Stanford吴恩达教授的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 欧美日韩在线播放 | 亚洲高清一区二区三区 | www.69视频| 欧美中字| 亚洲精品国产99 | 中文字幕Av日韩精品 | 国产亚洲精品久久久久久无几年桃 | 国产精品久久久久久一区二区 | 国产最新在线 | 精品在线免费观看视频 | 天堂av手机在线 | 交专区videossex| 国产精品久久中文字幕 | 丰满少妇高潮一区二区 | 国产在线中文字幕 | 亚洲欧美在线不卡 | 免费看爱爱视频 | 澳门av网站 | 91久久精品国产91性色69 | jizz欧洲| 亚洲图片欧美激情 | 久久久久久久久久久久电影 | 欧美三级视频在线 | jizz视频| 香蕉久久夜色精品升级完成 | a视频| 日韩精品一区二区不卡 | 麻豆福利视频 | 人人射 | 欧美一区二区在线播放 | 男女啪啪十八 | 成人免费毛片观看 | 暖暖免费观看日本版 | 国产重口老太伦 | 制服一区| 久久久不卡国产精品一区二区 | a久久久久| 97香蕉久久超级碰碰高清版 | 色福利hd写真video | 在线观看亚洲免费视频 | 欧美草逼网| 婷婷在线影院 | 免费黄在线 | 中国亚洲老头同性gay男男… | 日本三级日本三级日本三级极 | 超碰免费看 | 久久精品免费一区二区 | 伊人久久免费视频 | 国产成人超碰人人澡人人澡 | 欧美久久久久久久久久久久久久 | 国产亚洲精品久久久久久久 | a天堂中文在线 | 久久riav| 在线免费一区二区 | 热re99久久精品国产99热 | 一区二区三区国产在线观看 | 成人午夜视频在线观看 | 97视频免费在线观看 | 午夜黄色网 | 亚洲综合av一区二区 | 麻豆精品久久久 | 韩日视频在线观看 | 国产又粗又猛又爽又黄的 | 国产欧美一区二区三区在线老狼 | 午夜激情在线播放 | 久久国产精品精品国产 | 亚洲国内精品 | 欧美69av | 久久视频精品 | 网红福利视频 | 日韩插插插 | 爽妇综合网| 亚洲精品一区二区三区不卡 | 97精品人妻一区二区三区在线 | 欧美在线一二三四区 | 亚洲成年网站 | 韩国三级视频在线观看 | 精品国偷自产一区二区三区 | 亚洲国产精品无码观看久久 | 免费观看国产精品视频 | 国产成人精品一区二区三区在线 | 久久久久久一区二区三区 | 火影黄动漫免费网站 | 午夜视频免费观看 | 免费一区二区三区视频在线 | 国产又大又粗又爽 | 性网| 蜜桃视频一区二区三区在线观看 | 精品一区二区亚洲 | 日本性高潮视频 | 91久久爽久久爽爽久久片 | 亚洲香蕉在线 | 久久久综合视频 | 日本午夜免费福利视频 | 日韩精品一区二区在线视频 | 中文字幕一二 | 亚洲视频一区二区三区在线观看 | 老妇裸体性猛交视频 | 色中文字幕 |