Meta开发了一个AI模型,尝试解决维基百科的「性别偏见」问题
來(lái)源:SiliconANGLE
出品:科技行者
撰文:海外來(lái)電
圖片:海外來(lái)電
為了解決兩性人物傳記比例失衡的情況,Meta操碎了心。
維基百科一直是全球訪問(wèn)量Top 10的網(wǎng)站,是許多人搜索歷史人物與領(lǐng)創(chuàng)者資訊的第一站,但這些人物的傳記,并不總被“平等”的呈現(xiàn)在維基百科上。
Meta人工智能研究科學(xué)家Angela Fan在一篇博文中指出,維基百科的所有英文傳記中只有20%是關(guān)于女性的。且這個(gè)數(shù)字在交叉性群體中估計(jì)就更少了,例如科學(xué)界的女性、非洲的女性和亞洲的女性等。
甚至,維基百科內(nèi)容里“女性代表不足”的情況,也延伸到了該組織本身,該網(wǎng)站上只有15%的編輯表明自己是女性(來(lái)自維基媒體《2021年社群洞察報(bào)告》)。
Angela Fan提到,“女性在歷史上對(duì)科學(xué)、政治、社會(huì)甚至創(chuàng)新創(chuàng)業(yè)的各個(gè)部分都產(chǎn)生了巨大影響。但是這些女性人物卻被忽視,或是被以不成比例的方式在維基百科上呈現(xiàn)。”
比如,加拿大物理學(xué)家Donna Strickland,曾在2018年獲得諾貝爾物理學(xué)獎(jiǎng),第一時(shí)間維基百科上卻無(wú)法找到任何關(guān)于她的資訊,直到維基百科發(fā)布了關(guān)于她的工作傳記后才得到改善,然而那時(shí)距離她獲得諾獎(jiǎng)已經(jīng)過(guò)去很多天了。”
針對(duì)女性傳記缺乏的情況,Meta公司宣布開(kāi)源旗下的一個(gè)“生成式(Generative)”人工智能模型,該模型可以自動(dòng)研究并創(chuàng)建一些重要人物的高質(zhì)量傳記文章。
該模型的工作方式與人類(lèi)研究員的工作方式相似,分三步走:首先是「檢索模塊」,搜索特定人物的相關(guān)信息;然后是「生成模塊」,起草一個(gè)維基百科式的人物條目;最后是「引用模塊」,附上引證信息的來(lái)源。最終達(dá)到涵蓋維基百科傳記所需要的所有元素,如傳記人物的早期生活、教育和職業(yè)。
由于該AI系統(tǒng)仍還存在一些限制,因此在定位上,需要能與維基百科編輯互補(bǔ)——由AI系統(tǒng)產(chǎn)生草稿,接著再由編輯進(jìn)行事實(shí)查證和補(bǔ)充。模型的限制包括,用來(lái)創(chuàng)建維基百科條目的網(wǎng)頁(yè)內(nèi)容,可能存在文化偏見(jiàn),需要依靠人工鑒別;而且在技術(shù)上,文本生成系統(tǒng)容易產(chǎn)生幻覺(jué)(Hallucination),也就是非事實(shí)的內(nèi)容;此外在語(yǔ)義方面,AI的連貫性和邏輯也有些力不從心。
即便如此,該AI模型仍然令人印象深刻。下圖彩色文本,是由AI模型替無(wú)脊椎動(dòng)物的研究先驅(qū)Libbie Hyman,所生成的簡(jiǎn)短傳記。綠色文本來(lái)自參照文章;紫色文本則來(lái)自網(wǎng)絡(luò)上的證據(jù);橘色文本則表示幻覺(jué),是由模型腦補(bǔ),無(wú)法被驗(yàn)證的資訊。
雖然模型所生成的結(jié)果無(wú)法直接發(fā)布,但該模型已經(jīng)拿到了足夠多與Libbie?Hyman相關(guān)的信息(包括對(duì)無(wú)脊椎動(dòng)物的研究、重要出版物和工作等),人類(lèi)研究員或作家可以根據(jù)這些信息迅速上手并完成這篇文章。
盡管技術(shù)方面還在完善中,但這是對(duì)維基百科內(nèi)容的性別平等踏出的重要一步。研究人員提到,他們目前的工作,僅是解決一個(gè)復(fù)雜問(wèn)題的一小部分,接下來(lái)還有很多工作要做,包括識(shí)別不同的“偏見(jiàn)”問(wèn)題:比如女性傳記往往涉及額外的生活細(xì)節(jié),“離婚”一詞出現(xiàn)在女性傳記的頻率是男性傳記的4倍;一些“小報(bào)”往往更關(guān)注女性的生活,而這些細(xì)節(jié)可能沖淡人物更應(yīng)該被關(guān)注的成就;跨性別和二元性別人物的傳記,往往長(zhǎng)度更長(zhǎng),但是大部分章節(jié)都是描寫(xiě)個(gè)人生活,而非個(gè)人成就。
為了改進(jìn)該模型,Meta還發(fā)布了一個(gè)數(shù)據(jù)集,數(shù)據(jù)集可用于評(píng)估該模型基于1527份來(lái)自“邊緣化群體”的女性傳記中的表現(xiàn)。Meta表示,這些數(shù)據(jù)可用于訓(xùn)練該模型的迭代并評(píng)估模型的性能。
未來(lái)智能實(shí)驗(yàn)室的主要工作包括:建立AI智能系統(tǒng)智商評(píng)測(cè)體系,開(kāi)展世界人工智能智商評(píng)測(cè);開(kāi)展互聯(lián)網(wǎng)(城市)大腦研究計(jì)劃,構(gòu)建互聯(lián)網(wǎng)(城市)大腦技術(shù)和企業(yè)圖譜,為提升企業(yè),行業(yè)與城市的智能水平服務(wù)。每日推薦范圍未來(lái)科技發(fā)展趨勢(shì)的學(xué)習(xí)型文章。目前線上平臺(tái)已收藏上千篇精華前沿科技文章和報(bào)告。
??如果您對(duì)實(shí)驗(yàn)室的研究感興趣,歡迎加入未來(lái)智能實(shí)驗(yàn)室線上平臺(tái)。掃描以下二維碼或點(diǎn)擊本文左下角“閱讀原文”
總結(jié)
以上是生活随笔為你收集整理的Meta开发了一个AI模型,尝试解决维基百科的「性别偏见」问题的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: HashSet存储自定义对象保证元素唯一
- 下一篇: AlphaFold 和 AI 蛋白质折叠