AI大牛“认输”退网:多人种人脸数据可以有效去偏见
作為第四次工業革命的新引擎,人工智能的高速發展已經到了關鍵時刻,但是以算法偏見為代表的技術倫理問題逐漸成為人工智能發展的絆腳石。
近日,杜克大學研究人員研發的PULSE算法被質疑存在“嚴重種族歧視”,人工智能領軍人物Yann LeCun對此作出回應,評論一出便引發了關于算法偏見的激烈論戰。
在CVPR 2020上,杜克大學的研究人員提出了一種超分辨率算法(PULSE),該算法可以將部分模糊的人臉圖像進行清晰化處理。
算法計算生成的圖片甚至可以清晰呈現人臉上毛孔、皺紋以及發絲,效果不可謂不震撼。
有網友用美國前總統奧巴馬的模糊照片進行試驗,但超分辨率處理后的結果是一張白人的面孔,因此PULSE算法被質疑存在偏見。
人工智能專家Yann LeCun將此現象歸因為數據集的偏差,因為算法所用的訓練數據集中大多是白人的人臉,因此特征的分布會向白人人臉傾斜。
雖然Yann LeCun從技術路徑解釋了這一問題,但是由于話題的高度敏感性,該解釋并不能說服廣大推特用戶。話題不斷發酵,甚至出現了對算法推理機制不可知論的擔憂。
同樣的問題也發生在MIT開發的Tiny Images數據集上。該數據集創建于2008年,適用于訓練AI的系統,在圖像識別等機器學習模型中得到了廣泛的運用。
但是該數據同樣涉及種族歧視、性別歧視等問題,使得系統在識別人像的時候可能會自動地將有色人種或女性標記上含歧視性質的標簽。因此,MIT永久下架了近億條數據。
算法偏見,就是人工智能算法在收集、分類、生成和解釋數據時產生的與人類相同的偏見或歧視,主要表現為種族歧視、年齡歧視、性別歧視、消費歧視、就業歧視、弱勢群體歧視等現象。
根據皮尤研究中心2018年發布的《Public Attitudes Toward Computer Algorithms》顯示,58%的美國人認為計算機程序反映出一定程度的人為偏見,并且40%的人認為可以通過無偏見的方式設計這些程序。
消除偏見最有效、最直接的方法就是開發更加豐富的數據源類型,平衡采集的數據中關于種族、膚色、年齡、性別的分布,構建更公平的數據集。
為了規避這一“偏見”帶來的風險,數據堂面向多人種人臉處理識別技術,設計并制作了23349人多色人種人臉多姿態數據。數據堂嚴格遵守GDPR條款,已獲得質量管理體系認證和信息安全管理體系認證,所采集的多色人種人臉均已獲得被采集人的授權。
東南亞人人臉多姿態樣例
數據集包含黃種人、黑人、白人、棕色人種和印度人,每個人采集29張圖像,涵蓋28張多光照、多姿態、多場景圖片和1張證件照。
印度人人臉多姿樣例
通過對AI行業目前比較缺乏的人種人臉進行采集,本數據集旨在改善客戶算法中的特征偏移,提高客戶算法的特征描述準確性。
谷歌此前提出了AI研究的七大準則:有益于社會、避免創造或增強偏見、為保障安全而建立和測試、對人們有說明義務、整合隱私設計原則、堅持高標準的科學探索、根據原則確定合適的應用。
數據堂始終堅持加強技術倫理建設、堅持科技向善的理念。目前,數據堂在多色人種人臉標注方面積累了豐厚的經驗,能夠有效避免因數據集的偏差帶來的算法偏見,客戶可以放心使用。
備注:文中所示的人臉采集樣例均已獲得被采集人授權
總結
以上是生活随笔為你收集整理的AI大牛“认输”退网:多人种人脸数据可以有效去偏见的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 非985/211面试大厂校招经历经验总结
- 下一篇: 随机数生成器python_python安