當(dāng)前位置：首頁 > 编程资源 > 综合教程 >内容正文

综合教程

机器学习大赛又出骗子！窃取私有数据集一万美元到手

發(fā)布時間：2023/11/21 综合教程 48 生活家

生活随笔收集整理的這篇文章主要介紹了机器学习大赛又出骗子！窃取私有数据集一万美元到手小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

圖：作弊者通過寵物領(lǐng)養(yǎng)平臺Petfinder.my收集有關(guān)Private Leaderboard的答案，從而獲得竟賽冠軍

【網(wǎng)易智能訊1月16日消息】世界最知名的數(shù)據(jù)挖掘以及機器學(xué)習(xí)競賽平臺Kaggle剛剛宣布，獲得最新競賽的冠軍團隊Bestpetting因涉嫌作弊而被剝奪了冠軍頭銜。該團隊通過寵物領(lǐng)養(yǎng)網(wǎng)站Petfinder.my收集Private Leaderboard的答案，然后將這些數(shù)據(jù)隱藏在他們提交的文件中，并于2019年4月9日贏得年度冠軍。在總共25000美元的獎金池中，Bestpetting團隊獲得了10000美元，如今這筆資金已經(jīng)無法追回。

何為Kaggle競賽？

Kaggle(谷歌子公司)是一個圍繞建立機器學(xué)習(xí)模型的競賽而建立起來的在線社區(qū)，該平臺的獎金池高達150萬美元，吸引了各種各樣的數(shù)據(jù)玩家。Kaggle為競賽提供數(shù)據(jù)集，以及將用于決定獲勝而提交的指標(biāo)。參賽者分析給定的數(shù)據(jù)，構(gòu)建模型以匹配期望的結(jié)果，然后提交結(jié)果(通常與代碼一起提交)。為了防止有人作弊，機器學(xué)習(xí)競賽使用沒有標(biāo)記的數(shù)據(jù)，并分兩個階段使用：

第一，當(dāng)比賽結(jié)束后，參賽者只擁有作為未標(biāo)記數(shù)據(jù)的數(shù)據(jù)集中的“私人”部分，用于幫助選擇獲勝者。在理想情況下，此數(shù)據(jù)可以表示模型將如何對以前從未見過的數(shù)據(jù)執(zhí)行相關(guān)操作。

第二，為了在比賽期間對參賽者進行排名，參賽團隊提交的作品會根據(jù)數(shù)據(jù)集中專門用于leaderboard(臨時成績)的部分進行評分。就像“私人”測試數(shù)據(jù)一樣，參賽者可以使用這些數(shù)據(jù)，但沒有標(biāo)準(zhǔn)。單獨針對leaderboard指標(biāo)進行優(yōu)化的團隊，通常會因為不適用于數(shù)據(jù)集的“私人”部分而失敗。

使用私人數(shù)據(jù)作弊

這種競賽形式的結(jié)果是，如果某個團隊獲得了私有測試數(shù)據(jù)集的基本事實答案，那么它獲勝的可能性就會大增。但作弊團隊構(gòu)建的模型往往是無效的，會使競賽變得毫無意義。在這種情況下，作弊者會在提交答案的同時附上自己的答案。

其他的作弊方式可能更難以察覺。其中一種方法是使用完整的數(shù)據(jù)集來優(yōu)化超參數(shù)，從而創(chuàng)建一個看似更有效的模型。也許作弊團隊會選擇更容易檢測的方法，因為他們根本沒有能力創(chuàng)建值得被選入leaderboard的模型，也有可能是因為他們不愿費更多心思。

解決這些問題的辦法可能是將私人數(shù)據(jù)完全排除在競賽之外，提交必須包括提供API來生成預(yù)測的代碼，但這也將防止參賽者知道私人和leaderboard數(shù)據(jù)中的功能分布。

Kaggle競賽的陰暗面

Kaggle競賽有很多潛在的問題。有人在檢測信用卡詐騙的競賽中偶然發(fā)現(xiàn)了一個例子。一種流行的模型正在使用來自未來的信息進行培訓(xùn)，這將使其在實踐中無法使用，畢竟銀行無法預(yù)測這些尚未發(fā)生的事情。許多模型使用數(shù)據(jù)集的方式會產(chǎn)生更高的分數(shù)，但會使模型對競賽組織者毫無用處。不過，這些模型仍然可以贏得競賽，因為他們沒有違反任何規(guī)則。

由于可能存在的這些漏洞和無用結(jié)果，競賽組織者必須對他們的數(shù)據(jù)和規(guī)則格外警惕和謹慎。有些人要求舉行多輪競賽選拔勝者，有些人建議平均分配獎金給更多的頂級參賽者。

作弊慣犯

Bestpetting團隊由帕維爾·普萊斯科夫（Pavel Pleskov）、納雷克·馬洛揚(Narek Maloyan)和費多爾·多布里揚斯基(Fedor Dobryanski)組成。這并不是普萊斯科夫第一次破壞Kaggle競賽，也不是第一次被指控作弊，只是過去Kaggle競賽組織方?jīng)]有相關(guān)預(yù)防措施，而且普萊斯科夫本身也是Grandmaster級別的大牛。

圖2：在Kaggle競賽中被曝作弊的帕維爾·普萊斯科夫

普萊斯科夫被剝奪冠軍頭銜，并被禁止進入Kaggle平臺，記者還聯(lián)系了普萊斯科夫的雇主H2O.ai，請其發(fā)表評論。后者的發(fā)言人英格麗德·伯頓（Ingrid Burton）回應(yīng)稱：“今天早些時候，我們已經(jīng)知道了情況。普萊斯科夫不再與H2O.ai有關(guān)聯(lián)，立即生效。我們還將與Petfinder.my聯(lián)系，看看我們能為他們提供什么幫助。”

我門沒有找到費多爾·多布里揚斯基(Fedor Dobryanski)的進一步信息，他也被禁止進入Kaggle平臺。不過，納雷克·馬洛揚(Narek Maloyan)沒有被禁。

Kaggle有更光明的未來

總結(jié)

以上是生活随笔為你收集整理的机器学习大赛又出骗子！窃取私有数据集一万美元到手的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：马斯克今年净资产增加91.9亿美元，增长
下一篇：估值40亿美元，腾讯投资Roblox：沙

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

综合教程

机器学习大赛又出骗子！窃取私有数据集 一万美元到手

總結(jié)

机器学习大赛又出骗子！窃取私有数据集一万美元到手