论文投稿新规则,不用跑出SOTA,还能“内定”发论文?!
文 | Sheryc_王蘇
從5月初開始,CV圈似乎開始了一陣MLP“文藝復興”的熱潮:在短短4天時間里,來自谷歌、清華、牛津、Facebook四個頂級研究機構的研究者分別獨立發布了4篇關于MLP結構在圖像任務上取得不錯效果的論文。雖然研究本身令人興奮,但發表的過程卻讓人一言難盡:來自牛津的小哥Luke就在reddit上抱怨到他正在進行的實驗被谷歌的MLP-Mixer搶先發表(scoop)了,所以他正在撰寫的實驗總結也只能以實驗報告的方式盡快掛在arXiv上。
做研究的過程中,同樣的想法被其他研究者搶先發表是家常便飯。或許我們已經對此習以為常,但這真的沒有辦法解決嗎?在NAACL 2021上,就有研究者從心理學、藥學等其他學科研究中被普遍使用的“預注冊”機制(Pre-registration)出發,為NLP領域量身定做了一套預注冊機制,希望能用一套新的研究和投稿流程讓作者不再擔心被搶先發表,不再擔心好的研究因為沒有SOTA被拒,不再擔心慢研究趕不上快節奏…根據作者在文中繪制的藍圖,這種機制雖然簡單卻好處多多,它究竟能夠為未來的NLP研究帶來什么樣的改變呢?
論文題目:
Preregistering NLP Research
論文鏈接:
https://arxiv.org/abs/2103.06944
Arxiv訪問慢的小伙伴也可以在 【夕小瑤的賣萌屋】訂閱號后臺回復關鍵詞 【0525】 下載論文PDF~
什么是預注冊?
預注冊
所謂預注冊,指的是在進行一項研究之前,將自己的詳細研究計劃在預注冊網站[1]上進行注冊。預注冊的內容反映了在研究開始之前需要考慮的所有事項,例如自己的研究假設、模型設計和實驗方案。
在內容上,預注冊很像是在申請項目資金時撰寫的申請材料,或是研究開始前導師要求撰寫的研究計劃,不過雖然內容類似,預注冊的不同之處在于“注冊”二字:這些內容會被提交至網站上,并打上提交之時的時間戳,證明作者在某個時刻已經完成了實驗設計。在網站上預注冊的內容可以作為實驗的初始設計記錄、作為實驗取得進展或發生變化后記錄進度的倉庫,甚至可以直接作為“注冊報告”(Registered reports)向期刊或會議直接投稿。這種機制早在2018年就已在Science上發文[2]進行過相關討論,但目前在AI領域還并不常見。
注冊報告投稿制度
上文中提到的“注冊報告”投稿制度正是線上預注冊制度的主要副產物。在這種審稿制度下,同行評議過程被分為兩個階段:
在研究開始前,作者給審稿人提交一份預注冊的研究計劃。隨后,審稿人根據研究計劃進行評審,經過多輪修改,決定是否接收該研究計劃。
在研究計劃被接受后,開始根據已提交的研究計劃進行相關實驗,撰寫論文,隨后向審稿人進行第二輪提交。隨后,審稿人根據論文進行評審,經過多輪修改,決定是否接收該論文。
對于注冊報告投稿制度,一般在第一階段的研究計劃被接受后,作者便得到了來自主辦方的保證,即只要按照研究計劃完成的論文即可被接收,無論實驗效果好壞。因此,如果實驗計劃被認為有意義,即使最終被證明方法無效也可以被接收。
在進行實驗時,作者可以隨時對研究計劃進行修改,但對研究計劃的任何修改都需要在最終報告中體現。目前,注冊報告投稿制度已經被包括Nature子刊在內的數百種期刊采用。
預注冊有哪些好處?
看起來,預注冊似乎只是將自己的詳細研究方案在開始著手試驗之前掛在網站上。但是,這樣簡單的操作卻能帶來新的研究范式,改變現有研究中的諸多問題:
讓自己提前完整設計研究方案。在進行研究之前,通過預注冊網站上提供的一系列問題列表讓自己在動手之前就可以從多個維度仔細思考研究的細節和意義,避免進行無意義的探索。同時,正如NLP大牛Jason Eisner所建議的[3],預注冊過程中撰寫的報告或許可以作為最終論文的一部分,讓自己在開始研究之前就著手撰寫論文。
區分探索性分析(Exploratory)和驗證性分析(Confirmatory)。所謂探索性分析指通過實驗結果產生新的假設,而驗證性分析指通過更多實驗和分析驗證先前已提出的假設。在一些實際研究中,研究者往往將探索性分析偽裝成驗證性分析,即首先通過實驗得出結果,再通過結果反推出一個假設,說明自己的實驗驗證了反推出的假設,這種行為被簡稱為HARKing(Hypothesizing after results are known),會導致產生不嚴謹的假設。如果是根據注冊報告進行評價,則在得到實驗結果前就需要對探索性分析和驗證性分析進行區分,避免錯誤假設的出現。
避免發表偏見[4]。所謂發表偏見,指的是會議或期刊偏好于發表現象顯著、結果好的研究,而不偏好現象不明顯、結果較差的研究。實際上,有些研究即使結果不好也有其發表價值,但是為了能夠讓論文發表,研究者傾向于壓縮負面的發現,著重強調好的結果。這也難怪為何近年來NeurIPS上還會有“I Can't Believe It's Not Better! Workshop”[5]這樣專發沒效果的模型的workshop了。但如果根據注冊報告投稿制度,根據論文本身的設計來確定接受與否,就可以讓研究者在看到哪條路可行的同時,更多的接觸到那些前人試過但不可行的方案了。
避免被他人搶先發表。注冊報告制度使得先提出實驗方案的人擁有優先權。即使不實行注冊報告制度,預注冊報告上的時間戳也可以證明提出類似想法的時間先后。預注冊報告可以隨時選擇是否公開,讓他人難以直接通過預注冊報告剽竊方案。
鼓勵慢科學[6]。當注冊報告被同意接受之后,作者不需要擔心被提前發表,因此可以不用在盡可能短的時間趕完文章,而是可以選擇用更長時間仔細打磨自己的想法,讓論文更具深度。
NLP的預注冊有什么特點?
不同領域有著不同的研究特點,甚至同一領域內的不同種類論文也有不同的研究方法。這篇論文的最大貢獻就在于其對NLP領域內的各類論文分別提出了一個初版的預注冊表格,作者在預注冊時需要回答表格內的若干問題。
對于NLP領域,作者根據COLING 2018的論文分類將研究分為了3種:計算輔助的語言學分析(Computationally-aided linguistic analysis),NLP工程實驗(NLP engineering experiment paper),以及復現/資源/立場/綜述(Reproduction/Resource/Position/Survey paper)。其中,作者對于除Position Paper以外的各類研究都給出了推薦的預注冊表格。
下面以最為常見的NLP工程實驗論文為例,在預注冊過程中需要回答以下問題:
你的研究目的是什么?
你的研究假設是什么?
獨立變量有哪些(例如:模型結構)?非獨立變量有哪些(例如:模型輸出好壞)?
以上變量將被如何衡量?
實驗包含幾種語料或任務?
你將使用哪些軟件庫?
你將使用何種硬件?
你將使用何種參數設置?
你將使用什么樣的數據?
如果實驗數據不存在,請回答關于資源類論文(Resource paper)關于收集數據的預注冊問題(原文附錄A.6)。如果實驗數據存在,你對實驗數據的熟悉程度是?你的實驗假設在多大程度上與該數據相關?這在多大程度上影響了你方法在其他數據上的泛化性能?你是否準備收集更多數據來驗證自己的方法?
為何選擇該數據?這些數據有哪些關鍵性質?
這些數據是如何被劃分為訓練集/驗證集/測試集的?
你將如何分析結果并測試自己的假設?如果是自動評測,你將使用什么樣的指標和實現?它們被如何設置?如果是人工評測,請回答關于人工評測設置的預注冊問題(原文附錄A.8.1)
你是否會進行錯誤分析?如果是,請回答關于錯誤分析設置的預注冊問題(原文附錄A.8.2)
你是否有其他需要進行預注冊的信息?
其他種類論文的預注冊表格可以在論文的附錄中找到。
可以看到,預注冊的問題著重瞄準自己的方法如何能論證/反駁自己的假設,而非如何在數據集上取得更好結果。雖然需要回答的問題很多,但這些問題基本涵蓋了NLP實驗論文的全部設計細節,在著手試驗之前想清楚以上所有問題對于實驗的整體把握會有相當大的幫助。
總結
預注冊和注冊報告制度雖然已經被心理學等學科的頂刊作為標準流程,它的可行性和影響依然在探索之中。不過,對于我們一直以來所詬病的“刷SOTA”、搶創意、堆算力的行為,使用注冊報告制度或許能夠帶來緩解;同時,預注冊制度也能讓研究者從在單一數據集上追求模型性能的過程中提前跳出來,從更高的角度和更多元的視角上探索自己的方法對整個領域的推動作用。即使預注冊不是標準流程,在研究開始前仔細思考和記錄預注冊問題的結果也能提前避免一些彎路,讓后續的實驗更有效率。在AI領域日益火爆的當下,對于研究和投稿流程的改進同樣是一項重要課題,幾年后NLP的研究范式會變成什么樣,著實讓人期待呢(=?ω?=)
萌屋作者:Sheryc_王蘇
北航高等理工學院CS專業的市優秀畢業生,蒙特利爾大學/MILA博士生,資深ACG宅,目前作為實習生在騰訊天衍實驗室進行NLP研究。雖主攻NLP,卻對一切向更完善的智能邁進的系統和方向充滿好奇。如果有一天N寶能真正理解我的文字,這個世界應該會被賣萌占領吧。(還沒發過東西的)知乎ID:Sheryc
作品推薦:
NLP未來,路在何方?12位巨佬聯名指路!
這幾個模型不講“模德”,我勸它們耗子尾汁
后臺回復關鍵詞【入群】
加入賣萌屋NLP/IR/Rec與求職討論群
后臺回復關鍵詞【頂會】
獲取ACL、CIKM等各大頂會論文集!
?
[1].常用的預注冊網站,不妨去看看:Open Science Framework: https://osf.io/prereg/ AsPredicted: https://aspredicted.org/
[2].Science對于預注冊的討論:More and more scientists are preregistering their studies. Should you?. Science. https://www.sciencemag.org/news/2018/09/more-and-more-scientists-are-preregistering-their-studies-should-you
[3].研究之前先開始寫:Write the Paper First by Jason Eisner. https://www.cs.jhu.edu/~jason/advice/write-the-paper-first.html
[4].發表偏見:Publication Bias - Wikipedia. https://en.wikipedia.org/wiki/Publication_bias
[5].慢科學與快科學:Research Fast and Slow by Min-Yen Kan. http://bit.ly/kan-coling18
[6].有關預注冊機制的更多細節:https://www.cos.io/initiatives/prereg?_ga=2.218660505.1451147193.1621172626-420219689.1621172626
總結
以上是生活随笔為你收集整理的论文投稿新规则,不用跑出SOTA,还能“内定”发论文?!的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 算法与数据结构--空间复杂度O(1)遍历
- 下一篇: 【社招/实习】百度大搜索招聘NLP、搜索