當前位置：首頁 >

对社会信息敏感的预训练方法 LMSOC: An Approach for Socially Sensitive Pretraining

發布時間：2024/5/14 73 豆豆

生活随笔收集整理的這篇文章主要介紹了对社会信息敏感的预训练方法 LMSOC: An Approach for Socially Sensitive Pretraining 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

文獻地址：https://arxiv.org/pdf/2110.10319.pdf

本文將社會語境（感覺有點像世界知識）考慮到了NLP的模型之中，基于時間和地理位置兩個社會語境構建了數據集，與基線對比，在MRR上的改進超過了100%。

模型的實現非常簡單，只是將社會語境信息用圖的方法進行嵌入，然后將其簡單粗暴地拼接到了BERT的輸入中。

概要

“How canwe learn linguistically contextualized and socially contextualized language representations?” is the question we seek to answer in this paper.
以往的基于Transformer的模型沒有充分考慮到很多語言的現實環境方面，比如例子“I enjoyed ____ game in weekend”,會根據說話人來自哪，說話的時間，以及說話人更廣泛的社會環境與偏好
本文將說話人的社交語境融入到大規模語言模型的學習表示中，在地理敏感型語言建模任務上與基線相比有了很大的改善（相對MRR超過100%）

導論

背景：在大多數現代自然語言處理系統(包括語言模型)中，一個隱含的假設是，語言獨立于非語言語境，如說話人/作者身份和他們的社會背景。事實上，在社交媒體上使用語言，每句話都植根于特定的社會背景(如時間、地理、社會團體、社區)，忽略這些信息會對模型的表現產生影響。
先前的方法：學習依賴于社會語境的單詞嵌入，并且主要用于表征語言在許多維度(時間、地理和人口統計)上的變化。這些方法學習針對每個特定社交上下文的單詞嵌入，并可以捕獲詞義如何在這些維度上變化
- 限制
  - 單詞嵌入沒有在語言上進行上下文設置
    - Matthew E Peters, Mark Neumann, Mohit Iyyer, MattGardner, Christopher Clark, Kenton Lee, and Luke Zettlemoyer. 2018. Deep contextualized word representations.arXiv preprint Xiv:1802.05365.
    - 最近的方法已經通過學習由其特定于token的，使用上下文的語境化的單詞表示來解決
  - 單詞嵌入學習是直推式的（transductive）-它們只能生成訓練期間觀察到的單詞的嵌入，并且通常假設有一個有限的單詞詞匯表和一組社交上下文，所有這些都需要在訓練期間看到（OOV問題？）
    - WordPiess標記化方法來解決
- 雖然這些方法已經成功地捕捉到了語言語境，但它們仍然沒有捕捉到語言表征中的社會語境
LMSOC模型（1）學習對語言語境和社會信息敏感的表征，(2）使語言模型能夠在預訓練過程中從未觀察到的，社會語境中，歸納生成語言表征。例如，模型可以使NLP系統基于更廣泛的用戶/社會背景，將所引用的正確實體關聯起來，而“我們的首相上周訪問了英國”這樣的話語就是基于這種背景的

2 模型

LMSOC有兩個組件
- SCE–一個社會背景編碼器
- SSP–一個標準的BERT編碼器，根據SCE的輸出進行調整
Social Context Encoder (SCE)
- 實現一個函數𝑓將社會背景映射到𝑑維的向量
- 𝑓的實現方法與后面的SSP預訓練組件沒有關系，因此可以由領域專家選擇決定
- 本文將社會環境編碼為相似網絡，使用圖表示學習算法將網絡的節點嵌入到Rd，本文直接使用了NODE2VEC
- 用這個方法對常用的社會環境如時間和地理位置進行建模。
- The importance of modeling social factors of language: Theory and practice. 論文中認為這社會環境類別是相當具有挑戰性的，因為其具有壓倒性的語言外性質（extra-linguistic nature）
Socially Sensitive Pretraining (SSP)
- 是一個BERT編碼器，只做了少許修改。這些修改使更多的層次能夠關注社會語境，從而在語言語境之外，在社會語境中條件化標記表示。
  - 首先，在標準MLM任務的預訓練中，從社會語境編碼器獲得的社會語境表示也被納入其中，以影響所學語言的表示
    - 輸入token序列為𝑇=<𝑤1,𝑤2,…,𝑤𝑛>, 相關的社會信息的上下文SC∈Rd
    - 標準BERT在其初始層中將T映射到一系列單詞片段嵌入𝑄=<Φq1,?…,Φ𝑞𝑛>,?Φ𝑞𝑖∈𝑅𝑑,? 然后由更高的層進行轉換。本文直接將𝑄=<Φq1,?…,Φ𝑞𝑛,?SC>作為更高層的輸入
  - 其次，在訓練中，凍結了𝑆𝐶
值得強調的兩點
?因為語言模型從社會語境嵌入中學習，所以語言模型可以歸納地產生基于社會語境的語言表示，這是它在訓練中從未觀察到的
語言模型組件中未引入新的可訓練參數。因此，這種簡單的預訓練方法可以學習在語言和社會環境中的語言表達

3 評價

baseline methods
- 標準BERT
- LMCTRL，一種非常簡單的方法，可以在不改變語言模型本身架構的情況下將社會背景納入語言模型。其關鍵思想是為每個社交上下文分配附加到輸入文本的固定代碼(控制碼，一個獨特的名稱或數字序列)。已經證明，這種方法對于生成以體裁/領域為條件的文本很有用。
  - 雖然LMCTRL不要求改變模型架構和社會環境條件，但該方法不能推廣到訓練期間未看到的社會環境（我們也通過經驗證明了這一點）。支持新的社會環境需要對模型進行再訓練

3.1 綜合數據的評價

?cloze-test language modeling task using a synthetic corpus
這種方法能夠在非常受控的環境中評估模型，描述它們的行為，并證明方法的表面效度（Face Validity）

設置

使用完形填空語言任務，正確答案取決于句子所在的年份
- 注意到話語中對政治立場的引用取決于話語所依據的時間段，根據兩個模板句子構建了一個合成語料庫-(A)總統是[總統的名字]，(B)部長是[部長的名字]，其中每個句子都有時間的依據。
- 以年份t為基礎的句子會將相應的實體占位符替換為在該特定年份活躍的總統(或部長)的名字，活躍的總統/部長每5年更換一次。訓練數據由1900到2000年間每個時間點的每個模板句子的1000個實例組成，每5年為一次。
評估預測(“我國的[總統/部長]是[mask]”，年份)的能力，其中我們從1900年到2000年改變句子的年份。
- 請注意，該評估設置能夠評估模型在訓練中看不到的社交情境上的性能，因為評估中的社交情境集合是訓練中看到的社交情境的超集。為了很好地完成這項任務，模型需要同時利用語言和社會背景。只使用其中一種將導致性能不佳
- 注意，實驗中控制了不同社會背景下的訓練句子的長度，因為長度可能是一個潛在的干擾因素（confounder）
在簡單的線性鏈圖上使用NODE2VEC嵌入年份，其中年份𝑦與𝑦?1和𝑦+1連接起來

結果

- seen--對held out的句子進行評估，但基于訓練期間看到的社會背景
- unseen--對held out的句子進行評估，但基于訓練期間看不到的社會背景
- overall--結合seen和unseen兩項。
  - held out test：將一部分數據（a）從數據集中拿出，然后使用k折驗證的方法對剩下數據(b，總體數據集=a+b)進行訓練，然后將最后的模型在a上進行測試，用來評估模型的性能
  - 平均倒數秩(MRR)
BERT在所有設置中的表現都很差，因為它沒有利用句子所依據的社會上下文。
LMCTRL在seen的設置上獲得了滿分，并且總體上比基線有了顯著的提高。這是因為LMCTRL能夠以社會語境為條件。然而，當遇到unseen社會背景時，它的表現很差。這一觀察結果證實，LMCTRL能夠學習依賴于社會背景的表征，但要求在訓練中觀察所有社會背景。
LMSOC在所有環境下都明顯優于這些基線模型，特別是在證實了模型的表面效度的社會語境上進行評估時，并表明該方法可產生語言和社會語境都有效的表示

3.2 對真實世界數據的評估

在缺乏標準基準的情況下，預測需要以更廣泛的社會背景為條件，考慮地理信息語言建模的代理任務。
注意到“我的家鄉是[mask]”或“我們生活在[mask]的狀態”的正確答案都取決于話語所依據的地理語境，我們認為完形填空語言建模評估包括三個任務。該模型尚未針對這些任務進行顯式訓練
STATES：恢復在自傳式句子中提到的地理狀態
NFL：恢復作者在發言中最有可能提到的受歡迎的NFL（國家足球聯盟）球隊
CLOSECITY：評估模型將其預測與地點之間的地理接近性相一致的能力
數據與設置：隨機抽取了美國10個主要城市(每個城市來自不同的州)的1000萬條英語推文作為樣本，這些推文都是由用戶的當前位置決定的。與每條推文相關聯的社交語境就是這個位置。

3.2.1 STATES和NFL任務

嵌入城市：首先根據測地坐標計算出的兩兩測地線距離構建城市的最近鄰圖(k=5)，然后使用NODE2VEC將城市嵌入到構建的圖上
使用MRR進行評估，測試數據可能來自hold out集
- 如果該模型是根據來自布法羅和舊金山的推文進行訓練的，那么我們可以評估該模型預測測試句子“我居住在[MASK]狀態”中最有可能提到的狀態的能力。如果輸入是在羅切斯特，正確答案是“紐約”，如果輸入是在圣何塞，正確答案是“加利福尼亞”。輸入測試語句為美國人口最多的50個城市之一。在STATES任務上，我們使用測試句子“我住在[MASK]州”，而對于NFL任務，我們使用“我所在州最受歡迎的NFL球隊是[MASK]”。

3.2.2 CLOSECITY任務

為了進一步評估模型編碼和利用地點之間地理位置接近的能力，我們考慮一項任務，在該任務中，我們要求模型在以下提示中預測mask token的合理城市：“我開車到[MASK]的城市工作。”
- 然而，由于這項任務沒有確定的基本事實，我們測量了模型中排名靠前的預測城市/城鎮和輸入城市(社會語境)之間的地理距離。預測附近城市或城鎮的模型比預測遙遠城市的模型更好，因為人們更有可能開車去附近的城市工作，而不是非常遠的城市。請注意，為了確保不平凡，我們將輸入城市排除為有效的候選(或答案)。同樣需要注意的是，(A)該模型可以自由預測任何城市/城鎮，(B)得分高的答案不一定對應于輸入地點所在州的最大城市，甚至不一定對應于同一州的城市。例如，如果輸入的社會背景是“紐約州布法羅”，那么預測“加拿大多倫多”(相距100公里)的模型比預測“紐約州紐約市”(相距470公里)的模型要好。除了這些不同之外，設置的其余部分類似于STATES和NFL任務。
結果
- 表1顯示了STATES和NFL任務的評估結果。LMSOC的表現明顯優于BERT和LMCTRR，因為LMSOC更好地概括了訓練期間看不到的社交情境(樣本預測參見表2)。
  ?
- 圖3顯示了CLOSECITY任務中各種模型預測的頂級城市距離的匯總統計信息。LMSOC模型預測的城市(距輸入地點)中值距離(178公里)明顯低于BERT(957公里)和LMCTRL(905公里)。
  ?
  
  ?

檢查LMSOC所做的預測還表明，LMSOC能夠對其預測進行條件調整，從而考慮地理上的接近程度。例如，當輸入上下文為“Pittsburgh”時，模型傾向于預測“哥倫布(俄亥俄州)”，它比賓夕法尼亞州的其他主要城市(如費城(489公里)和艾倫敦(382公里))大約261公里遠，從而與哥倫布比費城和艾倫敦更接近匹茲堡的觀察結果一致。類似地，當輸入上下文是“Buffalo(NY)”時，模型更喜歡預測“Toronto(Canada)”(它比紐約州的其他主要城市，如Rochester 或New York City)更接近。綜上所述，這些結果強調了LMSOC在融入社會語境方面的有效性。

4 結論

提出了一種從大規模語言模型中學習社會敏感的語境表征的方法。
- 使用圖表示算法將社會背景嵌入到連續空間中，并提出了一種簡單但有效的社會敏感預訓練方法。
- 我們的方法使語言模型能夠利用社會語境之間的相關性，從而更好地推廣到訓練中沒有觀察到的社會語境。
- 更廣泛地說，為未來的研究奠定了基礎，這些研究將納入新類型的社交語境，并使個性化預測打字系統和實體鏈接系統等NLP系統能夠更好地適應語言差異。

總結

以上是生活随笔為你收集整理的对社会信息敏感的预训练方法 LMSOC: An Approach for Socially Sensitive Pretraining的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：计算机考研400分能上清华吗,考研400
下一篇： Social gan: Socially