【NLP】让AI读懂法律文书:一种基于多分类的关键句识别方法
法律領域是近年來在 NLP 社區興起的一個研究場景,許多研究者從不同的角度對其進行了大量研究,例如對當事人的情感分析、提取案件當事人信息,提取偵破案件的關鍵判決信息,預測案件的結果等等。
近日,來自斯里蘭卡莫拉圖瓦大學(University of Moratuwa)計算機系的一組研究人員,提出一種使用句子嵌入向量(sentence embedding)和多分類技術(multi-classclassification),分析法律文件中關鍵句子的方法。
實驗結果表明,他們的方法可以有效提高關鍵句識別性能,幫助降低從法律判例中搜尋重要事實或論點的工作量。
任務背景
判例法
在法律領域,判例法是使用過去的法庭案例來支持或反駁正在進行的法庭案件的論點,而不是使用憲法、法規和其他正式的法律定義。法律專業人士利用過去類似法庭案件中的判決來支持他們的主張。為此,他們會瀏覽判例文件,從中找到類似的案例和有價值的論點。
庭審中的當事人
法庭案件中的法律當事人可以是一個人或者構成實體的一群人。在任何一個法庭案件中,可以確定兩個主要的法律當事人——公訴人、被告。注意,可能存在不屬于任何一個主要方的第三方實體或人員。從這里開始,為了便于理解,兩個主要當事人將被稱為原告和被告。法庭案件中幾乎所有的句子、事實和論據都是用來支持或反對兩個主要當事人的。
庭審記錄中的關鍵句
法律專業人員花費大量的時間閱讀判例法文件,試圖提取重要的事實來支持或反駁正在進行的案件,這一過程十分單調乏味。這些文件的語言相對復雜,而且數量每年都在增加。
如果能夠通過自然語言處理技術(NLP)來完成這種重復而繁瑣的提取重要事實或論據的工作,將會減少律師們工作,節省大量時間和金錢成本。
本研究的主要重點是識別和區分以往案例中的關鍵事實和論點,以支持或反對法庭案件的主要當事方。
相關基礎技術工作
當事人情感分析數據集
法律領域使用自然語言處理技術,一個挑戰是缺乏當事人情感分析數據集。這個問題,可以通過對最初從美國最高法院獲取的包含近 2000 個句子的數據集進行當事人情感注釋得以解決。
情感注釋包含三個概念:原告和被告兩個當事人、每個當事人在每個句子中表現的情感以及對句子整體情感。
交叉熵損失
平均絕對誤差(Mean Absolute Error,MAE)只在少數假設條件下可以正常發揮作用。當數據集的分類標簽變得有噪聲時,MAE 的性能開始變差,而交叉熵損失(Cross Entropy Loss)的調整對有噪聲的數據工作很好。Zhang 和 Sabuncu 對 3 個不同噪聲水平的數據集進行了綜合添加噪聲的改進交叉熵損失函數實驗,均優于 MAE。
關鍵句子識別
Glaser 等人研究了基于 9 種不同語義類別的法律合同句子分類。研究實驗是針對德語法律文本進行的。
首先,機器學習模型被訓練用于從德國民法典中提取句子,然后用于法律合同中提取合同中相應的關鍵句子。Jagadeesh 等研究人員提出了一種順序過程來進行文檔摘要,然后提取重要的句子。
為此,在第一部分中,他們使用了帶有命名實體識別(NER)和詞性標注(PoS)的句法分析,基于命名實體識別(NER)、詞性標注(PoS)、詞頻等的特征提取,根據特征對句子打分,并對句子進行排序。該系統允許根據查詢提取句子,生成連貫分數是其中的關鍵步驟。Hirao 等人利用支持向量機(SVM)研究了句子提取方面的問題。從文檔中提取關鍵句子的方法類似于文本摘要,并根據重要和不重要兩類對句子進行分類。在當時,它們還能夠擊敗其他三種文本摘要方法。
研究方法
最初,研究團隊對只標注了判決的句子進行探索性分析,發現數據集需要更加詳細,以便模型學習。有了這種洞察后,就需要為這項任務準備一個適當的數據集。
本研究的數據集是 Mudalige 等人創建的基于當事人的情感分析(PBSA)數據集的擴展,該數據集可在 OSF1 上公開獲得。PBSA 數據集由 Sugathadasa 等人從美國最高法院的 25 份判例法文件中提取的 1822 個精確的句子和有意義的子句組成,以及其中對當事人的看法和整體看法。
通過為每個判決添加每個法庭案件的判決,研究團隊擴展了數據集。根據勝訴方和判決對勝訴方的影響,將判決分為四類。一個句子可以分為以下幾類:
1.原告敗訴,并對原告產生負面影響
2.原告敗訴,但對原告產生正面影響
3.原告勝訴,但對原告產生負面影響
4.原告勝訴,并對原告產生正面影響
根據以上分類,一個句子被認為是關鍵句,當:
原告勝訴時,對原告有正面影響
原告敗訴時,對原告有負面影響
PBSA 數據集對每句提及當事人的話中都進行了情感標簽標注。使用這些情緒標簽來計算每句話對原告的影響。
在 1 號案件中,上訴人是 Lee,被告是警官。PBSA 數據集標注了 Lee 和警官的情緒標簽,如下所示:
原告:Lee——負面(-1)
被告:officials——正面(+1),they——正面(+1)
根據情感標簽,III-A 句中對原告的影響可以標注為負面。
每當有一個句子只提到被告一方的成員時,考慮被告的相反情緒作為對申訴人的影響,以便將句子按 4 類分類。在 1822 年的判決中,有 214 個判決反映了對任何一方的中立情緒,這些句子被刪除了,因為它們對于句子重要性的預測是不重要的,而且由于數量的豐富,它們也會導致高度的類別失衡。當使用中立標簽的句子訓練模型時,輸出概率不應明顯偏向于任何類。
余下的 1608 個句子被標記為原告勝訴或敗訴,這些句子屬于案件文件的判決。每類的句子數量為:
1.原告敗訴,并對原告產生負面影響——226
2.原告敗訴,但對原告產生正面影響——230
3.原告勝訴,但對原告產生負面影響——687
4.原告勝訴,并對原告產生正面影響——465
由于美國最高法院的大多數案件都是上訴人提出的上訴,因此對上訴人產生不利影響的判決數量略有增加。
多分類模型
本研究使用的多分類模型包括三個組成部分:詞向量模型、平均池化層和全連接層。使用 BertTokenizer 進行分詞。詞向量模型使用維基百科上預訓練的 t-base-cased 模型。最終的全連接層節點數與類別數相同。
圖1. 模型結構
BERT Tokenizer 被配置為為給定輸入文本中識別的單詞和子單詞生成標記,并創建一個 128 長的填充標記序列,還生成了一個輸入掩碼,以便 Bert 模型能夠區分表示文本的符號。
BERT 模型為單個 token 生成 768 維的 embedding。為了獲得輸入文本序列的統一表示,Reimers 和 Gurevych 提到了 3 種技術:使用 [CLS] 的 embedding,取每個維度上 token embedding 的平均值(mean Pooling),取每個維度上 embedding 的最大值(Max Pooling)。使用均值池來獲得提供給模型作為輸入的句子的廣義表示。根據 Devlin 等人的說法,對下游分類任務進行微調的 BERT 通常會產生比對特定領域使用預先訓練的單詞嵌入更好的結果。模型使用句子轉換器 Git 庫實現,分類任務代碼使用 PyTorch 實現。
任務相關的損失函數
分類交叉熵損失是一種最有希望用于多分類任務的損失函數。交叉熵損失僅使用標記類的概率計算。
但研究定義了一個新的損失函數,它考慮了其他類的概率,而不是標記類的概率。本文中討論的分類任務包含四個類,根據法院案件的判決可以分為兩個極性。在算法 1 中定義了損失函數,它考慮了類的極性。
損失函數的目標是對不同類別的概率進行懲罰。例如,當標簽是“原告失敗”和“消極”時,相反的類別是“原告獲勝”和“消極”,“原告獲勝”和“積極”。在法律領域的上下文中,預測一個句子出現在原告敗訴的案件文件中,而該句子出現在原告勝訴的案件中,與預測錯誤的情緒相比,這是一個嚴重的錯誤。
算法 1 取模型最后一層每個節點的輸出,然后使用 Softmax,如公式 1 所示,得到每個類的概率,其中 xi 是第 i 個節點的輸出。
MidClassIndex 字段表示轉換極性的類索引。根據以上四個類別,類別指數 0 和 1 表示原告輸極性,類別指數 2 和 3 表示原告贏極性。根據 case 句子的標簽,一個權重被動態地應用到相反類的概率損失上。標簽類的權重為 0。與標記的類具有相同極性的類的權重為 1。
一個輸入句的總損失是每一類的累計損失。
實驗分析
從準備的 1608 個標記的案例句子中,根據表 4 創建了訓練集、驗證集和測試集。這項研究使用過采樣和過采樣技術來緩解訓練集中的類別不平衡。
在過度抽樣方法中,從較低句子數的 3 個類中重復樣本,以匹配上訴人獲勝的次數。
相比之下,欠采樣方法減少了 3 個數量較多的類的樣本,以匹配樣本數量最少的類。使用這兩種組合的數據集來訓練分類模型,首先使用分類交叉熵損失訓練,然后使用任務特定損失函數訓練。團隊實驗了相反的類減重超參數,指標比較如表三所示。
每個模型訓練最多 8 個 epoch,以避免過擬合。然后用驗證精度最好的模型權重對測試集進行評價。從表三可以看出,與分類交叉熵損失相比,任務相關的損失函數對句子分類具有更好的優化效果。由于考慮了與領域相關的案例決策極性,任務特定損失函數的準確性得以提高。
總結與展望
這項采用基于 transformer 編碼的輸入句和基于任務的損失函數,獲得了較好的分類結果。在法律領域背景下訓練分類模型時,任務特定損失函數的性能優于當前最先進的分類交叉熵損失。使用任務特定丟失函數和更多注釋數據自動識別關鍵句,以提高模型性能,有望減少法律專業人員的人工分析工作。未來,團隊希望開發一個自然語言推理(NLI)數據集以及法律領域的語義相似度評分(STS),并使用該數據集來優化和評估句子向量模型。
往期精彩回顧適合初學者入門人工智能的路線及資料下載機器學習及深度學習筆記等資料打印機器學習在線手冊深度學習筆記專輯《統計學習方法》的代碼復現專輯 AI基礎下載黃海廣老師《機器學習課程》視頻課黃海廣老師《機器學習課程》711頁完整版課件本站qq群955171419,加入微信群請掃碼:
總結
以上是生活随笔為你收集整理的【NLP】让AI读懂法律文书:一种基于多分类的关键句识别方法的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: jeecg <t:choose 功能标签
- 下一篇: AI 趋势