日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【文本信息抽取与结构化】目前NLP领域最有应用价值的子任务之一

發布時間:2025/3/20 编程问答 28 豆豆
生活随笔 收集整理的這篇文章主要介紹了 【文本信息抽取与结构化】目前NLP领域最有应用价值的子任务之一 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

常常在想,自然語言處理到底在做的是一件什么樣的事情?到目前為止,我所接觸到的NLP其實都是在做一件事情,即將自然語言轉化為一種計算機能夠理解的形式。這一點在知識圖譜、信息抽取、文本摘要這些任務中格外明顯。不同的任務的差異在于目標的轉化形式不一樣,因而不同的任務難度、處理方式存在差異。

這個系列文章【文本信息抽取與結構化】,在自然語言處理中是非常有用和有難度的技術,是文本處理與知識提取不可或缺的技術。

作者&編輯 | 小Dream哥

1 概述

之前筆者在公眾號中介紹過實體識別、關系抽取等常用的信息抽取技術。在這個系列文章中,我們不再局限于某一個具體的技術,而是聚焦在如何將一些“自然”的文本轉化為結構化的文本;如何從大規模的語料中提取出感興趣的內容。我們定義類似的任務為文本信息抽取與結構化。

這樣的任務是有非常廣泛的應用場景的,任何你需要從文本中提取信息的場景或者像知識圖譜這種需要大規模信息抽取的場景都需要這樣的技術。

這次的系列文章,我們從兩個方面來講述這個話題,文本的結構化以及大規模語料的知識抽取

2 文本的結構化

文本的結構化是比文本分類等任務要更細致化的一項任務,在實際應用中,對文本的結構化的需求是非常旺盛的。例如,在招投標的場景中,需要對招標書進行結構化,以完成投標書的自動化生成、投標任務提醒等功能;在一些智能審核的場景中,需要將申請文件結構化,才能進行后續的判定。

下面舉一個文本結構化的例子,讓讀者感受一下,文本的結構化是一個什么樣的任務?大概是一個什么樣的過程?需要用到哪些技術?

例如,保險公司在接受客戶報案之后,要進行理賠和賠付。在人工智能時代,保險公司都在推進智能理賠,即通過NLP技術,對報案材料進行審閱,結合保險條款,判定是否要賠付給客戶。在大型保險公司里,客戶數以億計的小額賠付場景中,這種智能理賠的能力是可以提供非常大的效益的。

對報案材料進行審閱的過程,就需要將報案信息進行提取,也就是將材料進行結構化。

如下是一段報案材料:

我是深圳市天藍電子科技有限公司的行政人員,我司一名員工,在上班時突發心臟病,送至深圳市第三人民醫院醫治無效后死亡。遂來報案,我們的保單號是12345678901234,我的聯系電話是123456780。附件1是我們的醫院治療證明。

我們需要運用NLP技術對其進行結構化:

被保險人:深圳市天藍電子科技有限公司

出險原因:突發心臟病

治療醫院:深圳市第三人民醫院

出險時間:上班時

保單號:12345678901234

聯系電話:123456780

醫院治療證明:附件1

通過對報案材料的結構化,我們得到了“被保險人”,“出險原因”以及“保單號”等信息,后續可以調用相關的系統核實信息,做出理賠決策。

由此可知,文本結構化用到的最關鍵的技術是信息抽取技術。此外,通常文本會是PDF或者word格式,很多時候,需要引入OCR技術,將PDF或者word轉化成JSON格式,而沒有丟失掉文檔結構的信息。

這里先做一個概述,我們后續再詳細的介紹文本結構化的技術。

3? 大規模語料的知識抽取

知識圖譜的搭建是大規模語料知識抽取技術應用的最主要場景之一。例如,某保險公司需要構建保險理賠過程的知識圖譜。假設其采用自頂向下的方法,先人工構建了保險理賠過程的shcema,進一步需要找到實例,充實schema。這就需要基于其常年積累下來的理賠及報案材料,運用NLP技術,抽取到大量的實例及屬性,豐富該知識圖譜。

我們對比來看,相對于上一節介紹的文本的結構化的任務,知識抽取的任務在于從海量的語料中抽取信息。相對來講,抽取的類別會更多,難度更大。需要一種無監督或者半監督的方式,來高效的完成這個任務。

自動化的知識抽取,是一個艱難但意義重大的任務,后續我們會介紹一些在這方面進行探索的工作。

總結

文本信息抽取與結構化是目前NLP中最為實際且效益最大的任務,熟悉這個任務是一個NLP算法工程師必需要做的事情。

讀者們可以留言,或者加入我們的NLP群進行討論。感興趣的同學可以微信搜索jen104,備注"加入有三AI NLP群"

下期預告:文本的結構化方法

知識星球推薦

掃描上面的二維碼,就可以加入我們的星球,助你成長為一名合格的自然語言處理算法工程師。

知識星球主要有以下內容:

(1) 聊天機器人;

(2) 知識圖譜;

(3) NLP預訓練模型。

轉載文章請后臺聯系

侵權必究

往期精選

  • 【完結】 12篇文章帶你完全進入NLP領域,掌握核心技術

  • 【年終總結】2019年有三AI NLP做了什么,明年要做什么?

  • 【NLP-詞向量】詞向量的由來及本質

  • 【NLP-詞向量】從模型結構到損失函數詳解word2vec

  • 【NLP-NER】什么是命名實體識別?

  • 【NLP-NER】命名實體識別中最常用的兩種深度學習模型

  • 【NLP-NER】如何使用BERT來做命名實體識別

  • 【NLP-ChatBot】我們熟悉的聊天機器人都有哪幾類?

  • 【NLP-ChatBot】搜索引擎的最終形態之問答系統(FAQ)詳述

  • 【NLP-ChatBot】能干活的聊天機器人-對話系統概述

  • 【知識圖譜】人工智能技術最重要基礎設施之一,知識圖譜你該學習的東西

  • 【知識圖譜】知識表示:知識圖譜如何表示結構化的知識?

  • 【知識圖譜】如何構建知識體系:知識圖譜搭建的第一步

  • 【知識圖譜】獲取到知識后,如何進行存儲和便捷的檢索?

  • 【知識圖譜】知識推理,知識圖譜里最“人工智能”的一段

  • 【NLP實戰】tensorflow詞向量訓練實戰

  • 【NLP實戰系列】樸素貝葉斯文本分類實戰

  • 【NLP實戰系列】Tensorflow命名實體識別實戰

  • 【NLP實戰】如何基于Tensorflow搭建一個聊天機器人

  • 【NLP實戰】基于ALBERT的文本相似度計算

  • 【每周NLP論文推薦】從預訓練模型掌握NLP的基本發展脈絡

  • 【每周NLP論文推薦】 NLP中命名實體識別從機器學習到深度學習的代表性研究

  • 【每周NLP論文推薦】 介紹語義匹配中的經典文章

  • 【每周NLP論文推薦】 對話管理中的標志性論文介紹

  • 【每周NLP論文推薦】 開發聊天機器人必讀的重要論文

  • 【每周NLP論文推薦】 掌握實體關系抽取必讀的文章

  • 【每周NLP論文推薦】 生成式聊天機器人論文介紹

  • 【每周NLP論文推薦】 知識圖譜重要論文介紹

總結

以上是生活随笔為你收集整理的【文本信息抽取与结构化】目前NLP领域最有应用价值的子任务之一的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。