日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) >

可信知识实证在UGC时代情报应用中的思考与探索

發(fā)布時(shí)間:2024/7/5 71 豆豆
生活随笔 收集整理的這篇文章主要介紹了 可信知识实证在UGC时代情报应用中的思考与探索 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

可信知識(shí)實(shí)證在UGC時(shí)代情報(bào)應(yīng)用中的思考與探索

在當(dāng)前互聯(lián)網(wǎng)高度發(fā)達(dá)、可發(fā)布信息源和信息渠道猛增且多元化的大背景下,信息形態(tài)變得廣泛且多模。從傳統(tǒng)的紙質(zhì)文檔,到中期的電子結(jié)構(gòu)化文檔、電子非結(jié)構(gòu)化文本,再到如今的語(yǔ)音信息、圖片信息、視頻流信息鼎立的局面,信息市場(chǎng)變得復(fù)雜而多變。

在UGC(用戶生產(chǎn)內(nèi)容)以及數(shù)據(jù)眾包生產(chǎn)的大環(huán)境下,存在廣泛的信息過載和信息混亂的問題。但情報(bào)的挖掘、信息的二次加工顯得尷尬且必須,這對(duì)數(shù)據(jù)生產(chǎn)中的數(shù)據(jù)獲取端、知識(shí)抽取環(huán)節(jié)以及業(yè)務(wù)端三個(gè)方向提出了更高的要求。

事實(shí)上,支撐起目前自然語(yǔ)言處理相關(guān)落地產(chǎn)品的數(shù)據(jù)來源大多來自開源信息情報(bào),門戶網(wǎng)站、各大垂直網(wǎng)站、論壇社區(qū)、“兩微一條”、政府報(bào)告、研究報(bào)告、政策公告、百科問答等公共數(shù)據(jù)。這為輿情監(jiān)控、事件熱點(diǎn)挖掘、智能問答、文本生成、知識(shí)圖譜可視化、風(fēng)險(xiǎn)推理等多個(gè)落地應(yīng)用帶來了諸多挑戰(zhàn)。

數(shù)據(jù)地平線充分認(rèn)識(shí)到“可信知識(shí)實(shí)證”的重要性,并在底層知識(shí)庫(kù)構(gòu)建、自然語(yǔ)言處理組件開發(fā)、產(chǎn)品應(yīng)用上引入了可信知識(shí)溯源的思想,探索形成了多個(gè)可信語(yǔ)言資源庫(kù)、知識(shí)抽取平臺(tái)、大規(guī)模事理學(xué)習(xí)系統(tǒng)以及投研邏輯管理平臺(tái)。本期圍繞“可信知識(shí)實(shí)證在UGC時(shí)代情報(bào)落地中的思考與探索”這一主題進(jìn)行分享。

一、UGC時(shí)代下的信息亂象

搜索引擎和UGC(用戶創(chuàng)作內(nèi)容)無疑是當(dāng)代生活中重要的科技力量,但它們產(chǎn)生的副作用也是客觀存在的,這直接帶來了兩個(gè)突出的問題,即信息過載以及信息模糊化。信息過載帶給用戶一種視覺上的壓迫感,而模糊化使得信息流中混雜著可信度參差不齊的元素,極大地?cái)_亂了信息市場(chǎng)的正常運(yùn)轉(zhuǎn)和人為決策。

圖1-謠言不斷的信息亂象圖

例如,新冠肺炎疫情防控過程中,關(guān)于防護(hù)措施以及感染情況的造謠傳播行為直接干擾疫情決策;杭州女子莫名失蹤案中,網(wǎng)紅蹲守事發(fā)現(xiàn)場(chǎng)直播并對(duì)案情涉及主人公進(jìn)行身份、行為猜測(cè),并發(fā)布不實(shí)信息的行為,直接妨礙公安事務(wù)管理;搜索引擎中返回用戶問題不實(shí)答案造成傷害;用戶對(duì)常用成語(yǔ)、對(duì)聯(lián)、古詩(shī)詞的篡改所引起的學(xué)生誤導(dǎo)等,明顯揭露出了當(dāng)前社會(huì)對(duì)信息可靠性的迫切需求。

謠言與辟謠兩者之間的斗爭(zhēng)在信息市場(chǎng)上頻頻上演,信息的準(zhǔn)確性、可靠性、實(shí)時(shí)性與全面性成為了目前信息處理領(lǐng)域?qū)π畔⒈旧硖岢龅乃膫€(gè)要求,這一點(diǎn),在嚴(yán)重依賴該信息而作出某種決策的行為或工作中表現(xiàn)得更為強(qiáng)烈。然而,就謠言和不實(shí)信息的斗爭(zhēng)而言,其需要花費(fèi)大量的人力、物力,并對(duì)現(xiàn)行技術(shù)提出了極高的要求,無論在內(nèi)容生產(chǎn)、內(nèi)容加工還是在內(nèi)容消費(fèi)上,“知識(shí)可靠性驗(yàn)證”的需求呼之欲出。

二、信息亂象下的情報(bào)挖掘應(yīng)對(duì)措施

在信息亂象下的大背景下,進(jìn)行情報(bào)的挖掘、信息的二次加工顯得尷尬且必須,這對(duì)數(shù)據(jù)生產(chǎn)中的各個(gè)環(huán)節(jié)的監(jiān)控提出了更高的要求:

1、 在數(shù)據(jù)獲取端引入評(píng)分和審核機(jī)制
數(shù)據(jù)獲取端還有一道前序操作,即數(shù)據(jù)的生產(chǎn)控制,這一部分質(zhì)量和可靠性的把控需要由發(fā)布平臺(tái)的機(jī)構(gòu)進(jìn)行控制,但由于這一措施需要將用戶進(jìn)行創(chuàng)作限制,并可能會(huì)因此引起部分用戶的抵觸,還需為事先制定出發(fā)布規(guī)范和懲罰措施,這一控制需要花費(fèi)大量的人力物力。有代表性的,如學(xué)術(shù)論文的寫作、眾包環(huán)節(jié)下的Wiki百科編輯等都是這一工作的典型代表。

圖2-Wiki百科中對(duì)知識(shí)信息的來源控制

在數(shù)據(jù)生產(chǎn)環(huán)節(jié)之后,許多數(shù)據(jù)獲取方式都具備限制性。這主要體現(xiàn)在對(duì)數(shù)據(jù)源的考慮上,在實(shí)際的業(yè)務(wù)場(chǎng)景中,需要充分考慮網(wǎng)站的權(quán)威性(從發(fā)布主體性質(zhì)、發(fā)布主體的發(fā)布行為)、網(wǎng)站的安全性、網(wǎng)站來源的數(shù)據(jù)規(guī)模等多個(gè)因素。典型地,在具體實(shí)施的過程中,會(huì)請(qǐng)相關(guān)業(yè)務(wù)專家通過對(duì)網(wǎng)站的建模結(jié)果中對(duì)網(wǎng)站進(jìn)行打分,并從中選擇得分較高的數(shù)據(jù)源(若國(guó)家政府部門、意見領(lǐng)袖等)作為目標(biāo)數(shù)據(jù)源,或者將得分作為一個(gè)知識(shí)置信度計(jì)算因子融入到結(jié)構(gòu)化知識(shí)的打分模型當(dāng)中。

2、 在抽取環(huán)節(jié)加入知識(shí)校驗(yàn)和過程數(shù)據(jù)關(guān)聯(lián)組件
知識(shí)抽取是對(duì)信息進(jìn)行挖掘,也是保證知識(shí)準(zhǔn)確性和可靠性最關(guān)鍵,也是難度最大的環(huán)節(jié),主要體現(xiàn)在對(duì)原始真實(shí)內(nèi)容的還原、數(shù)據(jù)內(nèi)容真假性甄別、數(shù)據(jù)內(nèi)容的算法抽取可靠性三個(gè)方面。

首先,對(duì)原始真實(shí)內(nèi)容的還原,指的是對(duì)所獲取到的多源異構(gòu)文本的內(nèi)容處理上。在工業(yè)場(chǎng)景中,會(huì)經(jīng)常遇到圖片型pdf、文本型pdf、docx、ppt、純文本等文本格式,mp3、wav等音頻格式,mp4、rmvb等視頻格式,如何通過格式轉(zhuǎn)換、版式分析以及文字流轉(zhuǎn)寫等方式將原始文本中的信息準(zhǔn)確、完整的整理輸出,十分重要。例如,進(jìn)行pdf處理過程中,常處理表格合并、段落合并,網(wǎng)頁(yè)文本處理中常需要處理噪聲標(biāo)簽的干擾去除等,OCR處理中常常存在偏差,這都使得原始真實(shí)內(nèi)容上存在誤差。

在這里插入圖片描述

圖3-pdf文檔內(nèi)容還原中的表格問題

其次,針對(duì)數(shù)據(jù)內(nèi)容真假性甄別,是在進(jìn)行原始內(nèi)容抽取后需要準(zhǔn)確處理的一道工序。在數(shù)據(jù)內(nèi)容真假上,存在通過人工構(gòu)造謊言和謠言數(shù)據(jù)集進(jìn)行訓(xùn)練,形成分類模型的工作,但這一工作受限于訓(xùn)練語(yǔ)料的規(guī)則,效果會(huì)受到很大限制。

另一個(gè)工作是真假性核查的工作,例如,在進(jìn)行金融文檔核查過程中,借助數(shù)據(jù)指標(biāo)知識(shí)、跨篇章文本之間的關(guān)聯(lián)關(guān)系等外部消息,以及內(nèi)部文本上下文之間的勾稽關(guān)系對(duì)內(nèi)部文本的準(zhǔn)確性進(jìn)行核查,也可以引入成立性規(guī)則與外部常識(shí)知識(shí)庫(kù)的方式進(jìn)行準(zhǔn)確性校驗(yàn)。

圖4-pdf文檔真實(shí)性審查中的數(shù)據(jù)真實(shí)性校驗(yàn)

最后,在數(shù)據(jù)內(nèi)容的算法抽取可靠性的把控上,引入迭代模型,實(shí)現(xiàn)遞增式學(xué)習(xí),在抽取過程中,充分重視人機(jī)協(xié)作的方式,開發(fā)各類的數(shù)據(jù)觀察工作、數(shù)據(jù)校驗(yàn)工具、錯(cuò)誤歸因工具、錯(cuò)誤解釋工具以及回歸測(cè)試工具等,使系統(tǒng)可配置。同樣地,過程文本數(shù)據(jù)也重要,在算法進(jìn)行知識(shí)抽取的環(huán)節(jié)中,應(yīng)該將該結(jié)構(gòu)化知識(shí)來源的各項(xiàng)元數(shù)據(jù)信息進(jìn)行記錄和關(guān)聯(lián),這一關(guān)聯(lián)的操作能夠給后續(xù)的業(yè)務(wù)開展留出較高的可擴(kuò)展性和靈活性。

3、 在業(yè)務(wù)端調(diào)整知識(shí)交互形式與用戶反饋接口
知識(shí)交互形式與用戶反饋接口的建立是業(yè)務(wù)端進(jìn)行調(diào)整的一個(gè)可行方向,雖然這在具體實(shí)施上會(huì)因業(yè)務(wù)而異。知識(shí)的可靠性、實(shí)時(shí)性和全面性是制約知識(shí)應(yīng)用的重要因素,在充分承認(rèn)現(xiàn)有自然語(yǔ)言處理知識(shí)抽取技術(shù)還不成熟的現(xiàn)實(shí)條件下,需要在技術(shù)現(xiàn)有情況和用戶需求這一天平中選擇一個(gè)平衡點(diǎn),即在用戶端和產(chǎn)品展示端之間的一個(gè)信任支點(diǎn)。

將抽取過程、展示過程以及推理決策過程透明化是取信用戶的一條可行方式,這與現(xiàn)在知識(shí)可解釋性上存在某種關(guān)聯(lián)。例如,在結(jié)構(gòu)化搜索場(chǎng)景中,將已給出結(jié)構(gòu)化知識(shí)的關(guān)聯(lián)來源信息、評(píng)分信息進(jìn)行關(guān)聯(lián)展示,并讓用戶參與對(duì)評(píng)分或結(jié)果的標(biāo)記,這能夠使得這層信任逐步建立起來。采用這種人機(jī)協(xié)作,機(jī)器負(fù)責(zé)推薦并透明化,用戶負(fù)責(zé)對(duì)結(jié)果進(jìn)行自行判定和干預(yù),無論對(duì)于系統(tǒng)自身,還是對(duì)于業(yè)務(wù)的推進(jìn)來說,都是大有裨益的。

三、基于多環(huán)節(jié)可信知識(shí)溯源的大規(guī)模實(shí)時(shí)事理學(xué)習(xí)系統(tǒng)

知識(shí)溯源是有效減輕當(dāng)前輸入數(shù)據(jù)源不準(zhǔn)確的重要途徑,從底層數(shù)據(jù)獲取中引入數(shù)據(jù)源的評(píng)分機(jī)制,并使用可解釋程度高的語(yǔ)言資源和處理組件,在多環(huán)節(jié)中確保知識(shí)可信。

數(shù)據(jù)地平線一直致力于可信的底層語(yǔ)言資源建設(shè)。一方面,我們建成了可信度較高的基礎(chǔ)語(yǔ)言知識(shí)庫(kù),包括幾十個(gè)種類的領(lǐng)域詞典、詞法和句法規(guī)則庫(kù)、基礎(chǔ)知識(shí)圖譜等。其中,同義知識(shí)庫(kù)、概念知識(shí)庫(kù)、抽象知識(shí)庫(kù)、事理知識(shí)庫(kù)等知識(shí)庫(kù)已部分對(duì)外開放。另一方面,我們建設(shè)了可信知識(shí)抽取過程中所需要的自然語(yǔ)言處理平臺(tái),如數(shù)地工場(chǎng)。

圖5-可信模式下的知識(shí)處理平臺(tái)-數(shù)地工場(chǎng)

基于可信的基礎(chǔ)語(yǔ)言知識(shí)庫(kù)和文本處理組件,我們?cè)诖笠?guī)模實(shí)時(shí)事理學(xué)習(xí)系統(tǒng)“學(xué)跡”中引入了動(dòng)態(tài)知識(shí)可溯源的展示模式。其核心思想在于:在返回用戶所檢索字符串關(guān)聯(lián)知識(shí)的基礎(chǔ)上,從知識(shí)可信度評(píng)分、知識(shí)存現(xiàn)出處(句子級(jí))兩個(gè)角度,結(jié)合動(dòng)態(tài)友好的交互方式,做到“來源可查”、“可信量化”、“精確到句”、“一觸即達(dá)”。如下圖所示,給出了“新冠肺炎疫情蔓延”在基于開源情報(bào)數(shù)據(jù)中得到的結(jié)構(gòu)化事理知識(shí)的結(jié)果。

在這里插入圖片描述

圖6-學(xué)跡搜索結(jié)果中的知識(shí)實(shí)證截圖

為此,數(shù)據(jù)地平線為此設(shè)計(jì)了一套可靠的知識(shí)可信度評(píng)分算法。隨著信息源不斷增加,先前學(xué)習(xí)到的知識(shí)的可信度會(huì)被不斷更新,錯(cuò)誤結(jié)果的權(quán)重被自動(dòng)糾正,根據(jù)可信度排序,可以看到“學(xué)跡”最有把握的知識(shí)。

同樣,數(shù)據(jù)地平線嘗試了一種友好的方式來最大化地展示事理學(xué)習(xí)的動(dòng)態(tài)過程。我們用連線和層級(jí)表示的方式,為每條知識(shí)都提供可視化的學(xué)習(xí)實(shí)證,從中可以看到知識(shí)的創(chuàng)造者、知識(shí)的創(chuàng)造時(shí)間、知識(shí)出現(xiàn)的上下文,知識(shí)學(xué)習(xí)來源的評(píng)分。

四、人機(jī)協(xié)作和實(shí)證模式下的投研邏輯管理平臺(tái)

數(shù)據(jù)地平線在金融事理圖譜以及金融領(lǐng)域的業(yè)務(wù)和技術(shù)沉淀,推出了一款基于人機(jī)協(xié)作和實(shí)證模式的投研管理平臺(tái)“投研云圖”。

投研云圖平臺(tái)是一款面向投資研究人員的邏輯圖譜創(chuàng)建、管理和研究工具,通過結(jié)合大規(guī)模數(shù)據(jù)采集技術(shù),事理邏輯抽取、知識(shí)圖譜、情感分析等自然語(yǔ)言處理技術(shù)以及用戶可視化交互等技術(shù),以機(jī)器智能推薦輔助、人工自定義編輯相結(jié)合的人際協(xié)作交互方式,從而支持投資邏輯圖譜的創(chuàng)建、共享、管理、應(yīng)用等服務(wù)。

圖7-投研云圖的用戶場(chǎng)景截圖

“人機(jī)協(xié)作”和“知識(shí)實(shí)證”是投研云圖思想的兩個(gè)基本核心點(diǎn),從消息面和數(shù)據(jù)面兩個(gè)角度出發(fā),完成研究邏輯的自管理。在具體實(shí)現(xiàn)上:

首先,在底層可信知識(shí)的構(gòu)建環(huán)節(jié),依托后臺(tái)面向開源情報(bào)挖掘形成的事理圖譜、產(chǎn)業(yè)鏈圖譜數(shù)據(jù),也可根據(jù)用戶自定義自有文本,自動(dòng)挖掘形成相關(guān)結(jié)構(gòu)化知識(shí),完成海量實(shí)證邏輯知識(shí)自動(dòng)構(gòu)建。

其次,在人機(jī)交互方式的邏輯鏈條構(gòu)建環(huán)節(jié),基于事理圖譜知識(shí)庫(kù),結(jié)合底層推薦組件,以實(shí)證的方式推薦給用戶,并使得用戶可以根據(jù)自己的主觀判斷,結(jié)合關(guān)聯(lián)的實(shí)證信息,快速地完成事件、行業(yè)數(shù)據(jù)、產(chǎn)業(yè)鏈三個(gè)層面的推薦,完成基于海量實(shí)證邏輯知識(shí)庫(kù)的潛在事件推薦和行業(yè)數(shù)據(jù)推薦。

最后,在利用人機(jī)交互完成邏輯知識(shí)庫(kù)的自動(dòng)構(gòu)建之后,可實(shí)現(xiàn)基于海量實(shí)證邏輯知識(shí)庫(kù)的歷史實(shí)證展示、基于自建領(lǐng)域事理的邏輯監(jiān)測(cè)等多個(gè)功能。

投研云圖平臺(tái)的核心目標(biāo)是構(gòu)建一個(gè)以現(xiàn)有自然語(yǔ)言處理技術(shù)為核心的機(jī)器智能輔助、人工編輯為主的領(lǐng)域邏輯知識(shí)管理的監(jiān)測(cè)預(yù)警平臺(tái),以滿足各行業(yè)邏輯知識(shí)的創(chuàng)建、積累和管理。知識(shí)的可信、可控、通過實(shí)證方式輔助用戶進(jìn)行自查、自管理是其中的核心。

五、總結(jié)

支撐目前自然語(yǔ)言處理相關(guān)落地產(chǎn)品的數(shù)據(jù)來源,大多來自開源信息情報(bào)、門戶網(wǎng)站、各大垂直網(wǎng)站、論壇社區(qū)、“兩微一條”、政府報(bào)告、研究報(bào)告、政策公告、百科問答等公共數(shù)據(jù),這為輿情監(jiān)控、事件熱點(diǎn)挖掘、智能問答、文本生成、知識(shí)圖譜可視化、風(fēng)險(xiǎn)推理等多個(gè)落地應(yīng)用帶來了諸多挑戰(zhàn)。

為了應(yīng)對(duì)這一挑戰(zhàn),從經(jīng)驗(yàn)上來說,可以在數(shù)據(jù)獲取端引入評(píng)分和審核機(jī)制,在抽取環(huán)節(jié)加入知識(shí)校驗(yàn)和過程數(shù)據(jù)關(guān)聯(lián)組件,對(duì)原始真實(shí)內(nèi)容的還原、數(shù)據(jù)內(nèi)容真假性甄別、數(shù)據(jù)內(nèi)容的算法抽取可靠性等三個(gè)方面作相應(yīng)工作。

數(shù)據(jù)地平線充分認(rèn)識(shí)到了“可信知識(shí)實(shí)證”的重要性,并在底層知識(shí)庫(kù)構(gòu)建、自然語(yǔ)言處理組件開發(fā)、產(chǎn)品應(yīng)用上引入了可信知識(shí)溯源的思想,探索形成了多個(gè)可信語(yǔ)言資源庫(kù)、知識(shí)抽取平臺(tái)、大規(guī)模事理學(xué)習(xí)系統(tǒng)、投研邏輯管理平臺(tái)。

在大規(guī)模事理學(xué)習(xí)系統(tǒng)“學(xué)跡”中,數(shù)據(jù)地平線設(shè)計(jì)了一套可靠的知識(shí)可信度評(píng)分算法,并嘗試了一種友好的方式來最大化地展示事理學(xué)習(xí)的動(dòng)態(tài)過程。

投研邏輯管理平臺(tái)“投研云圖”以現(xiàn)有自然語(yǔ)言處理技術(shù)為核心的機(jī)器智能輔助、人工編輯為主進(jìn)行領(lǐng)域邏輯知識(shí)管理的監(jiān)測(cè)預(yù)警,知識(shí)的可信、可控、通過實(shí)證方式輔助用戶進(jìn)行自查、自管理是其中的根本核心點(diǎn)。

參考
1.數(shù)據(jù)地平線:https://datahorizon.cn
2.數(shù)地工場(chǎng):https://nlp.datahorizon.cn
3.學(xué)跡:https://xueji.datahorizon.cn
4.投研云圖:https://yuntu.datahorizon.cn
5.https://zh.wikipedia.org/wiki/天問一號(hào)

If any question about the project or me ,see https://liuhuanyong.github.io/.
如有自然語(yǔ)言處理、知識(shí)圖譜、事理圖譜、社會(huì)計(jì)算、語(yǔ)言資源建設(shè)等問題或合作,可聯(lián)系我:
1、我的github項(xiàng)目介紹:https://liuhuanyong.github.io
2、我的csdn技術(shù)博客:https://blog.csdn.net/lhy2014
3、我的聯(lián)系方式: 劉煥勇,中國(guó)科學(xué)院軟件研究所,lhy_in_blcu@126.com.
4、我的共享知識(shí)庫(kù)項(xiàng)目:劉煥勇,數(shù)據(jù)地平線,http://www.openkg.cn/organization/datahorizon.
5、我的工業(yè)項(xiàng)目:劉煥勇,數(shù)據(jù)地平線,大規(guī)模實(shí)時(shí)事理學(xué)習(xí)系統(tǒng):https://xueji.datahorizon.cn.
6、我的工業(yè)項(xiàng)目:劉煥勇,數(shù)據(jù)地平線,面向事件和語(yǔ)義的自然語(yǔ)言處理工具箱:https://nlp.datahorizon.cn

總結(jié)

以上是生活随笔為你收集整理的可信知识实证在UGC时代情报应用中的思考与探索的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。