日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

领域应用 | 完备的娱乐行业知识图谱库如何建成?爱奇艺知识图谱落地实践

發布時間:2024/7/5 编程问答 38 豆豆
生活随笔 收集整理的這篇文章主要介紹了 领域应用 | 完备的娱乐行业知识图谱库如何建成?爱奇艺知识图谱落地实践 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

轉載公眾號 | 愛奇藝技術產品團隊?


2012年5月16日,谷歌首次正式提出了知識圖譜的概念,希望利用結構化知識,來增強搜索引擎,提高搜索質量和用戶體驗。

也就是說,從誕生之日起,知識圖譜就和搜索引擎密不可分。

隨著大數據時代的到來和人工智能技術的進步,知識圖譜的應用邊界被逐漸拓寬,越來越多的企業開始將知識圖譜技術融入其已經成型的數據分析業務。目前知識圖譜已成為人工智能領域的重要分支,在搜索、自然語言處理、智能助手等領域發揮著重要作用。

愛奇藝搜索團隊早在2015年就開始著手搭建自己的知識圖譜庫——奇搜知識圖譜庫。本文將講述奇搜知識圖譜的構建過程,及其在愛奇藝搜索、NLP服務中的具體應用

01

什么是知識圖譜?

谷歌發布的文檔的描述中,知識圖譜是一種用圖模型來描述知識和建模世界萬物之間關聯關系的技術方法。本質上,知識圖譜是一種揭示實體之間關系的語義網絡,可以對現實世界的事物及其相互關系進行形式化地描述。

在知識圖譜里,我們通常用“實體(Entity)”來表達圖里的節點、用“關系(Relation)”來表達圖里的“邊”。實體指的是現實世界中的事物比如人、地名等,關系則用來表達不同實體之間的某種聯系,比如人-“居住在”-北京、張三和李四是“朋友”、邏輯回歸是深度學習的“先導知識”等等。

現實世界中的很多場景非常適合用知識圖譜來表達。 比如一個社交網絡圖譜里,我們既可以有“人”的實體,也可以包含“公司”實體。人和人之間的關系可以是“朋友”,也可以是“同事”關系。人和公司之間的關系可以是“現任職”或者“曾任職”的關系。

02

?奇搜知識圖譜的構建

愛奇藝搜索(奇搜)作為國內最大的視頻搜索引擎之一,致力于為用戶提供優質的全網視頻、娛樂領域的搜索服務。

當傳統的文本檢索搜索方式不能滿足給用戶提供更為精準和智能的搜索體驗的目標時,為了豐富用戶視頻娛樂搜索結果、為了對用戶搜索意圖實現精準理解與直觀回答,奇搜團隊努力完善對視頻內容的理解、對用戶意圖的理解,并在過程中構建了以視頻領域為主的知識圖譜庫。

在經歷幾個版本的迭代后,目前的奇搜知識圖譜的構建流程主要分為知識表示與建模、知識獲取、知識融合、知識存儲、知識應用(知識查詢與推理)幾個步驟和模塊,下面我們一一予以介紹。

2.1?知識表示和建模

構建知識圖譜之前,首先需要確認知識的建模表示方式。目前主要的知識建模方式有兩種:

(1)先為知識圖譜設計數據模式(schema),再依據設計好的數據模式進行有針對性的數據抽取,這是自頂向下的數據建模方法;

(2)先進行數據的收集和整理,再根據數據內容總結、歸納其特點,提煉框架,逐步形成確定的數據模式,這是自底向上的數據建模方法。

愛奇藝奇搜知識圖譜的構建采用的是自頂向下的建模方式,圖譜Schema定義基于RDF三元組、以及RDFS的規則

RDF(Resource Description Framework),即資源描述框架,實際上是一種數據模型,由一系列的陳述即“對象-屬性-值”三元組組成。

Triples:[S, P, O]?

RDF用Subject,Predicate,Object三元組與原陳述的三個部分聯系起來。

主體(subject):聲明被描述的事物

謂詞(predicate):這個事物的屬性

客體(object):這個屬性的值

一個三元組就是一個關系。在RDF里我們可以聲明一些規則,從一些關系推導出另一些關系。這些規則我們稱為“schema”,所以有了 RDFS(RDF Schema)。這些規則用一些詞匯(可以類比編程語言里的保留字,不過RDF里任何詞匯都可以被重定義和擴展)表示,如常用的規則subClassOf,表示父類子類的關系。

愛奇藝基于RDF/RDFS定義了圖譜的實體類型、關系(屬性)類型、以及實體本身的schema定義。如下圖中,Rules層,是一些基礎概念的定義,包括RDF/RDFS已有的定義及基于RDF/RDFS定義的、供實體類型/屬性定義使用的規則定義,該層規則的定義一般在確定后是不可變的。本體定義層,包括可實例化的實體類型(可繼承)和屬性(可繼承)的定義,如Thing,Person,wife,name等。實體層,保存在我們的實體庫中的具體實體。每一層定義在schema的表示語法上都是一致的。

為了幫助定義和使用圖譜schema(主要是上圖中的本體定義層),愛奇藝開發了一套schema系統來負責管理、解析奇搜知識圖譜的schema定義:

最終定義的實體類型的繼承關系片段示例如下圖:

2.2 知識獲取

在知識圖譜中,數據扮演著底部基石的作用。知識圖譜是源于數據的,是從數據中抽取結構化信息,數據的好壞直接關系到知識圖譜構建的效率和質量。比如從結構化的數據中構建知識圖譜會比從非結構化的數據中構建效率和準確率要高,數據越復雜,噪音越大,構建成本也就越高。

知識獲取是構建知識圖譜的核心與前提條件,也是自動構建知識圖譜最關鍵的影響要素和重點研究領域。我們經過各種嘗試后,目前奇搜知識圖譜的數量來源除去人工創建的數據外,主要有以下站內、垂直網站與百度百科三種數據來源:

來源優勢劣勢
站內數據結構化好、類別明確、易于獲取類型有限,且有的數據類型只是站內已有的數據,并不是廣義上的知識類型
垂直網站數據類別明確獲取和解析成本高,數據質量層次不齊
百度百科數據數據量大,內容豐富。是目前主要的數據來源沒有分類信息,結構不完全固定

2.2.1 實體分類

實體分類主要針對百度百科的數據,因為百度百科的數據沒有類別信息,需要先對詞條進行實體類型的識別。具體實現是為每種實體類型訓練一個實體分類器,準確率可衡量,并且互不影響,可以快速拓展。

分類器的模型生成是通過啟發式方法,構建基于規則池的分類器,生成訓練數據,訓練DNN模型(self-attention)文本分類模型,DNN分類器與規則分類器互相擴充迭代(一到兩輪),最終線上使用規則分類器。生成過程中會用上百科詞條中的描述文本、infobox字段、超鏈接詞條、詞條標簽等信息作為特征。

2.2.2 實體抽取

實體抽取是指從數據中的識別和抽取實體的屬性與關系信息。對不同類型與不同數據源分別開發屬性、關系抽取腳本進行數據抽取,由易到難主要包括以下三類抽取方式:

(1)結構化數據抽取:

大部分站內、垂直網站的信息,以及部分百度百科的信息是結構化的數據,這類數據的信息比較易于抽取。但因為源數據結構和實體類型定義(即目標數據結構)多種多樣,為了提高開發效率,我們將結構化數據的抽取過程進行抽象,將抽取的流程寫成統一的框架,利用策略模式將抽取的具體規則用groovy腳本來實現。當擴展新的來源和目標實體類型時,只需實現新的抽取腳本。

(2)半結構化數據抽取:

百度百科中存在很多表格、列表等半結構化信息,因為格式不完全規則,所以抽取有一定難度。但有的半結構化信息中存在一些質量較高的統計性的數據。對于這類數據,我們采用基于有監督學習的包裝器歸納方法進行抽取。

(3)文本數據挖掘:

百度百科以及站內的描述等大量文本中也存在有很多寶貴的信息,對于這類數據的實體挖掘,需要借助NLP(自然語言處理)的手段。這里主要用到了我們的NLP團隊提供的實體識別等服務。一方面通過實體鏈接服務把從文本中抽取得到的實體對象,鏈接到實體庫中對應的正確實體對象,以挖掘文本中關系。另一方面利用實體識別技術來識別來挖掘文本中的實體。

2.3 知識融合

知識融合主要是實體對齊(Object Alignment),旨在發現具有不同ID但卻代表真實世界中同一對象的那些實體,并將這些實體歸并為一個具有全局唯一標識的實體對象添加到知識圖譜中。

我們的實體數據有不同的來源,而且在同一來源中,也可能存在實際是同一實體的多條數據。

上圖是我們實體對齊的流程圖。首先我們所有來源的實體數據都會進入原始實體庫(RawEntity庫),并且對原始表中的數據建立索引。當一個原始實體rawEntity入最終實體庫之前,要在原始實體庫中找是否有其它原始實體和rawEntity實際上是同一個實體。步驟是首先在索引中根據名字、別名等字段查詢出若干個可能是相同實體的候選列表,這個步驟的目的是減少接下來流程的計算量。然后經過實體判別模型,根據模型得分識別出待合并對齊的原始實體,最后經過屬性融合模型,將各原始實體的屬性字段進行融合,生成最終的實體。這個流程中的合并判斷模型實際上是通過機器學習訓練生成的二分類器。

2.4 知識存儲

我們在線上使用的圖數據庫引擎選擇了JanusGraph。JanusGraph需要外部的存儲系統與外部索引系統的支持。所以我們借助公司云平臺的Hbase和ES集群,搭建了自己的JanusGraph分布式圖數據庫引擎,支持在線游走查詢服務。

03

奇搜知識圖譜的應用

3.1 問答式搜索服務

基于圖數據庫引擎提供的查詢服務,以及NLP技術對用戶query的意圖理解,我們提供了多種類型的問答式搜索結果服務。包括明星、劇集的屬性類的查詢:XXX的生日、XXX劇的播出時間等,以及實體的關系類的查詢:明星的關系(如“王菲的前夫的女兒”)、劇集與明星/角色的關系(如“覺醒年代演員表”)、劇集間的關系(如“覺醒年代片花”)、以及各種關系的組合(如“小燕子扮演者還演過”)等等。如:

3.1.1 智能問答

3.1.2 關系查詢

3.1.3 劇集周邊

3.1.4 關系組合

3.2 基礎數據

奇搜知識圖譜的實體庫作為基礎數據被用于NLP團隊提供的分詞和實體識別、意圖識別等服務也在明星圖譜等業務場景下直接展示。

3.2.1 分詞實體識別

3.2.2 明星圖譜展示

3.3?標簽挖掘

利用知識圖譜數據可以幫助建立和完善標簽體系,以及挖掘視頻數據上的標簽,同時標簽體系也可以反過來豐富知識圖譜。

我們利用推理等技術對知識圖譜進行挖掘。推理功能一般通過可擴展的規則引擎來完成。包括屬性的推理,如根據出生年月推理出年齡、星座等屬性,以及關系的推理,如根據已有的妻關系子推理出反向丈夫關系,根據兒子的兒子鏈式關系推理出孫子關系等。

視頻上的標簽與圖譜實體進行映射之后,相似的推理過程也可用于視頻標簽的擴展,主要用到實體的上下位詞、屬于、包含等關系。

另外也可用Graph Embedding等技術擴展同類型的關聯性強的實體。

下面是一些標簽挖掘的線上應用實例:

滑動查看更多

04

總結

以上是奇搜知識圖譜的構建和在搜索中應用的介紹。我們可以看出,經過幾年的努力,奇搜知識圖譜已經被打造成為了完備的娛樂行業知識圖譜庫。

傳統的視頻搜索通過為整段視頻添加文字標簽,并與用戶搜索信息匹配完成搜索,搜索原理與傳統文字搜索相同。伴隨著奇搜知識圖譜的發展,全新的娛樂搜索功能給用戶帶來了更佳的搜索體驗。知識圖譜在幫助用戶精確找到想要的內容、回答用戶問題、以及理解用戶搜索意圖方便都發揮了巨大的作用。隨著視頻內容理解和視頻知識圖譜庫的不斷完善,未來,用戶觀看視頻將像使用文字一樣輕松便捷,對于視頻搜索、互動的想象空間也在不斷清晰。

近年來人工智能技術的飛速發展,給知識圖譜的應用帶來了更多的可能性,我們也會在知識圖譜在搜索、推薦等領域的新的應用進行更多的探索。


?

OpenKG

OpenKG(中文開放知識圖譜)旨在推動以中文為核心的知識圖譜數據的開放、互聯及眾包,并促進知識圖譜算法、工具及平臺的開源開放。

點擊閱讀原文,進入 OpenKG 網站。

創作挑戰賽新人創作獎勵來咯,堅持創作打卡瓜分現金大獎

總結

以上是生活随笔為你收集整理的领域应用 | 完备的娱乐行业知识图谱库如何建成?爱奇艺知识图谱落地实践的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 动漫av网站免费观看 | 在线观看欧美一区二区 | 日韩中文字幕一区二区三区 | 绿帽在线| 亚洲一级片在线播放 | 国产不卡在线 | 偷拍亚洲色图 | 欧美大黄 | 成人午夜免费福利视频 | 人妻无码中文久久久久专区 | 日韩高清不卡在线 | 国产婷婷一区二区三区 | 日韩欧美国产片 | 精品人妻无码中文字幕18禁 | 午夜电影在线播放 | 国产五月天婷婷 | 少妇裸体挤奶汁奶水视频 | 农村妇女精品一区二区 | 清纯唯美亚洲 | 久久久久亚洲av成人无码电影 | 久久久久这里只有精品 | 成人做爰视频www | 久久久区| 好男人天堂网 | 亚洲精品福利在线观看 | 久久久久99精品成人片我成大片 | 国产一av | 天天都色 | 双女主黄文| 久久影院一区 | 神马午夜影院 | 电影《走路上学》免费 | 亚洲视频在线观看一区二区三区 | 国产精品九九热 | 91蝌蚪网| 青青草激情 | www.com黄色 | 吃瓜网今日吃瓜 热门大瓜 色婷在线 | gogo亚洲国模私拍人体 | 天天综合色 | 欧美第一页在线 | 欧美日韩国产成人精品 | 91成人免费在线视频 | aa黄色片 | 一卡二卡在线观看 | 免费观看毛片视频 | 中文字幕成人av | 亚洲av综合av一区二区三区 | 精品一区二区三区视频在线观看 | 狠狠天天 | 午夜电影福利网 | 日韩黄色录像 | 国产精品中文久久久久久 | 午夜视频久久 | 国产人成| 久久综合综合久久 | 少妇一晚三次一区二区三区 | 亚洲精品视频国产 | 激情久| 国产经典久久 | 亚洲免费观看高清完整 | 亚洲av色香蕉一区二区三区 | 国产在线你懂得 | 日本va欧美va精品发布 | 大地资源在线观看免费高清版粤语 | 天堂中文在线播放 | 欧美黄色三级视频 | 麻豆视频在线播放 | 182tv午夜福利在线观看 | 草草屁屁影院 | 揉我啊嗯~喷水了h视频 | 久久综合久色欧美综合狠狠 | 污污在线看 | www.亚洲欧美 | 天天天操操操 | 久久人人爽爽 | 91久久精品www人人做人人爽 | 四虎激情 | 欧美精品在欧美一区二区少妇 | 狠狠躁日日躁夜夜躁 | av免播放器 | 欧美专区综合 | 国产乱乱 | 欧美日韩一区二区三区不卡 | 大白屁股一区二区视频 | 怡春院欧美 | 国产又粗又大又黄 | 茄子av | 中文在线√天堂 | 香蕉a视频 | 无码精品国产一区二区三区免费 | 天堂av资源网| 日本在线不卡一区二区三区 | 日美一级片| 精品久久五月天 | 一级特黄aaa大片 | 清纯唯美第一页 | 欧美黄片一区二区三区 | 日韩在线不卡视频 |