知识图谱学习小组学习大纲
(這是為北京知識學習小組第一期 kgbj1 準備的為期4周的學習大綱)
2016年6月3日
鮑捷
這個學習小組的目的,不是按教科書的定義去學習“知識圖譜”,更不是做研究。我們更多是要去解決問題,而不是研究方法。傳統的“知識圖譜”(Knowledge Graph),“鏈接數據”(Linked Data),“語義網”(Semantic Web),”知識提取”(Knowledge Extraction),等等技術,到底在實戰中要解決的是什么問題?要解決這些問題是不是可以用相對簡單的方法?能不能用廉價的方法盡可能快地解決有代表性的問題?這是這個學習小組的目的。
知識圖譜是一種結構化數據的處理方法,它涉及知識的提取、表示、存儲、檢索等一系列技術。從淵源上講,它是知識表示與推理、數據庫、信息檢索、自然語言處理等多種技術發展的融合。在短短的四周內,顯然不可能涉獵所有上述領域。而且作為一個以自學為主的學習小組(而非集中強化的學習班),也不可能學習太深。所以學習小組更多只是提供一種思路,讓大家覺得知識圖譜并不神秘,不是大公司的專利,自己也可以做一點點小事,不必拘泥于特定的方法。
以應用為導向,盡可能降低工程的風險,就決定了我們非常關注成本,盡可能依賴成熟的技術。因此,在內容選擇上,有人可能會覺得“這也配叫知識圖譜”?但是過去十多年的實踐中,我們已經看到太多的工程因為教條而失敗。我們不應該盲目追求技術的先進性或者新穎性,而是應以業務為目標,用知識圖譜的原則而非具體的教條去解決問題。
因此,在這四周里,我們是要通過一些具體的小問題的學習,來體會知識圖譜的核心理念。我們會優先使用傳統的成熟技術,并把它們和前沿(通常也是高風險、不成熟)技術比較,來比較這些理念不同的實踐路徑。同一個問題,同一個理念,可以根據實際情況有不同的實現。我們要掌握的,是這些理念,并在今后的實踐中發現新的實現方法。
這四周的安排,就是依次接觸知識圖譜四個領域的一些核心理念。每周我們會安排線上的自學和一次線下的聚會。在線下聚會上,我們會解答大家的疑問,并邀請領域專家和大家分享該周話題上的工程實戰經驗。
第一周:知識提取
詳細提綱:?第一期w1:知識提取
知識提取是要解決結構化數據生成的問題。但是廣義上講,知識提取是數據質量提升中的一環,各種提升數據質量的方法,都可以視為某種知識提取。學術上一般是用自然語言處理的方法,但在實踐中通常是利用規則。
我們要熟悉的概念和工具有
× 正則表達式
× 中文分詞和詞性標注
× 命名實體識別
作業:綜合分詞工具和正則表達式提取郵件簽名檔
第二周:知識表示
詳細提綱:?第一期w2:知識表示
知識表示是如何組織數據的結構,以方便推導出新的結構的方法。傳統上屬于邏輯的分支,但在實踐中我們會用很簡單、可讀、可維持的數據結構。
× JSON和YAML
× RDF和OWL
× JSON-LD
作業:自己設計電子郵件的結構化表示
第三周:知識存儲
詳細提綱:?第一期w3:知識存儲
知識存儲解決如何管理大量的結構化數據。我們可以用不同的數據庫工具。現代的關系數據庫可能可以解決大多數需要知識圖譜的場合。某些特殊場合,我們需要圖數據庫。
× 知識鏈接的方式:字符串、外鍵、URI
× PostgreSQL及其JSON擴展
× 圖數據庫 Neo4j和OrientDB
× RDF數據庫Stardog
作業:選擇一種數據庫存儲自己的電子郵件
第四周:知識檢索
詳細提綱:?第一期w4:知識檢索
知識檢索提供對用戶友好的交互。知識檢索從簡單到復雜可分為六級:關鍵詞、詞聯想、詞本體、短程關系、長程關系、自由問答。我們會實踐前兩個層次的技術,并了解后面四個層次。
× Gensim實現主題模型
× ElasticSearch
× SearchKit構造分面瀏覽器
× IBM Watson的架構 作業:瀏覽和檢索自己的電子郵件
(具體的內容鏈接和作業內容會在下周細化)
第一期學習小組的班長是杜會芳(中國農業大學,?duhuifang@memect.co?)。有問題可以聯系我(?baojie@memect.co?) 和班長。
謝謝大家的參與。期待和你度過富有挑戰的四周。
https://github.com/memect/kg-beijing/wiki/%E7%9F%A5%E8%AF%86%E5%9B%BE%E8%B0%B1%E5%AD%A6%E4%B9%A0%E5%B0%8F%E7%BB%84%E5%AD%A6%E4%B9%A0%E5%A4%A7%E7%BA%B2
總結
以上是生活随笔為你收集整理的知识图谱学习小组学习大纲的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 直击Titan图数据库:如何提升25%+
- 下一篇: 【译】Advanced Blockcha