日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

基于携程游记的出行领域顺承事件图谱项目

發布時間:2024/7/5 编程问答 33 豆豆
生活随笔 收集整理的這篇文章主要介紹了 基于携程游记的出行领域顺承事件图谱项目 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

EvolutionaryEventGraph

項目地址:https://github.com/liuhuanyong/SequentialEventExtration
Evolutionary Event Graph based on Travel note crawled from XieCheng,基于50W攜程出行攻略的順承事件抽取與事件圖譜構建.

項目來源

目前,以謂詞性短語作為事件表示的方法方興未艾,針對特定領域,構建起特定領域的順承事件圖譜,可以支持事件推理,基于事件的意圖識別與推薦等多項運用.
本項目將從出行領域展開進行實驗.

項目構成

本項目由兩個部分的組成,具體包括語料的獲取以及基于語料的事件挖掘兩個部分,具體項目目錄包括:
news_spider:基于scrapy的游記采集腳本
event_graph:基于依存句法與順承模式的順承事件抽取腳
image:游記順承事件圖譜效果圖

一 出行領域語料的獲取

  • 語料來源:攜程出行攻略

  • 時間范圍:2018年7月14日之前

  • 采集方式:使用scrapy編寫爬蟲腳本進行抓取

  • 采集規模:共采集505767篇,量級50W

  • 采集腳本目錄:news_spider/travelspider

  • 語料舉例:

    107330 一路向南——第二篇相逢南通(自駕游) - 游記攻略【攜程攻略】107331 彩云之南—云上的蜜月之旅 - 麗江游記攻略【攜程攻略】107332 甘肅游記之瑪曲郎木寺 - 碌曲游記攻略【攜程攻略】107333 拍客白沙行 - 舟山游記攻略【攜程攻略】107334 九華山-沐浴在佛恩下的XXX - 九華山游記攻略【攜程攻略】107335 墾丁夏季活動 - 墾丁游記攻略【攜程攻略】107336 行走在臺灣(向隅版)---世外桃源之我們的家(九份民宿) - 九份游記攻略【攜程攻略】107337 衛賽節馬來西亞行 - 馬六甲州游記攻略【攜程攻略】107338 藍天下的嘉峪關 - 嘉峪關游記攻略【攜程攻略】107339 人生一定要登一次雪山---都日峰 - 四川游記攻略【攜程攻略】107340 八月,青海湖不遠 - 海北游記攻略【攜程攻略】107341 #冬季北京# 帝都極冷天去首富的酒店避避寒 - 北京游記攻略【攜程攻略】107342 圣地西藏 - 青海湖游記攻略【攜程攻略】107343 孩子,媽媽想讓你見識更多的繁華世界 - 深圳游記攻略【攜程攻略】107344 頂級奢華,舍我其誰! - 澳門游記攻略【攜程攻略】107345 旅行、不需要走遠!美景就在身邊 - 江門游記攻略【攜程攻略】107346 安安靜靜,不言不語都是好風景 - 廈門游記攻略【攜程攻略】107347 邂逅則天故里 行走美麗利州 體驗師帶你看中國女兒節 - 廣元游記攻略【攜程攻略】107348 臺灣,可以這樣玩--15日環島自由行全記錄 - 臺北游記攻略【攜程攻略】107349 讓我記憶深刻的廈門--詳細版 - 廈門游記攻略【攜程攻略】107350 上海地鐵站 - 上海游記攻略【攜程攻略】107351 逃離霧霾,帶著“馬拉多納”去騰沖 - 騰沖游記攻略【攜程攻略】107352 在我心上用力地開一 - 四川游記攻略【攜程攻略】107353 冬季到鄱陽湖邊的余干縣看鳥,多張美圖記錄環湖游全過程 - 余干游記攻略【攜程攻略】107354 2014.十一沈陽,本溪老邊溝,楓葉大道,丹東,不走重復路,古跡,景色5日窮游 - 沈陽游記攻略【攜程攻略】107355 庫不齊老牛灣之戶外行走 - 庫布齊沙漠游記攻略【攜程攻略】
  • 二 基于出行語料的順承事件圖譜構建

    1, 順承事件的抽取

    event_extract.py, 思想步驟如下:

  • 輸入游記文本
  • 對游記進行長句切分
  • 基于構造的順承關系模板,進行順承前后部分提取, 轉入4)
  • 對3)得到的部分進行短句處理,轉入5)
  • 對4)得到的短句進行謂詞性短語提取
  • 對5)得到的謂詞性短語向上匯聚,得到一個長句的謂詞性短語有序集合
  • 對6)步驟得到的謂詞性短語集合,以滑窗方式構造順承關系事件對
  • 對步驟7)得到的順承事件對進行匯總,最終得到順承事件庫
  • 對8)進行事件進行整合,去除過低頻次的事件,構造標準順承關系庫
  • 2, 順承事件圖譜的展示

    10)使用VIS插件進行順承關系圖譜構建與展示, event_graph.py
    11)由于VIS作為一個封裝的JS庫,因此生成的順承圖譜在項目中暫時設置到500,見travel_event_graph.html

    三 順承關系圖譜效果

    1) 總體圖譜樣式

    以500個順承事件, 進行順承事件圖譜展示,結果是一張事件網絡,這是一個大的順承關系圖譜,由眾多小子圖譜構成

    2) 去麗江子圖譜

    該子圖譜圍繞"去麗江旅游"這一出行事件為核心形成的事件群:

    3) 飛機路線子圖譜

    該子圖譜顯示了選擇飛機進行出行形成的事件序列

    4) 火車路線子圖譜

    該子圖譜顯示了選擇火車進行出行形成的事件序列

    5) 訂酒店事件圖譜

    該子圖譜描述了一個"預定酒店不愉快事件",從預定到失望到總結,在這條順承事件鏈表現出來

    6) 做飯事件圖譜

    該子圖譜表示了一個"做飯"場景下的順承事件,感覺也很有意思

    總結

  • 該項目只是一個基于50W文章領域語料,運用簡單提取方式形成的順承關系圖譜demo,還有很多不足
  • 該項目目前是形成了事件節點為326781個, 順承事件對為543580條,分別為30W和50W的圖譜規模
  • 對于謂詞性短語進行事件表示是事件表示的一種方式,本方法只采用VOB關系進行提取,這種方式還有待改進
  • 以3)得到的結果中,還存在大量噪聲,這一方面準確率受依存句法的準確性限制,另一方面該依存關系可能還相對單一,不夠準確
  • 在構造順承事件序列的方法,本項目采用的是長句為單位下的滑窗方式進行構造,這個方式還有待改進
  • 基于目前形成的順承關系圖譜還有待于進一步挖掘,可以在此基礎上完成更多有價值的信息挖掘
  • Question?

    send mail to lhy_in_blcu@126.com
    項目地址:https://github.com/liuhuanyong/SequentialEventExtration
    If any question about the project or me ,see https://liuhuanyong.github.io/

    總結

    以上是生活随笔為你收集整理的基于携程游记的出行领域顺承事件图谱项目的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。