日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

实话实说:中文自然语言处理的N个真实情况

發布時間:2024/7/5 编程问答 42 豆豆
生活随笔 收集整理的這篇文章主要介紹了 实话实说:中文自然语言处理的N个真实情况 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

文 | Liu Huanyong


按語

中文自然語言處理,目前在AI泡沫之下,真假難辨,實戰技術與PPT技術往往存在著很大的差異。目前關于AI或者自然語言處理,做的人與講的人往往是兩回事。

作者簡介

Liu Huanyong,就職于中國科學院軟件研究所,專注金融、情報兩大領域,從事事件抽取、事件演化、情感分析、事理(知識)圖譜、常識推理、語言資源構建與應用等研發工作。目前主持研發自然語言處理技術開放平臺數地工場、大規模實時事理知識學習系統學跡、全行業因果鏈查詢與溯源項目尋鏈系統,并在智能金融、智能情報落地中負責實施了多個項目。

一些實話

  • 深度學習在自然語言處理當中,除了在分類問題上能夠取得較好效果外(如單選問題:情感分類、文本分類、正確答案分類問題等),在信息抽取上,尤其是在元組抽取上基本上是一塌糊涂,在工業場景下很難達到實用水準。

  • 目前各種評測集大多是人為標注的,人為標注的大多為干凈環境下的較為規范的文本,而且省略了真實生產環節中的多個環節。在評測環節中達到的諸多state-of-art方法,在真實應用場景下泛化能力很差,大多僅僅是為了刷榜而刷榜。

  • 目前關于知識圖譜的構建環節中,數據大多數都還是來自于結構化數據,半結構化信息抽取次之,非結構化數據抽取最少。半結構化信息抽取,即表格信息抽取最為危險,一個單元格錯誤很有可能導致所有數據都出現錯誤。非結構化抽取中,實體識別和實體關系識別難度相當大。

  • 工業場景下命名實體識別,標配的BILSTM+CRF實際上只是輔助手段,工業界還是以領域實體字典匹配為主,大廠中往往在后者有很大的用戶日志,這種日志包括大量的實體信息。因此,生產環節中的實體識別工作中,基礎性詞性的構建和擴展工作顯得尤為重要。

  • 目前關于知識圖譜推理問題,嚴格意義上不屬于推理的范疇,最多只能相當于是知識補全問題,如評測中的知識推理任務,是三元組補全問題。

  • 目前輿情分析還是處于初級階段。目前輿情分析還停留在以表層計量為主,配以淺層句子級情感分析和主題挖掘技術的分析。對于深層次事件演化以及對象級情感分析依舊還處于初級階段。

  • Bert本質上僅僅是個編碼器,是word2vec的升級版而已,不是無所不能,僅僅是編碼能力強,向量表示上語義更為豐富,然而大多人都裝糊涂。

  • 學界和業界最大的區別在于,學界以探索前沿為目的,提新概念,然后搭個草圖就結束,目光并不長遠,打完這一戰就不知道下一戰打什么,下一戰該去哪里打,什么時候打,或者打一槍換個陣地再打。而業界,往往面臨著生存問題,需要考慮實際問題,還是以解決實際問題為主,因此沒必要把學界的那一套理念融入到生產環節中,要根據實際情況制定自己的方法。

  • 利用結構化數據,尤其是百科類infobox數據,采集下來,存入到Neo4j圖數據庫中,就稱自己建立了知識圖譜的做法是偽知識圖譜做法。基于這類知識圖譜,再搞個簡單的問答系統,就標榜自己是基于知識圖譜的智能問答,實際上很膚淺。

  • 知識圖譜不是結構化知識的可視化(不是兩個點幾條邊)那么簡單,那叫知識的可視化,不是知識圖譜。知識圖譜的核心在于知識的圖譜化,特點在于知識的表示方法和圖譜存儲結構,前者決定了知識的抽象表示維度,后者決定了知識運行的可行性,圖算法(圖遍歷、聯通圖、最短路徑)。基于圖譜存儲結構,進行知識的游走,進行知識表征和未知知識的預測。

  • 物以稀為貴,大家都能獲取到的知識,往往價值都很低。知識圖譜也是這樣,只有做專門性的具有數據壁壘的知識圖譜,才能帶來商業價值。

  • 目前智能問答,大多都是人工智障,通用型的閑聊型問答大多是個智障,多輪對話缺失,答非所問等問題層出不窮。垂直性的問答才是出路,但真正用心做的太少,大多都是處于demo級別。

  • 大多數微信自然語言處理軟文實際上都不可不看,純屬浪費時間。尤其是在對內容的分析上,大多是抓語料,調包統計詞頻,提取關鍵詞,調包情感分析,做柱狀圖,做折線圖,做主題詞云,分析方法上千篇一律。應該從根本上去做方法上的創新,這樣才能有營養,從根本上來說才能有營養可言。文本分析應該從淺層分析走向深層分析,更好地挖掘文本的語義信息。

  • 目前百科類知識圖譜的構建工作有很多,重復性的工作不少。基于開放類百科知識圖譜的數據獲取接口有復旦等開放出來,可以應用到基本的概念下實體查詢,實體屬性查詢等,但目前僅僅只能做到一度。

  • 基于知識圖譜的問答目前的難點在于兩個方面,1)多度也稱為多跳問題,如姚明的老婆是誰,可以走14條回答,但姚明的老婆的女兒是誰則回答不出來,這種本質上是實體與屬性以及實體與實體關系的分類問題。2)多輪問答問題。多輪分成兩種,一種是指代補全問答, 如前一句問北京的天氣,后者省略“的天氣”這一詞,而只說“北京”,這個需要進行意圖判定并準確加載相應的問答槽。另一種是追問式多輪問答,典型的在天氣查詢或者酒店預訂等垂直性問答任務上。大家要抓住這兩個方面去做。

  • 關系挖掘是信息抽取的重要里程碑,理解了實體與實體、實體與屬性、屬性與屬性、實體與事件、事件與事件的關系是解決真正語義理解的基礎,但目前,這方面,在工業界實際運用中,特定領域中模板的性能要比深度學習多得多,學界大多采用端到端模型進行實驗,在這方面還難以超越模版性能。

后臺回復關鍵詞【入群

加入賣萌屋NLP/IR/Rec與求職討論群

后臺回復關鍵詞【頂會

獲取ACL、CIKM等各大頂會論文集!

總結

以上是生活随笔為你收集整理的实话实说:中文自然语言处理的N个真实情况的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 国产福利视频一区 | 狠狠人妻久久久久久综合 | 东北毛片 | 香港三日本三级少妇66 | 久久国产色| 日韩一区二区三区在线看 | 青青国产在线 | 国产欧美一区二区三区视频在线观看 | 亚洲伊人av | 欧美乱大交xxxxx潮喷l头像 | 国产一区二区在线精品 | 国产片久久 | 国内精品久久久久久久久 | 中文字幕乱码无码人妻系列蜜桃 | chinese国产精品| 一本大道熟女人妻中文字幕在线 | 国产亚洲欧美一区二区 | 五月天丁香视频 | 手机在线看a | a毛片毛片av永久免费 | 中文资源在线观看 | 影院一区 | 高跟鞋肉丝交足91 | 男女互插视频 | 日韩一级黄色片 | 开心激情综合 | a点w片| 久久色婷婷| 亚洲国产精品美女 | 国产精品无码中文 | 午夜av福利 | 日韩国产在线观看 | 少妇熟女高潮流白浆 | 僵尸艳谈 | 日韩色图片 | 欧美黄色三级视频 | 久久久经典 | 黄色高清视频在线观看 | 亚洲成人1区 | 男性影院 | 麻豆视频在线 | 91一级片| 播播激情网 | 国产精品无码免费专区午夜 | 亚洲欧美在线视频 | 欧美成人xxxx | 亚洲无线观看 | 欧美日韩网站 | 懂色av蜜臀av粉嫩av分享 | 色人人 | 日韩第一色 | 888奇米影视 | 日韩欧美手机在线 | 中文字幕网站 | 欧美日韩三区 | wwwwxxx日本| caopor在线视频 | 超污巨黄的小短文 | 日本变态折磨凌虐bdsm在线 | 久久爱伊人 | 欧美三日本三级少妇三99 | 亚洲av无码国产精品久久久久 | www.av.cn| 成人在线观看a | 亚洲国产精品va在线 | 国产 欧美 自拍 | 日本毛片视频 | 日本人の夫妇交换 | 激情六月色 | 捆绑凌虐一区二区三区 | 色偷偷av男人的天堂 | 中文字幕视频免费 | 青在线视频| 国产内射一区二区 | 久久精品视频16 | 亚洲视频网 | 天堂网av2018| 进去里在线观看 | 男人天堂va| 五月激情久久 | 嫩草视频在线观看免费 | 国产美女一区二区 | 全黄性性激高免费视频 | 538精品在线视频 | 精品人妻一区二区三区四区 | 麻豆福利视频 | 日本69少妇| 中文字幕一区二区在线播放 | 91精品国产一区二区 | 亚洲乱码av | 青青草免费在线观看 | 91视频免费观看网站 | 在线看av的网址 | 亚洲日本中文 | 免费av不卡在线观看 | 岛国精品一区二区 | 91蜜臀精品国产自偷在线 | 国产激情久久 | 久草视频资源 |