日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 人工智能 > ChatGpt >内容正文

ChatGpt

CCAI2018 | 韩家炜:大规模文本数据挖掘的新方向

發布時間:2023/12/20 ChatGpt 36 豆豆
生活随笔 收集整理的這篇文章主要介紹了 CCAI2018 | 韩家炜:大规模文本数据挖掘的新方向 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

來源:中國人工智能學會


現實中的大數據常常表示為一種非結構化,交叉和動態變化的文本數據。如何從大規模文本數據中抽取結構化知識是一個非常值得研究的任務。很多研究工作依賴于勞動密集型的數據標注,用有監督的方法去抽取知識。但是,這些方法不具有普適性,難以擴展,進而難以處理具有動態性或領域限定性的文本數據。我們認為大規模的文本數據其自身蘊含著大量的模式、結構或知識。通過將無領域限制的大規模文本數據和具有領域限制的知識庫結合,我們可以充分發揮大規模文本數據的優勢去處理非結構化數據轉換為結構化數據的難題。

——韓家煒


?2018中國人工智能大會(CCAI2018)將于7月28日至29日在深圳舉行,韓家煒教授屆時將在會上分享他關于大規模文本數據挖掘的最新研究,發表題為《基于海量文本數據的結構化知識抽取:數據挖掘、機器學習和自然語言處理的融合技術》的主題演講,探討如何借助大規模文本數據自身的力量去做大規模的知識提取。


適逢盛會,心向往之。會前,我們整理了韓教授以往關于大數據挖掘的相關觀點,方便大家一睹為快。


韓家煒現為美國伊利諾伊大學香檳分校計算機系教授,ACM會士和IEEE會士,被稱為“數據挖掘第一人”。他在數據挖掘領域有重要的學術影響力,發表論文600余篇,出版多部專著。曾擔任國際知名會議KDD、SDM和ICDM程序委員會主席,創辦了學術期刊ACM TKDD并擔任主編。曾榮獲2004 ACM SIGKDD創新獎、2005 IEEE計算機分會技術成就獎、2009 IEEE計算機協會的M. Wallace McDowell獎。他的專著Data Mining: Concepts and Techniques被公認為數據挖掘領域的經典教材。


大數據挖掘,數據結構化首當其沖


大數據(Big data或Megadata),或稱巨量數據、海量數據、大資料,指的是所涉及的數據量規模十分巨大,以至于無法在合理時間內通過人工截取、管理、處理、并整理成為人類所能解讀的信息。在總數據量相同的情況下,與個別分析獨立的小型數據集(data set)相比,將各個小型數據集合并后進行分析可得出許多額外的信息和數據關系性,可用來察覺商業趨勢、判定研究質量、避免疾病擴散、打擊犯罪或測定實時交通路況等;這樣的用途正是大型數據集盛行的原因。


我們這個時代,由于互聯網的發展,產生了大量數據。這些數據中絕大部分(超過 80%)都是以文本等無結構或半結構的方式存儲。所以,挖掘大數據首先就是要系統地研究如何挖掘無結構的文本數據,也就是說,要實現從Big Data 到Actionable Knowledge的轉變。

?

韓家煒認為,要將無結構的 Big Data 變成有用的 Knowledge,首先要做的就是將數據結構化。他提出兩種結構化數據的形式,一種是異質網絡(Heterogeneous Network),另一種是多維文本立方體(Multi-dimensional Text Cube)。由結構化數據生成 Knowledge 已經證明是很強大的,但是如何將原始無結構的數據變成有結構的數據(Network 或 Text Cube)則是非常困難的。


在 Network/Text Cube 到 Knowledge 的問題上,韓家煒等人已經做了很多研究工作,也已經由此獲得了很多獎項;在無結構文本數據到有結構 Network/Text Cube 的路上他們也做出了許多嘗試和成果,現在仍在不斷求索中。


數據挖掘三部曲


韓家煒認為,數據挖掘的研究工作可以總結為三部曲:


(1)從文本數據中挖掘隱藏的結構。文本數據中隱藏著大量的結構,這步工作就是將這些數據挖掘出來


(2)將文本數據轉化為有類型的 Network/Text Cube。將文本數據變成有結構、有類型的數據(Network/Text Cube)


(3)挖掘 Network/Text Cube 生成有用的知識。最后一步才是挖掘。


此外,在研究的推進過程中,他們也曾遇到了很多困難。


一是領域限制。用一般語料獲得的實體標注在特定領域、動態領域或者新興的領域無法很好的工作。


二是名稱的歧義性。多個實體可能共享同一個表面名字(Surface Name,例如「Washington」,它可能是州、市、人名、球隊名等)。


三是上下文稀疏。對同一個關系可能有許多種表示方法(想想中文有多少中表示體育比賽結果的方法)。


雖然數據挖掘已經有了成型的結構,但仍有重重困難需要克服。韓教授曾說:“在這條路上,我們現在只是找到了幾個口子可以往前走。現在這還不是一條大路,只是一條小路。要想變成一條康莊大道,需要大家共同努力。這條路通寬了,將來我們就可以從大量的無結構的文本,變成大量的有用的知識。”


在即將到來的盛夏,韓家煒教授作為中國人工智能大會的特邀嘉賓,將會介紹他最近的研究:如何借助大規模文本數據自身的力量去做大規模的知識抽取?主要包括關鍵短語抽取,基于遠監督的實體識別和關系分類,基于模式的信息提取方法,多元分類的自動發現以及多維文本數據集的構建等方法。在CCAI2018的報告中,韓家煒教授將證明數據挖掘、機器學習和自然語言處理三個技術進行融合是一個“非常重要且極有前途”的方向。

?

在CCAI2018,跟隨開路先鋒韓家煒教授,一起踏上這條非常重要且極有前途的路吧!


未來智能實驗室是人工智能學家與科學院相關機構聯合成立的人工智能,互聯網和腦科學交叉研究機構。


未來智能實驗室的主要工作包括:建立AI智能系統智商評測體系,開展世界人工智能智商評測;開展互聯網(城市)云腦研究計劃,構建互聯網(城市)云腦技術和企業圖譜,為提升企業,行業與城市的智能水平服務。

??如果您對實驗室的研究感興趣,歡迎加入未來智能實驗室線上平臺。掃描以下二維碼或點擊本文左下角“閱讀原文”

總結

以上是生活随笔為你收集整理的CCAI2018 | 韩家炜:大规模文本数据挖掘的新方向的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 欧美www | 荫蒂被男人添免费视频 | 国产激情久久久 | 天天看av | 性欧美videossex精品 | 麻豆传媒在线播放 | 成人在线免费播放 | 免费成人美女女 | 天堂在线1 | 中国黄色录像 | 蜜桃tv在线观看 | 国产精品成人在线观看 | 日韩av在线看免费观看 | 视频精品一区二区 | 日本道中文字幕 | 99久久99久久久精品棕色圆 | 日韩黄色一级片 | 精品无码黑人又粗又大又长 | 加勒比久久综合 | 久热在线视频 | 超碰在线国产 | 91传媒在线视频 | 综合视频在线观看 | 亚洲永久免费av | 国产av一区二区三区传媒 | 天天狠狠 | 日韩阿v| 人人人草 | 国产精品久久麻豆 | 88av.com| 欧美性激情| 人人爽人人爽人人 | 波多野结衣一区二区三区高清 | 久久情趣视频 | 国产精品伊人久久 | 91视频社区 | 欧美日韩国产中文 | 久久人妻精品白浆国产 | av第下页| 成人91免费| 毛片国产| 日本大胆裸体做爰视频 | 蜜臀久久99精品久久久久久宅男 | 阿v天堂2017 欧美小视频在线观看 | 亚洲伦理中文字幕 | 欧美丰满美乳xxⅹ高潮www | 国产视频一区二区在线播放 | 天天狠狠干 | 大白屁股一区二区视频 | 男女午夜激情视频 | 国内精品久久久久久久影视简单 | 久av在线 | 日韩一区二区三区精品 | jizz免费视频| 精品少妇久久久 | 99九九视频 | 色超碰| 一级少妇毛片 | 国产成人无码一区二区在线播放 | 黄色免费在线观看网站 | 日日躁夜夜躁狠狠久久av | 国产一区二区自拍 | 三上悠亚久久精品 | 一区二区三区视频播放 | 91午夜理伦私人影院 | 超碰av人人 | 日韩久久在线 | 午夜福利一区二区三区 | 日韩成人福利视频 | 午夜影院在线观看 | 免费观看久久久 | 国产男男gay | 小说肉肉视频 | 国产妻精品一区二区在线 | 日韩中文字| 婷婷五月综合缴情在线视频 | 国产最新网址 | 中文字幕免费高清网站 | 另一种灿烂生活 | 亚洲欧美一区在线 | 亚洲男人天堂2024 | 成人91av| 伊人网综合在线 | 国产一区二区在线免费观看视频 | 青青国产精品视频 | 青青青视频免费 | 夜夜躁狠狠躁日日躁av | 日本高清视频www夜色资源 | 级毛片内射视频 | 日韩av女优在线观看 | 日韩精品一区二区三区久久 | 青娱乐在线免费视频 | 久久精品无码一区二区三区毛片 | 91精品国产乱码久久 | 草莓视频18免费观看 | 哪里可以免费看毛片 | www.成人国产 | 老鸭窝av在线 | 国产欧美视频一区二区三区 |