日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 人工智能 > ChatGpt >内容正文

ChatGpt

从研究到应用:腾讯AI Lab的自然语言理解和生成

發布時間:2024/2/28 ChatGpt 41 豆豆
生活随笔 收集整理的這篇文章主要介紹了 从研究到应用:腾讯AI Lab的自然语言理解和生成 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.



?

3月16日在騰訊AILab第二屆學術論壇上,騰訊AI Lab高級研究員李菁博士介紹了實驗室目前在NLP方面重點關注的兩大方向——如何理解和生成自然語言,并介紹了實驗室的相關研究和應用成果。


自然語言的理解

自然語言理解的目標是使得機器能夠像人一樣進行閱讀。機器不能像人一樣通過直覺和感知來理解文本,只能通過計算和邏輯。因此,自然語言的理解需要通過表征學習(Representation Learning)的手段把文本信號轉化為比如向量、矩陣等等可計算的形式。然后通過信息抽取(Information Extraction)從文本信息中找到有用的信息,摒棄無用的噪音。但這兩個研究方向僅僅是在字面意思上的理解,想要深入了解文字背后的含義還需要用到更復雜的語義分析技術,比如在語文考試中經常出現的題目:“這句話表達了作者怎樣的思想感情”,而回答這個問題就需要用到語義分析技術的一個子方向——情感分析技術。李菁詳細闡述了表征學習和信息抽取這兩種技術。

?

表征學習:騰訊AI Lab在各個顆粒度都有研究

李菁表示,從詞、詞組、到句子、到篇章,騰訊AI Lab在各個顆粒度的表征學習都有研究,并重點介紹了詞級別的表征,也就是詞嵌入(wordembedding)。詞嵌入的目標是把詞映射到一個高維的空間當中,使得意義相近的詞在空間上的距離比較近。詞嵌入目前很多深度學習模型所依賴的語料,直接作為用作輸入層的特征表示。在英語上,詞嵌入有很多很好的語料,比如 word2vec,但在中文上這個方面的語料目前還比較欠缺。因此騰訊AI Lab訓練了一個非常大規模的中文的詞嵌入,這個語料不管從覆蓋度、準確率還是對于新詞的衡量方面,都達到了行業領先的水平。并且無論是詞的相似度還是它應用到詞性標注上的性能,這個語料都表現出其優越性。

?

信息抽取:關鍵詞抽取被賦予了新的生命

說到信息抽取,李菁通過關鍵詞抽取的例子介紹了他們的研究成果。關鍵詞抽取是從文本當中抽取一些重要的成分,一般是詞或者詞組的形式。關鍵詞抽取是一個非常古老的問題,如今各種各樣的AI技術應用場景卻賦予它新的生命。比如在時下非常流行的自動問答系統當中,當用戶輸入這樣一個問題:“剛開始玩王者榮耀,花木蘭這個英雄怎么樣”,如果能正確定位到花木蘭這個關鍵詞,就可以搜索到相關信息,比如“王者榮耀推出花木蘭,輸出給力”、“新英雄花木蘭讓女性英雄不再脆皮”以及“不是很喜歡花木蘭,技能太復雜。”,通過融合這些返回的結果就可以得到用戶想要的答案,比如“輸出給力,不脆皮,但是技能復雜”。

圖1考慮上下文的關鍵詞抽取模型


現在學術界在關鍵詞抽取上的研究進展并不是完美的,它也有欠缺考慮的地方,表現為目前針對關鍵詞抽取的研究點只考慮了待抽取的文本,而忽略了它的上下文信息,比如在抽取新聞的關鍵詞的時候,往往只關注新聞本身,而忽略了和新聞有關的評論。因為目標文本中的重要信息往往在上下文中會被多次提及,如果能很好地編碼上下文中的重要信息,將對定位目標文本的關鍵詞位置起到重要的作用。李菁在當天還介紹了AI Lab在關鍵詞抽取上的提出的模型,如圖 1所示,模型的左側的上下文編碼器用于抽象上下文中的表示,右側用于學習目標文本的特征,結合二者來共同發現目標文本中的關鍵詞位置。

?

自然語言的生成:讓AI寫春聯

自然語言的生成技術關注的是如何讓機器能夠像人一樣進行寫作,這就賦予了機器的創作能力。自動聊天是騰訊AI Lab在自然語言生成方面的主要研究方向,AI Lab可以做到讓機器生成諸如古風、浪漫風格等等各種各樣的回復。AI Lab生成應用亦在金融方面有所涉獵,比如針對股票的自動問答系統,針對財報生成摘要,讓大眾能夠很快地理解財報中的重要信息。另外還有針對中文古典文化的生成成果,比如詩歌和對聯的生成。接下來李菁以對聯生成為例,介紹了AI Lab在自然語言生成方面的應用。


圖?2 騰訊AI春聯生成以“騰訊”為藏頭的春聯

?

圖 2是AI Lab在2018年春節期間推出的騰訊AI 春聯產品,由騰訊AI Lab和騰訊新聞聯手出品。用戶只需輸入2-4個漢字,系統就會取后面2個漢字,第一個漢字生成上聯,第二個漢字生成下聯,比如輸入“騰訊”就會生成如圖 2中所示的對聯。李菁談到,這個產品自問世以來就受到了大眾的廣泛歡迎,數據顯示有超過380萬的用戶使用了該產品,頁面訪問量達到了760萬,春聯生成次數超過4千萬次,人均生成10次春聯。另外,由于騰訊AI春聯帶來的巨大影響力,各大媒體也爭相報道這個產品,除了中國大陸的媒體之外,還有來自中國臺灣和香港的媒體也爭相報道這個產品。

?

李菁還展示了騰訊AI春聯產品的工作原理。首先要根據用戶給定的第一個字生成上聯,在生成上聯的每個字的時候需要根據之前所揮灑出的意境,因此產品采用了語言模型的方法。在從上聯生成下聯的時候,采用了稍微不一樣的模型,因為考慮到對仗,系統使用了帶有注意機制的序列到序列模型,生成下聯每一個字的時候都找到上聯和它對應的字去落筆。通過這兩個模型,一副對仗工整、意境深遠的春聯就生成了。

?

最后,李菁表示相信隨著AI技術的發展,在不遠的將來,機器能夠被賦予像人一樣閱讀和寫作的能力。未來也一定會共同見證圖靈夢想成真的那一天!

?

題圖引用地址:https://naacl2018.wordpress.com/2018/03/03/naacl-paper-titles-over-time/


總結

以上是生活随笔為你收集整理的从研究到应用:腾讯AI Lab的自然语言理解和生成的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。