日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

输入法智能化发展历程

發布時間:2023/12/13 编程问答 31 豆豆
生活随笔 收集整理的這篇文章主要介紹了 输入法智能化发展历程 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

技術發展周期一般會持續十年的時間,我們現在已經進入移動互聯網周期的早期階段,這是過去的50 年來的第5 個發展周期:20世紀60 年代,大型機時代;20世紀70年代,小型機時代;20世紀80 年代,個人電腦時代;20世紀90 年代,桌面互聯網時代;21世紀最初10 年,移動互聯網時代。

在這5個發展周期中,中文輸入法則經歷了3個時代:1983年,五筆輸入法誕生,成為單機時代輸入法的前奏。23年之后,搜狗拼音輸入法面世,輸入法進入了互聯網時代。2009年,一款概念產品搜狗云輸入法則展望了云時代輸入法的輪廓。

三個時代的輸入法有哪些差異呢?從實際輸入效果來看可見一斑,打開記事本,切換到任意一款時下流行的第二代拼音輸入法,鍵入如下字符:

Zhengdangjuecebumenweimiheshouruchajudehonggoujisiguangyishi

出現在屏幕上的很可能是如下的句子:正當決策部門萎靡和收入差距的鴻溝集思廣益是。但是,當我們切換到搜狗云輸入法,敲擊同樣的字符序列,我們會得到我們想要的句子:正當決策部門為彌合收入差距的鴻溝集思廣益時。

搜狗云輸入法是如何大幅提高用戶長句輸入準確率的呢?筆者將按照輸入法智能化發展的脈絡,為您揭開輸入法智能化背后的神秘面紗。

單機時代的輸入法

有一定年齡的用戶對單機時代的輸入法會有印象。在那個時代,電腦似乎還是專業人士手中的魔盒,輸入法講究的是一個快字。所謂快,在那時被理解為重碼率低,以五筆為代表的一批基于字形、筆畫、音形結合的輸入法在當時十分流行,經過專業訓練的打字員的輸入速度甚至超過英文輸入,很少有人考慮輸入法的易用性。

隨著電腦的日益普及,全拼、智能ABC、紫光、微軟拼音、拼音加加等輸入法的用戶數日益上升,畢竟拼音才是普通用戶最容易學習的輸入方式。這些產品開始考慮易用性的問題,有了用戶個人詞庫、自定義詞庫、組詞和組句的概念,輸入的準確度有了大幅度的提升。但互聯網才剛剛走入人們的生活,機器的存儲、計算能力也有限,輸入法本質上還是一款單機軟件。

詞庫,注音和詞頻

拼音輸入法的核心是詞庫,詞庫是記錄的集合,每條記錄包括詞條、注音和同音詞的詞序(大多數體現為詞頻或概率)三個基本元素構成。早期的輸入法的詞條和注音通常來自專業機構和個人的人工整理。詞序通常基于統計詞頻,拿較大規模的文本(例如幾年的人民日報)作為標準訓練庫(通常稱為語料)。統計時首先將語料切分成詞條形式,比如今天漫天大雪,如果輸入法詞典中有今天,漫天,大雪這些詞,那么這句話就會被切分成今天 | 漫天 | 大雪。這個過程稱為分詞。切分不是唯一的,今天 | 漫 | 天 | 大雪也是一種可能的切分,分詞的目的是尋找一種最合理的切分方法。分詞的具體技術在本文中不做詳述,但合理的詞頻統計一定是基于合理的分詞方法。切分后每個詞條的總出現次數稱為詞頻,除以所有詞條出現的總次數后得到出現的概率。當輸入特定的拼音序列時,如果匹配上多個詞條,將按照詞頻或概率的高低確定展現順序。

理論上,如果詞庫集合無窮大,可以把所有文本片段放入詞庫中。例如今天漫天大雪所有字串全部放入詞庫一共有21個詞條。所有這樣的碎片加入詞庫,理論上可以匹配用戶想輸入的任何信息。但不幸的是,電腦的計算能力、存儲能力、以及軟件的安裝包大小等,不允許過大的詞庫。早期的輸入法詞庫的規模最大也只有十萬條左右。
在單機時代,輸入法的好壞往往取決于詞庫的大小、質量、合理性等。

組詞和組句

當用戶輸入的拼音序列無法完整匹配上詞庫中的任何一個詞條時,這時有兩種做法,一種是早期輸入法如全拼和智能ABC的做法,僅僅提供給用戶最長匹配的詞,例如輸入jintianmantiandaxue這個句子,給用戶的候選是今天,當用戶作出明確的選擇后再給用戶后續選擇。另一種做法紫光、拼音加加等輸入法發,通過某種方法猜測用戶想輸入的完整句子或短語作為候選。

實現這一輸入方式,首先需要對用戶輸入的整體拼音串進行切分,切分成不同的音節,比如用戶輸入jintianmantiandaxue時,jintian | mantian | daxue,是一種切分方式,而jintian | man | tianda | xue是另一種切分方式。之后把每一個拼音切分映射成詞庫中的詞,得到不同的詞與詞的組合。最終可能的組合有今天 | 漫天 | 大學,今天 | 漫天 | 大雪,今天 | 慢 | 天大 | 學等。最終將哪種組合方式展現給用戶呢?最普遍的做法是,計算每一種組合方式的組合概率。對于組合 w1,w2,w3,w4,最簡單的計算方式就是:

P(w1,w2,w3,w4) = P(w1)*P(w2)*P(w3)*P(w4)

那么整體組合概率就依賴于每個詞單獨出現的概率(也即詞頻)。

這種組合概率計算方法稱為1元模型,統計信息少,計算復雜度低,也有一定的準確率,在早期有著很廣泛的應用。但這種方法的錯誤率也是比較高的,例如,如果在全局信息中,P(大學) P(大雪),那么概率最大會是今天漫天大學,用戶仍然需要進一步修改大學得到大雪才能輸出選項。

這個問題如何解決呢?

互聯網時代的輸入法

互聯網時代的輸入法以搜狗輸入法為代表,它誕生于互聯網應用爆炸的時代,電腦已經不再是少數人手中的玩具,已經深入到千家萬戶中,聊天、論壇、寫博、評論、電子郵件等網絡應用已經取代專業輸入成為主流需求。由于傳播渠道有了質的改善,各個輸入法產品之間的競爭也顯得更為激烈。傳統的詞庫制作方法已經不能滿足網民的需求,體現在以下的三個方面:

詞庫中大都是比較權威的正式詞條,而少有網民的口語詞匯

互聯網上的新詞熱詞往往成為網民們熱衷討論的話題,需要非常快的詞庫更新速度

網民在進行某個特定領域輸入的時候,嚴重缺乏該領域的專業詞條

讓我們看看搜狗輸入法所代表的新一代輸入法的進步所在:

互聯網語料

互聯網語料是解決上述問題的主要鑰匙。網絡上充斥著大量的信息,有的是權威發布的信息(如官方新聞等),有的是網民的交互活動產生的信息(如論壇,博客),當然也有大量的無效信息,例如廣告傳銷、SEO作弊等。互聯網語料的生成本身是一個復雜的問題,但依賴于搜狗搜索引擎的技術底蘊和海量數據處理能力,我們能夠比較方便的獲得最新的優質語料。這也是輸入法能越來越聰明的基礎。

新詞和口語詞

互聯網具有這樣兩個特點:有大量網民產生的非主流的口語詞匯;隨時會產生新的詞匯、詞法或流行語。這就意味著,傳統的基于人工構造的詞典不會有很好的效果。口語詞發現和新詞發現成為互聯網輸入法的重要技術點。

比如帥哥這個詞,在官方、正統的詞庫中是不會存在的,但在網絡上使用頻率非常高。再如云計算這樣的詞,在特定時間出現井噴。這兩類詞的發現在技術實現上稍有不同,但都是基于對海量語料的高頻模板的挖掘。幸運的是,新詞發現(特別是專有名詞的發現)是近年來研究界關注較多的領域,有豐碩的成果;而搜狗搜索引擎本身也有著豐富的積累,使我們能用很短的時間取得突破。

專業細胞詞庫

專業詞匯的發現技術和新詞、口語詞類似,只要我們能夠獲得特定專業領域的足夠語料,后續的挖掘行為是雷同的。我們通過對文本分類和聚類算法,將某一個領域中被局部用戶使用比較多的詞匯聚合成一個類,形成我們的專業詞庫(也就是搜狗的細胞詞庫),并通過細胞詞庫推薦的形式,推薦給需要的用戶使用來提高其輸入的效率。

組詞算法的革命

通過新詞發現、口語詞發現、專業細胞詞庫,輸入法已經聰明了很多,能夠做到與時俱進了。下面我們回到最開始的話題:輸入法怎樣變得更聰明,能更準確的理解用戶的意圖呢?

還是以今天漫天大雪為例。如果是一個人,光看到daxue時,第一印象很可能也是大學,但如果看到mantiandaxue,通常會反映過來是漫天大雪。這是因為人的思考結合了上下文和語境等因素。這也給我們一個啟示,漫天和大雪之間的關系更強,一個改進的方法是,在分詞統計的時候,不僅統計詞條出現的次數,還統計二元組連續出現的概率,比如P(漫天,大雪),那么在計算整體組合概率的時候,就可以簡單的使用:

P(今天,漫天,大雪) = P(今天) * P(漫天,大雪)

由于在統計語料中,(漫天,大雪)出現的次數會遠遠地大于(漫天,大學)的出現次數,因此最終今天漫天大雪的組合概率將更勝一籌。

顯然的,這種基于二元組的概率計算方法更具有整體性。但相比基于詞的概率計算方法,卻要存儲更多的信息,如果詞典中有N個詞,那么理論上需要存儲的組合數目為N*N,空間上是之前的平方級別。而且由于訓練語料相對比較小而且不容易獲取,因此實際統計出來的組合數目相比全局空間來講要少很多。

嚴格說來,二元模型并不是互聯網時代的新鮮事物,微軟拼音、黑馬神拼等輸入法早在單機時代也使用過類似的模型。但受限于訓練語料的規模以及機器的計算存儲能力,從計算效率和效果上,都不是非常令人滿意,此外過大的安裝包大小也影響了他們的傳播。在互聯網時代,用戶桌面電腦的性能有了大幅提高,使較復雜的模型有了可能。

我們能不能使用更大的數據規模、更強的模型來做到更好的效果呢?盡管用戶桌面電腦的性能提升顯著,但單機計算能力和存儲空間還是有限的,我們不得不考慮一些使用老式電腦、或者網絡狀況不佳下載緩慢的用戶。在諸多因素的平衡下,主流的輸入法大多數仍是基于二元組的概率計算模型,所以,輸入法聰明了很多,但仍然聰明得有限。

云時代的輸入法

互聯網時代的輸入法仍然是傳統意義上的桌面輸入法,需要以安裝包或者定期更新的形式把信息庫存儲到用戶本地電腦上,而用戶在輸入的時候也必須使用本地的存儲和計算資源。很顯然,這種傳播、更新、存儲和計算方式,將是當前輸入法發展的主要瓶頸。但是隨著云時代的到來,網絡延時不斷降低,瀏覽器逐步取代本地操作系統,這就為輸入法逐漸脫離桌面的限制,成為純粹的網絡輸入法帶來了契機。

直到搜狗云輸入法的誕生,云時代輸入法的雛形,才真正開始向世人嶄露頭角。

何謂云輸入法

搜狗云輸入法本質上是網絡輸入法,但為何稱為云輸入法?一方面,輸入法本身的核心處理過程主要是信息存儲、信息挖掘和概率計算,而非信息傳輸。搜狗云輸入法的存儲和計算都是在大規模服務器集群上完成的,這些服務器不僅存儲能力巨大,而且多核處理器性能超強,能夠同時支持成千上萬的用戶進行在線計算。用戶端只需要通過網絡把復雜的計算任務請求發送到服務器群上然后等待服務器群返回計算結果,這個大規模服務器的集群,正是云計算中的云端。另一方面,搜狗云輸入法已經對外公開了計算接口,成為一個真正的輸入法計算服務提供者,任何用戶和第三方開發商都可以通過和服務器群直接交互來獲得計算服務。可以看出,搜狗云輸入法其本身已經具有了云計算的種種特質,因此冠名云輸入法并不過分。

顯而易見,相比于個人桌面電腦,云輸入法使用的大規模服務器集群的存儲計算能力已是不可同日而語;同時,由于服務器成了所有用戶的容器,在這個容器中進行信息挖掘和信息更新就可以變得實時。這種利好是如何具體體現的呢?

超大信息量

相比于桌面輸入法的小而精,搜狗云輸入法可以做到輸入領域的大而全。通過搜索引擎抓取前所未有的超大訓練語料(TB級別),可以做到無論是口語,古文,散文,現代文,詩詞歌賦等不同文體,還是政治,經濟,體育,娛樂等不同領域,都能面面俱到,應有盡有。權威詞條,高頻口語,方言俚語,專業詞匯,網絡熱詞等古今中外,都可以統統納入詞典而不受任何限制。

實時更新

通過對用戶輸入的實時統計和挖掘,可以根據用戶對詞條的輸入情況,隨時對詞庫進行補充和更新,進行基于用戶詞的新詞發現;并且根據用戶輸入的分詞統計,隨時對詞庫的詞頻做出合理的調整,給用戶最合理的詞條排序;另外,還可以通過搜索引擎不斷的抓取最新的網絡資源,及時的分析網絡新詞并加入詞庫,以最快的速度使用戶獲利。

整句輸入質的提升

由于大腦可以記住的文字信息量更大了,思考的速度也可以變得更快了,自然而然,此時的輸入法就可以變更聰明了。通過擴大信息量并且采用更復雜的概率計算模型,整句輸入的體驗有了質的提升。

首先,以緩解工作壓力(huanjiegongzuoyali)為例,如果采用基于二元組的概率計算模型,會得到什么樣的結果呢?打開搜狗桌面輸入法,經過拼音輸入得到換屆工作壓力,令人失望。切出搜狗云輸入法,輸入結果則是緩解工作壓力。為什么桌面輸入法得不到最終的結果呢?

這種二元概率計算模型,會看到前后兩個詞之間的關系,但是卻看不到緩解到壓力之間聯系。(換屆,工作)是同音下最高頻的二元組,因此對于二元概率計算模型,換屆工作壓力的整體概率強于緩解工作壓力。但在搜狗云輸入法中,我們對三元組(緩解,工作,壓力)的概率也會進行存儲并且在計算整體概率時使用。顯然,這是一種更合理的整句概率計算方法,因為進一步加強了前后詞之間的聯系。有一個顯而易見的結論:如果我們計算整體概率時采用N元組概率信息,那么N越大,我們對整體組合概率的評估也會越準確。當然,更大的N會導致存儲空間成指數級的上升,這也是桌面輸入法目前大都限制在二元模型上的最主要原因。但是云輸入法卻不受這樣的限制,因此我們在構建模型庫的時候,不僅存儲了二元組信息,還存儲了三元組信息已經更長多元組的信息。

當然,這個N不可能無限的擴大下去,計算復雜度問題和語料稀疏性問題終究不可避免。那搜狗云輸入法又是如何解決這個問題的呢?在進行分詞過程中,我們不僅統計詞條和元組的頻率,同時我們會統計遠距離搭配的頻率,這些遠距離搭配,有的是實體意義上的搭配,有的是句式語法意義上的搭配,最終都能為整句輸入的改善提供巨大的幫助。現在終于到了回答我們在前言中拋出的問題的時候了。正當決策部門為彌合收入差距的鴻溝集思廣益時這句話,云輸入法為何可以完美的輸出?

通過觀察可以發現,當時,彌合的鴻溝,都是比較固定的搭配,前者是句式方面的,而后者是實體意義上的搭配。而這些搭配都是我們可以通過分詞過程中的搭配抽取得到的。有了這兩個搭配參與到句子整體概率計算中,那么整個句子就可以正確無誤的計算出來。

統計更長的元組頻率和更遠距離的詞語搭配,并且海量存儲任何可能出現的語言現象,做到見多識廣,這就是云輸入在理解用戶輸入意圖方面如此之好的原因所在。

總結和展望

隨著互聯網發展的日新月異,輸入法的更新換代也越發迅速。搜狗在輸入法上的成功,依賴于整個搜狗技術團隊堅實而強大的技術力量。它站在巨人的肩旁上,集搜索引擎、大規模數據處理、自然語言處理和大規模網絡并發處理等多項技術于一身,真正代表了未來輸入法發展的趨勢。而搜狗輸入法對輸入法市場的最大貢獻,就是它對用戶創造的價值,乃至對整個中文社會所提供的社會價值和經濟價值,而且激活了這個市場的良性競爭,最終使千千萬萬的用戶得到最佳的并且不斷改進的輸入體驗。

但技術的發展不會有片刻的停歇,未來的輸入法也必須更加的智能才能跟得上時代的步伐。輸入法技術發展的方向,必將是不斷增加人類的知識,不斷地增加對人類思考的模擬,讓輸入法真正能夠理解用戶的思維和意圖。希望搜狗云輸入法不僅能夠不斷的自我完善和改進,同時也能起到一個拋磚引玉的作用,繼續促進整體輸入法市場蓬勃向前的發展,讓用戶得到終極完美的輸入體驗。

轉載于:https://www.cnblogs.com/mengheyun/archive/2010/12/19/1963053.html

總結

以上是生活随笔為你收集整理的输入法智能化发展历程的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。