专访香侬科技:致力于让世界听到中文NLP的声音
像所有的創業者一樣,香儂科技的初創團隊胸懷夢想,期待有一天當人們提起香儂的時候,除了“信息論之父”,還能想起來有一家用技術在鏈接大千世界的科技公司——香儂科技。
新生的香儂科技選擇“長在云上”
香儂科技的CTO王思寬說起企業上云的歷程,“在2018年的時候,我們是一家初創公司,自己運營機房的成本太高了,我們決定要選一家云廠商,現在看來,阿里云是一個最簡單也最正確的選擇。”
從簡單的云服務器彈性使用,到數據庫服務,后面香儂又在ECS上面自己搭了 K8s。隨著業務進一步發展,阿里云的架構師提出了進一步降低IT運維成本的方案,香儂也直接采用了阿里云的AKS。
王思寬說,“從我角度上來看的話,阿里云的優勢還在于服務——響應非常及時,技術交流也比較完善,阿里云對于我們的需求能很快給出答案;其次是云功能的學習支持很省心,隨著云服務的不斷升級完善,功能越來越強大,對于企業方來說存在學習用云的時間成本,阿里云豐富的學習資源給了我們很大的支持。”
啟航于情懷,堅定于信仰
初次見到李紀為,是在人工智能小鎮,香儂科技位于杭州的新辦公區。說起他的標簽,很多人可能會知道 “斯坦福計算機用時最短畢業博士”、“《麻省理工科技評論》35歲以下科技創新35人”、“《福布斯》30位30歲以下精英”等等。但是,相比起炫酷的title,他個人顯得低調得多,比起一家企業的CEO,更像是一個研究型學者。這位年輕的創業者,是克勞德·香儂的直系弟子。2012年李紀為從北京大學畢業,赴美學習生物工程,后來轉向學習人工智能,并入學斯坦福大學,師從Dan Jurafsky(斯坦福大學計算機系教授、語言系主任),而Dan正是香儂的學生。
潛心前沿AI技術,創造文字社會價值
2017年底,李紀為回國,拉上了自己曾經的同窗,成立香儂科技,開始了NLP(自然語言分析)領域的創業。
關于公司名字的由來,李紀為說,這來源于對信息論和其創始人香儂的信仰。讀博期間,他曾仔細拜讀過香儂劃時代的研究論文「Prediction and entropy of printed English」,這是現代NLP很多理論的來源和基礎。出于對這位NLP先導的崇拜,公司便由此命名了。
2018年,香儂科技在阿里云實現上云第一站,用數字科技陪伴企業成長。
在整個人類歷史上以語言文字形式記載和流傳的知識占到知識總量的80%以上。就計算機應用而言,85%左右都是用于語言文字的信息處理。自然語言處理,就是用計算機對自然語言的形、音、義等信息進行處理,對字、詞、句、篇章進行輸入、輸出、識別、分析、理解、生成等的操作和加工。
自然語言處理在我們生活中是怎么應用的呢?
其實,NLP已經在我們的日常生活和工作中隨處可見并發揮著重要的作用。小到我們常用的翻譯軟件、搜索引擎、聊天機器人,都是通過NLP技術讓機器去了解我們的訴求,再通過運算處理,反饋給我們想要的答案;大到在金融、司法、政務、工業、傳媒等行業領域,也在使用這項技術去處理紛繁復雜的文檔文件,從海量文字中更便捷、快速地獲得精準信息。
那么,NLP技術是怎樣實現這些應用的呢?香儂科技創始人李紀為舉了一個形象的比喻:就像是一位小學生通過學習基礎知識和訓練學習方法,達到了大學生的水平,掌握了這些理論與操作技能后,投身到各行各業去工作。通過一定時間的工作實踐與加強學習,他成長為某一垂直領域的“小專家”,過硬的技術加之行業經驗的積累,便使他在所屬行業中游刃有余。用技術的思維來簡單概括,就是用算法搭建起一個“大學生”模型,通過垂直領域小樣本數據的不斷訓練,便掌握相關的知識和能力,成為高效、優質的生產工具。
李紀為用香儂旗下的智能寫作產品——火龍果寫作做了示范:一名網絡小說作者完成基本的框架與前期內容鋪墊后,系統可以根據當前寫作內容去理解和分析文章類型和主旨,自動推薦相關寫作素材;小說完成后,還可以幫助作者進行語法糾錯、事實性核查、上下文一致性核查、標點格式檢查等一百多種類型糾錯核查,不放過任何差錯;當創作陷入瓶頸時,能夠根據當前內容,自動生成原創情節進行續寫。除了文學創作以外,該產品也可以根據關鍵信息描述,輔助創作不同風格的文體,例如學術風格、公文風格、社交媒體風格等,儼然是一位文字寫作的多面手。
據悉,火龍果寫作已成為眾多學生黨、文字工作者的首選“智能助理”,僅用一年時間,注冊用戶實現了1500%的高速增長。
近些年,自然語言處理發展迅速。2017年,谷歌提出了全新的自然語言處理模型架構——Transformer;2019年至2020年,大規模預訓練模型BERT與GPT相繼被提出,大規模預訓練模型構建于Transformer模型架構之上,能夠利用海量的無標注語料完成預訓練,從語料中建立對文本的感知并實現知識提取,在幾乎所有自然語言處理下游任務中取得顯著的效果提升。大規模預訓練成為深度學習模型提升效果的必要模塊,也是當前AI領域最為火熱的研究對象。,但針對中文的自然語言處理研究依然薄弱。
“相比于英文,中文語言的理解要復雜得多。同樣的一個字、一個詞、一句話,表達的語境不同,表達的方式不同,都可能存在各種不同的含義,曾經人工智能的自然語言處理算法都是利用西方的技術為模板,基于羅馬字符的語言,而中文是象形文字,經過漫長的歷史發展,它每個字符的造型、讀音、含義都可能蘊含著深刻的意思”。“我們之所以開始做這個事情,也是想既然在中國做這個事情,就要把中文領域的研究發揚光大!中文作為世界使用語言第二大的語種資源,它的前景肯定是更廣闊的。”李紀為認為,NLP是一個廣闊的市場和空間,需要更多的發展和合作,才能把生態做起來,談及未來計劃,李紀為說,未來希望能進一步推動“更懂中文”的新一代自然語言處理基礎研究,打破理論和實踐之間的壁壘,繼續在更多原創性、創新性、實用性問題中深耕、研究,加強人才培育與產學研生態建設,對提升中文自然語言處理研究在國際話語體系中地位多做一些工作。
2018年,新生的香儂科技選擇了“長在云上”。
香儂科技,提供以語言理解核心的產業AI技術
香儂科技正在做的事情——提供以語言理解核心的產業AI技術。見微數據、輿情監控系統、智能文檔處理平臺、智能問答引擎、智能化數據治理平臺在金融、司法、政務、新聞出版、教育各個行業遍地開花,面向企業、金融機構、政府等行業提供一站式輿情數據知識加工服務。
持續且大量的人工神經網絡計算的深度學習場景,香儂使用了阿里云推薦的GPU實例及AMD實例。搭配對象存儲OSS,在數據層面互相打通,海量訓練數據的低成本存儲和訪問要求得到了滿足;通過EMR服務進行數據的預處理,分析效率得到了提升;通過云監控服務進行GPU資源的監控與告警,整個過程更加安全穩定;通過ECS、負載均衡、彈性伸縮、資源編排資源的支持,香儂科技快速在云端搭建了完整AI深度學習業務系統。
從2018年到現在,香儂發布了50多篇頂會論文、70多項核心專利;建模中文的獨有特征,融入中文字形與拼音信息;提出基于機器閱讀理解的實體關系聯合抽取方法,取得世界最優結果;基于機器閱讀理解的命名實體識別方法,大幅超越之前世界最優結果;基于大規模圖神經網絡的語義理解模型,結合圖結構與預訓練,大幅提升模型語義理解能力。在自然語言處理、深度學習、知識圖譜等領域……香儂依托多個自主知識產權領先技術,打造了以自然語言處理為核心的全流程智能計算平臺。
2021年7月,香儂科技為杭州市余杭區人大辦開發了“余杭區人大建議智能分發平臺”,僅0.35秒就可以完成原本人工3分鐘的信息處理工作,總用時從原本人工處理的8小時工作時間縮短到5分鐘,準確率達到了90%以上,極大提高了余杭區人大的議案處理效率和服務能力。
2022年1月,香儂科技拿到了北京市專精特新資質。
香儂科技的未來之路
關于“下一代人工智能”
2018年以來,隨著深度學習的大范圍應用,關于“下一代人工智能”即將到來的討論一直沒有停止過。但在李紀為看來,這個討論似乎為時過早。“下一代是怎么定義的呢?”他提出了這樣一個問題。
在他看來,目前我們還是處在技術的“窄域時代”,人工智能在我們規定的內容里面,進行舒展、布局、與潤色。但是未來的某一天,我們終將會突破窄域,進入“寬域時代”,是一個非常值得期待的景象。
創新上云,助力中文NLP更強
從創業到今天,距離香儂科技成立已經四年整了,從三個人到幾百人,李紀為坦言,最難的不是開始,而是現在和未來。從“一人吃飽,全家不餓”到仍在壯大的團隊和客戶數量,每一步走小了都是不進則退,走大了都是對未來和趨勢的預判,風險與機遇并存,肩扛所有員工和客戶的信任,責任重大。
這個“難”,是每一個創業者共同的心路歷程。無論是“元宇宙”還是“下一代人工智能”,他們沒有想那么多,選擇一個賽道既是興趣所在,也是看到它其中的商業能力。香儂更加在意的在自己的行業領域里專門研究一些最頂尖科技,靠團隊的力量去研究一代技術或者去推廣一代技術,把最新研究的成果找到一個場景實現突破,真正地造福社會。
談起最初的創業選擇,用李紀為自己的話來說就是:自己的代碼變成實際應用是每一個技術人的理想。“把研究模型變成現實工具,科學不是陳在紙上的,要有實際的過程應用。”
阿里云與香儂:數字科技陪伴企業成長
數字科技陪伴企業成長,從2018到2022,阿里云底層技術與產品與香儂一路前行,現在,這條路還會繼續走下去。
原文鏈接
本文為阿里云原創內容,未經允許不得轉載。
創作挑戰賽新人創作獎勵來咯,堅持創作打卡瓜分現金大獎總結
以上是生活随笔為你收集整理的专访香侬科技:致力于让世界听到中文NLP的声音的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 深度解读「无影云电脑远程办公解决方案」
- 下一篇: 形式化验证工具TLA+:程序员视角的入门