开篇词:中文自然语言处理——未来数据领域的珠穆朗玛峰
人工智能或許是人類最美好的夢想之一。追溯到公元前仰望星空的古希臘人,當亞里士多德為了解釋人類大腦的運行規(guī)律而提出了聯(lián)想主義心理學(xué)的時候,他恐怕不會想到,兩千多年后的今天,人們正在利用聯(lián)想主義心理學(xué)衍化而來的人工神經(jīng)網(wǎng)絡(luò),構(gòu)建的超級人工智能成為最能接近夢想的圣境,并一次又一次地挑戰(zhàn)人類大腦認知的極限。
在以大數(shù)據(jù)、云計算為背景的技術(shù)框架支撐下,互聯(lián)網(wǎng)發(fā)展極為迅速,過去一個技術(shù)或者行業(yè)熱點從誕生到消亡需要幾年乃至更長的時間,但是最近幾年,其生命周期在不斷縮短,大多數(shù)的熱點從產(chǎn)生到消亡只需要1-2年,有些僅僅是半年甚至幾個月的時間。互聯(lián)網(wǎng)行業(yè)越來越凸顯出快魚吃慢魚的特點。從技術(shù)本身也有體現(xiàn),比如2012-2014年是移動互聯(lián)網(wǎng)的熱潮,Android 和 iOS App 開發(fā)工程師當時非常流行。隨后,2015大數(shù)據(jù)、云計算之年,2016年后大數(shù)據(jù)時代,2017年被稱為人工智能元年,2018年炒得最火的是區(qū)塊鏈和幣圈。在互聯(lián)網(wǎng)以這種迅雷不及掩耳之勢的發(fā)展速度下,作為初學(xué)者就很容易被各種技術(shù)概念迷惑,找不到自己想要的突破口和深入的領(lǐng)域,即便是計算機從業(yè)者有時候也分不清到底如何定位自己未來的技術(shù)方向。
下面,我們先從中國互聯(lián)網(wǎng)的發(fā)展歷程說起。
從1994誕生(加入國際互聯(lián)網(wǎng))到現(xiàn)在才短短的24年,就在這24年里,我們經(jīng)歷了4次非同凡響、一次比一次更徹底的發(fā)展大高潮。
第一次互聯(lián)網(wǎng)大浪潮(1994年—2000年),以四大門戶和搜索為代表,能做網(wǎng)站的工程師就可以被稱為技術(shù)牛人;第二次互聯(lián)網(wǎng)大浪潮(2001年—2008年),從搜索到 PC 端社交化網(wǎng)絡(luò)的發(fā)展,我們的社交形態(tài)發(fā)生了根本的變化,從線下交流正轉(zhuǎn)變?yōu)榫€上交流,大量的數(shù)據(jù)開始生成;第三次互聯(lián)網(wǎng)大浪潮(2009年—2014年)PC 端互聯(lián)網(wǎng)到移動互聯(lián)網(wǎng),此時各種 App 如雨后春筍般的冒出來,盡管后來有很多 App 都死了,但是移動互聯(lián)網(wǎng)幾乎顛覆了整個中國老百姓個人生活和商業(yè)形態(tài),改變著我們每一個人的生活、消費、社交、出行方式等。
那第四次是什么呢?沒錯,第四次互聯(lián)網(wǎng)大浪潮(2015—至今),是在前3次發(fā)展基礎(chǔ)上,以大數(shù)據(jù)、云計算為背景發(fā)展起來的人工智能技術(shù)革命,分布式計算讓大數(shù)據(jù)處理提速,而昔日隕落的巨星深度學(xué)習(xí)此刻再次被喚醒,并很快在圖像和語音方面取得重大突破,但在自然語言方面卻顯得有些暗淡,突破并不是很大。盡管有很多人都去從事計算機視覺、語音等方面的工作,但隨著 AI 的繼續(xù)發(fā)展,NLP 方向正顯得越來越重要。
接著,我們總結(jié)一下數(shù)據(jù)領(lǐng)域成就和挑戰(zhàn)。
有一個不可否認的事實,當前從事互聯(lián)網(wǎng)的人們已經(jīng)制造出了海量的數(shù)據(jù),未來還將繼續(xù)持續(xù),其中包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。我發(fā)現(xiàn),對于結(jié)構(gòu)化數(shù)據(jù)而言,在大數(shù)據(jù)、云計算技術(shù)“上下齊心”的大力整合下,其技術(shù)基本趨向成熟和穩(wěn)定,比如關(guān)系型數(shù)據(jù)庫以及基于 Hadoop 的 HDFS 分布式文件系統(tǒng)、Hive 數(shù)據(jù)倉庫和非關(guān)系型數(shù)據(jù)庫 Hbase,以及 Elasticsearch 集群等數(shù)據(jù)存儲的關(guān)系數(shù)據(jù)庫或者 NoSQL,可以用來管理和存儲數(shù)據(jù);基于 MapReduce、Spark 和 Storm、Flink 等大數(shù)據(jù)處理框架可以分別處理離線和實時數(shù)據(jù)等。而半結(jié)構(gòu)化、非結(jié)構(gòu)化的數(shù)據(jù),除了以 ELK 為代表的日志處理流程,過去在其它限定領(lǐng)域基于規(guī)則和知識庫也取得了一定的成果,因其自身的復(fù)雜性,未來更多領(lǐng)域應(yīng)用都具有很大的困難和挑戰(zhàn)。
最后,我們看看國內(nèi)外人工智能領(lǐng)域的工業(yè)現(xiàn)狀。
今年5月19日有幸在北京國家會議中心參加了2018全球人工智能技術(shù)大會(GAITC)。在大會上,從中國科學(xué)院院士姚期智提出人工智能的新思維開始,其重點講述了人工神經(jīng)網(wǎng)絡(luò)為代表的深度學(xué)習(xí)以及量子計算機將是未來發(fā)展的新思維;緊接著中國工程院院士李德毅分享了路測的學(xué)問——無人駕駛的后圖靈測試,提出未來無人駕駛挑戰(zhàn)應(yīng)該是讓無人駕駛具有司機的認知、思維和情感,而不是當前以 GPS 定位和動力學(xué)解決無人駕駛的問題;接下來微軟全球資深副總裁王永東向我們展示的微軟小冰,大家一起見證了微軟小冰在社交互動、唱歌、作詩、節(jié)目主持和情感方面不凡的表現(xiàn),而本人也真實測試了一下,小冰現(xiàn)在的表現(xiàn)已經(jīng)非常優(yōu)秀了。然而要達到一個成年自然人的水平,在某些方面還不能完全表現(xiàn)出人的特性。下面這幅圖是微軟小冰的個人介紹,有興趣可以在微信公眾號關(guān)注小冰,進行體驗。
人工智能產(chǎn)業(yè)的快速發(fā)展,資本市場大量資金涌入,促使中國人工智能領(lǐng)域投融資熱度快速升溫,這充分表明資本市場對于人工智能發(fā)展前景的認可。《2018年人工智能行業(yè)創(chuàng)新企業(yè) Top100》發(fā)布,據(jù)榜單顯示:進入2018年人工智能行業(yè)創(chuàng)新企業(yè)前十名的企業(yè)分別是:百度、阿里云、美圖秀秀、華大基因、科大訊飛、微鯨科技、華云數(shù)據(jù)、愛馳億維、青云、七牛云。作為人工智能的一個重要組成部分,自然語言處理(NLP)的研究對象是計算機和人類語言的交互,其任務(wù)是理解人類語言并將其轉(zhuǎn)換為機器語言。在目前的商業(yè)場中,NLP 技術(shù)用于分析源自郵件、音頻、文件、網(wǎng)頁、論壇、社交媒體中的大量半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),市場前景巨大。
為什么說未來數(shù)據(jù)領(lǐng)域的珠穆朗瑪峰是中文自然語言處理?
正是基于上面對中國互聯(lián)網(wǎng)發(fā)展的總結(jié),對當前數(shù)據(jù)領(lǐng)域所面臨的挑戰(zhàn)以及資本市場對人工智能的認可分析,未來數(shù)據(jù)領(lǐng)域的重點是自然語言處理技術(shù)及其在智能問答、情感分析、語義理解、知識圖譜等應(yīng)用方面的突破。對于我們國內(nèi)中文來說,如何更好的把前面所說的應(yīng)用在中文處理上,顯得更為重要和急迫,所以我認為未來數(shù)據(jù)領(lǐng)域的珠穆朗瑪峰是中文自然語言處理 。
作為初學(xué)者,我們目前又面臨這樣的尷尬,網(wǎng)上大部分自然語言處理內(nèi)容都是英文為基礎(chǔ),大多數(shù)人先是學(xué)好了英語的處理,回頭來再處理中文,卻發(fā)現(xiàn)有很大的不同,這樣不僅讓中文自然語言處理學(xué)習(xí)者走了彎路,也浪費了大量時間和精力。中文的處理比英文復(fù)雜的多,網(wǎng)上中文相關(guān)資料少之又少,國內(nèi)純中文自然語言處理書籍只有理論方面的,卻在實戰(zhàn)方面比較空缺,這讓中文自然語言處理的研究開發(fā)工作感到舉步維艱,很難下筆。
關(guān)于本達人課
本課程共包含19節(jié)(包括開篇詞)。
各小節(jié)之間并沒有緊密耦合,但是整個內(nèi)容還是遵循一定的開發(fā)流程。比如,按照中文語料處理的過程,在獲取到語料之后開始分詞,分詞之后可以進行一些統(tǒng)計和關(guān)鍵字提取,并通過數(shù)據(jù)可視化手段熟悉和了解你的數(shù)據(jù)。緊接著通過詞袋或者詞向量,把文本數(shù)據(jù)轉(zhuǎn)換成計算機可以計算的矩陣向量。后續(xù)從機器學(xué)習(xí)簡單的有監(jiān)督分類和無監(jiān)督聚類入手,到深度學(xué)習(xí)中神經(jīng)網(wǎng)絡(luò)的應(yīng)用,以及簡易聊天機器人和知識圖譜的構(gòu)建。帶你直觀深入、高效地了解 NLP 開發(fā)的流程,全方位提升你的技術(shù)實力與思維方式。
因此,本達人課,作為中文自然語言處理初學(xué)者邊學(xué)邊實戰(zhàn)的入門級教程,希望從中文實際出發(fā),針對中文語料以小數(shù)據(jù)量的“簡易版”實例,通過實戰(zhàn)帶大家快速掌握 NLP 在中文方面開發(fā)的基本能力。當然作為讀者, 我默認你已經(jīng)掌握 Python 編程語言和有一定的機器學(xué)習(xí)理論知識,當然不會也沒關(guān)系,可以邊學(xué)邊做,還是那句老話:“只要功夫深鐵杵磨成針”。
課程寄語
無論是初入 AI 行業(yè)的新人,還是想轉(zhuǎn)行成為 AI 領(lǐng)域的技術(shù)工程師,都可以從本場達人課中,收獲中文自然語言處理相關(guān)知識。因為篇幅原因,本課程無法包含 NLP 的所有知識以及比較前沿的知識,但是我會在講好每節(jié)課的前提下,盡量分享一些比較前沿的知識來作為補充。
總結(jié)
以上是生活随笔為你收集整理的开篇词:中文自然语言处理——未来数据领域的珠穆朗玛峰的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 第01课:中文自然语言处理的完整机器处理
- 下一篇: 个人成长:2021如何成为更好的自己?