未来数据领域的珠穆朗玛峰之中文自然语言处理
人工智能或許是人類最美好的夢想之一。追溯到公元前仰望星空的古希臘人,當(dāng)亞里士多德為了解釋人類大腦的運(yùn)行規(guī)律而提出了聯(lián)想主義心理學(xué)的時(shí)候,他恐怕不會(huì)想到,兩千多年后的今天,人們正在利用聯(lián)想主義心理學(xué)衍化而來的人工神經(jīng)網(wǎng)絡(luò),構(gòu)建的超級人工智能成為最能接近夢想的圣境,并一次又一次地挑戰(zhàn)人類大腦認(rèn)知的極限。
?
在以大數(shù)據(jù)、云計(jì)算為背景的技術(shù)框架支撐下,互聯(lián)網(wǎng)發(fā)展極為迅速,過去一個(gè)技術(shù)或者行業(yè)熱點(diǎn)從誕生到消亡需要幾年乃至更長的時(shí)間,但是最近幾年,其生命周期在不斷縮短,大多數(shù)的熱點(diǎn)從產(chǎn)生到消亡只需要1-2年,有些僅僅是半年甚至幾個(gè)月的時(shí)間?;ヂ?lián)網(wǎng)行業(yè)越來越凸顯出快魚吃慢魚的特點(diǎn)。從技術(shù)本身也有體現(xiàn),比如2012-2014年是移動(dòng)互聯(lián)網(wǎng)的熱潮,安卓和ios APP開發(fā)工程師當(dāng)時(shí)非常流行。隨后,2015大數(shù)據(jù)、云計(jì)算之年,2016年后大數(shù)據(jù)時(shí)代,2017年被稱為人工智能元年,2018年炒得最火的是區(qū)塊鏈和幣圈。在互聯(lián)網(wǎng)以這種迅雷不及掩耳之勢的發(fā)展速度下,作為初學(xué)者就很容易被各種技術(shù)概念迷惑,找不到自己想要的突破口和深入的領(lǐng)域,即便是計(jì)算機(jī)從業(yè)者有時(shí)候也分不清到底如何定位自己未來的技術(shù)方向。
下面,我們先從中國互聯(lián)網(wǎng)的發(fā)展歷程說起。
從1994誕生(加入國際互聯(lián)網(wǎng))到現(xiàn)在才短短的24年,就在這24年里,我們經(jīng)歷了4次非同凡響、一次比一次更徹底的發(fā)展大高潮。
第一次互聯(lián)網(wǎng)大浪潮(1994年—2000年),以四大門戶和搜索為代表,能做網(wǎng)站的工程師就可以被稱為技術(shù)牛人;第二次互聯(lián)網(wǎng)大浪潮(2001年—2008年),從搜索到PC端社交化網(wǎng)絡(luò)的發(fā)展,我們的社交形態(tài)發(fā)生了根本的變化,從線下交流正轉(zhuǎn)變?yōu)榫€上交流,大量的數(shù)據(jù)開始生成;第三次互聯(lián)網(wǎng)大浪潮(2009年—2014年)PC端互聯(lián)網(wǎng)到移動(dòng)互聯(lián)網(wǎng),此時(shí)各種APP如雨后春筍般的冒出來,盡管后來有很多APP都死了,但是移動(dòng)互聯(lián)網(wǎng)幾乎顛覆了整個(gè)中國老百姓個(gè)人生活和商業(yè)形態(tài),改變著我們每一個(gè)人的生活、消費(fèi)、社交、出行方式等。
那第四次是什么呢?沒錯(cuò),第四次互聯(lián)網(wǎng)大浪潮(2015—至今),是在前3次發(fā)展基礎(chǔ)上,以大數(shù)據(jù)、云計(jì)算為背景發(fā)展起來的人工智能技術(shù)革命,分布式計(jì)算讓大數(shù)據(jù)處理提速,而昔日隕落的巨星深度學(xué)習(xí)此刻再次被喚醒,并很快在圖像和語音方面取得重大突破,但在自然語言方面卻顯得有些暗淡,突破并不是很大。盡管有很多人都去從事計(jì)算機(jī)視覺、語音等方面的工作,但隨著AI的繼續(xù)發(fā)展,在NLP方向顯得越來越重要。
接著,我們總結(jié)一下數(shù)據(jù)領(lǐng)域成就和挑戰(zhàn)
有一個(gè)不可否認(rèn)的事實(shí),當(dāng)前從事互聯(lián)網(wǎng)的人們已經(jīng)制造出了海量的數(shù)據(jù),未來還將繼續(xù)持續(xù),其中包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。筆者發(fā)現(xiàn),對于結(jié)構(gòu)化數(shù)據(jù)而言,在大數(shù)據(jù)、云計(jì)算技術(shù)“上下齊心”的大力整合下,其技術(shù)基本趨向成熟和穩(wěn)定,比如關(guān)系型數(shù)據(jù)庫以及基于Hadoop的HDFS分布式文件系統(tǒng)、Hive數(shù)據(jù)倉庫和非關(guān)系型數(shù)據(jù)庫Hbase,以及Elasticsearch集群等數(shù)據(jù)存儲(chǔ)的關(guān)系數(shù)據(jù)庫或者NoSql,可以用來管理和存儲(chǔ)數(shù)據(jù);基于MapReduce、Spark和Storm、Flink等大數(shù)據(jù)處理框架可以分別處理離線和實(shí)時(shí)數(shù)據(jù)等。而半結(jié)構(gòu)化、非結(jié)構(gòu)化的數(shù)據(jù),除了以ELK為代表的日志處理流程,過去在其它限定領(lǐng)域基于規(guī)則和知識(shí)庫也取得了一定的成果,因其自身的復(fù)雜性,未來更多領(lǐng)域應(yīng)用都具有很大的困難和挑戰(zhàn)。
最后,我們看看國內(nèi)外人工智能領(lǐng)域的工業(yè)現(xiàn)狀
今年5月19日有幸在北京國家會(huì)議中心參加了2018全球人工智能技術(shù)大會(huì)(GAITC)。在大會(huì)上,從中國科學(xué)院院士姚期智提出人工智能的新思維開始,其重點(diǎn)講述了人工神經(jīng)網(wǎng)絡(luò)為代表的深度學(xué)習(xí)以及量子計(jì)算機(jī)將是未來發(fā)展的新思維;緊接著中國工程院院士李德毅分享了路測的學(xué)問-無人駕駛的后圖靈測試,提出未來無人駕駛挑戰(zhàn)應(yīng)該是讓無人駕駛具有司機(jī)的認(rèn)知、思維和情感,而不是當(dāng)前以GPS定位和動(dòng)力學(xué)方面解決無人駕駛的問題;接下來微軟全球資深副總裁王永東向我們展示的微軟小冰,大家一起見證了微軟小冰在社交互動(dòng)、唱歌、作詩、節(jié)目主持和情感方面不凡的表現(xiàn),而本人也真實(shí)測試了一下,小冰現(xiàn)在的表現(xiàn)已經(jīng)非常優(yōu)秀了,可以作詩、唱歌、聊天、節(jié)目主持等。然而要達(dá)到一個(gè)成年自然人的水平,在某些方面還不能完全表現(xiàn)出人的特性。下面這幅圖是微軟小冰的個(gè)人介紹,有興趣可以在微信公眾號關(guān)注小冰,進(jìn)行體驗(yàn)。
人工智能產(chǎn)業(yè)的快速發(fā)展,資本市場大量資金涌入,促使中國人工智能領(lǐng)域投融資熱度快速升溫。充分表明資本市場對于人工智能發(fā)展前景的認(rèn)可?!?018年人工智能行業(yè)創(chuàng)新企業(yè)Top100》發(fā)布,據(jù)榜單顯示:進(jìn)入2018年人工智能行業(yè)創(chuàng)新企業(yè)前十名的企業(yè)分別是:百度、阿里云、美圖秀秀、華大基因、科大訊飛、微鯨科技、華云數(shù)據(jù)、愛馳億維、青云、七牛云。作為人工智能的一個(gè)重要組成部分,自然語言處理(NLP)的研究對象是計(jì)算機(jī)和人類語言的交互,其任務(wù)是理解人類語言并將其轉(zhuǎn)換為機(jī)器語言。在目前的商業(yè)場中,NLP技術(shù)用于分析源自郵件、音頻、文件、網(wǎng)頁、論壇、社交媒體中的大量半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),市場前景巨大。
為什么說未來數(shù)據(jù)領(lǐng)域的珠穆朗瑪峰是中文自然語言處理?
正是基于上面對中國互聯(lián)網(wǎng)發(fā)展的總結(jié),對當(dāng)前數(shù)據(jù)領(lǐng)域所面臨的挑戰(zhàn)以及資本市場對人工智能的認(rèn)可分析,未來數(shù)據(jù)領(lǐng)域的重點(diǎn)是自然語言處理技術(shù)及其在智能問答、情感分析、語義理解、知識(shí)圖譜等應(yīng)用方面的突破。對于我們國內(nèi)中文來說,如何更好的把前面所說的應(yīng)用在中文處理上,顯得更為重要和急迫,所以筆者認(rèn)為未來數(shù)據(jù)領(lǐng)域的珠穆朗瑪峰是中文自然語言處理 。
作為初學(xué)者,我們目前面又臨這樣的尷尬,網(wǎng)上大部分自然語言處理內(nèi)容都是英文為基礎(chǔ),大多數(shù)人先是學(xué)好了英語的處理,回頭來再處理中文,卻發(fā)現(xiàn)有很大的不同,這樣不僅讓中文自然語言處理學(xué)習(xí)者走了彎路,也浪費(fèi)了大量時(shí)間和精力。中文的處理比英文復(fù)雜的多,網(wǎng)上中文相關(guān)資料少之又少,國內(nèi)純中文自然語言處理書籍只有理論方面的,卻在實(shí)戰(zhàn)方面比較空缺,這讓中文自然語言處理的研究開發(fā)工作感到舉步維艱,很難下筆。
總結(jié)
以上是生活随笔為你收集整理的未来数据领域的珠穆朗玛峰之中文自然语言处理的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: mysql如果带有换行的处理方式
- 下一篇: R 缺失值处理