基于机器学习与人工智能的数据(数据库+大数据)技术
? ? ? ?該文主要介紹了數(shù)據(jù)技術(shù)的發(fā)展現(xiàn)狀和展望,通過對第35屆中國數(shù)據(jù)庫學術(shù)會議的內(nèi)容整理以及總結(jié)而成,希望能夠給以后打算從事數(shù)據(jù)庫研發(fā)或者開發(fā)的朋友們指點迷津。本文主要內(nèi)容包括:1.數(shù)據(jù)新技術(shù)簡介,2.數(shù)據(jù)質(zhì)量管理(data cleaning),3.數(shù)據(jù)分析技術(shù),4.大數(shù)據(jù)技術(shù)的發(fā)展,5.數(shù)據(jù)技術(shù)的研究熱點,6.總結(jié)。
- 數(shù)據(jù)新技術(shù)簡介?
? ? ? ?隨著大數(shù)據(jù)、機器學習(深度學習)、人工智能、區(qū)塊鏈等相關(guān)技術(shù)的迅速發(fā)展,數(shù)據(jù)技術(shù)發(fā)生著巨大的變化。我們通過兩個例子來說明這一點,第一個例子就拿數(shù)據(jù)質(zhì)量管理中的實體識別(entity resolution)來說,對于兩個實體(比如數(shù)據(jù)庫里面的兩條記錄),要判斷它們是否是同一個實體,我們一般的傳統(tǒng)做法是通過定義很多相似度函數(shù)(similar function)來生成兩個記錄的相似向量(向量中的每一維代表不同屬性的相似度,因為一個實體有多個屬性,所以要定義很多相似度函數(shù)),再通過對相似向量權(quán)值相加算出總體的相似度(標準化,一般滿足[0,1]之間),緊接著設(shè)置一個閾值a,若總體相似度大于a,則實體匹配,否則不匹配,這樣做的效果很不理想。而現(xiàn)在我們通常借助于機器學習的方法來訓練權(quán)值以及分類器,或者基于圖計算以及深度學習方法來生成一些非監(jiān)督分類器算法,這一些方法與傳統(tǒng)的方法相比,它的效率與準確率有了很大的提升。第二個例子是數(shù)據(jù)庫語言的變化,眾所周知現(xiàn)在最流行的查詢語言是SQL,但是隨著未來技術(shù)的發(fā)展,通過自然語言支持數(shù)據(jù)庫查詢,或者是將機器學習語言納入到數(shù)據(jù)庫查詢語言將是一個非常具有發(fā)展?jié)摿Φ难芯糠较?。因而未來的?shù)據(jù)庫發(fā)展離不開現(xiàn)在熱門的機器學習和人工智能技術(shù),而機器學習和人工智能也會借鑒數(shù)據(jù)庫中的一些知識,完美自己,通過兩者不斷的迭代和相互促進,共同發(fā)展。
- 數(shù)據(jù)質(zhì)量管理
? ? ? ?數(shù)據(jù)清洗是數(shù)據(jù)管理中非常重要的一個方面,數(shù)據(jù)清洗主要包括錯誤檢測(error detection)和數(shù)據(jù)修復(fù)(data repairing)兩個過程。錯誤檢測主要包括數(shù)據(jù)丟失(NULL or N/A)、數(shù)據(jù)去重(duplicate data)、數(shù)據(jù)違規(guī)(data violation)以及數(shù)據(jù)錯誤(data error)。數(shù)據(jù)修復(fù)技術(shù)主要包括基于限制的(constraint-based)、基于規(guī)則(rule-based)、基于統(tǒng)計的(statistical)、基于人機共生(human-in-the-loop)的一些方法。而這些方法越來越多的由機器來完成,因此我們可以發(fā)現(xiàn)現(xiàn)在的數(shù)據(jù)清洗技術(shù)充滿著大量的機器學習人工智能技術(shù)。隨著機器學習以及云計算的發(fā)展,未來的研究方向主要包括:生成標準測試集(benchmark)、數(shù)據(jù)清理和眾包(crowdsourcing)技術(shù)的結(jié)合、數(shù)據(jù)清理和深度學習的結(jié)合、隱私數(shù)據(jù)的清理、數(shù)據(jù)清理與遷移學習的結(jié)合。
- 數(shù)據(jù)分析技術(shù)
? ? ? ?數(shù)據(jù)挖掘是一個傳統(tǒng)的數(shù)據(jù)分析技術(shù),隨著大數(shù)據(jù)的到來,數(shù)據(jù)的多樣性和大量性促使著傳統(tǒng)數(shù)據(jù)挖掘技術(shù)的發(fā)展,它不再僅僅處理結(jié)構(gòu)化的數(shù)據(jù),未來的發(fā)展主要包括web數(shù)據(jù)挖掘、文本數(shù)據(jù)挖掘、時序數(shù)據(jù)挖掘(數(shù)據(jù)具有時間屬性,如臨床路徑數(shù)據(jù))、時空數(shù)據(jù)挖掘(數(shù)據(jù)由時間和空間兩個維度,如GPS定位)、圖數(shù)據(jù)挖掘、大數(shù)據(jù)挖掘。而大數(shù)據(jù)挖掘也會常常用到大數(shù)據(jù)近似算法,它利用采樣(sampling)、略圖(sketch)、摘要等技術(shù),引入可控誤差,解決由大數(shù)據(jù)規(guī)模帶來的時間/空間/通訊量效率的問題。大數(shù)據(jù)的近似算法不像傳統(tǒng)的近似算法(NP完全問題的近似解),它是P問題的線性甚至亞線性時間近似解,隨著數(shù)據(jù)規(guī)模的進一步擴展,近似算法將在大數(shù)據(jù)處理和分析鄰域發(fā)揮越來越大的作用。
- 大數(shù)據(jù)技術(shù)的發(fā)展
? ? ? ?經(jīng)過40余年的發(fā)展,當今信息技術(shù)社會正在經(jīng)歷IT時代到DT時代的轉(zhuǎn)變,大數(shù)據(jù)技術(shù)正在深刻的影響著社會和世界?,F(xiàn)在的大數(shù)據(jù)技術(shù)主要包括Apache Hadoop、Apache Spark(批處理平臺)、Spark Streaming、Apache Flink(流處理平臺)、Apache Beam(混合批流處理平臺,它緊緊是一個框架,沒有真正的技術(shù)引擎)。隨著技術(shù)的發(fā)展和需求的增加,未來大數(shù)據(jù)主要集中在三個方面:第一是批流融合,因為現(xiàn)在還沒有一個真正意義上的批流融合大數(shù)據(jù)計算系統(tǒng),而未來批流融合的現(xiàn)實需求非常巨大(如雙十一),該系統(tǒng)需要統(tǒng)一數(shù)據(jù)模型、統(tǒng)一操作、計算模型、統(tǒng)一用戶接口等等。第二是跨域處理,我們只需要在自己的節(jié)點去分析去計算,然后將計算的結(jié)果進行傳輸和融合,而不像現(xiàn)在的將數(shù)據(jù)集中起來。第三是邊緣計算,利用邊緣計算的能力,例如IoT、可穿戴設(shè)備、自動駕駛汽車、無人飛機、AR/VR設(shè)備等,提供高性能和低延時的邊緣大數(shù)據(jù)計算平臺。
- 數(shù)據(jù)技術(shù)的研究熱點
? ? ? ?未來數(shù)據(jù)技術(shù)主要會集中在圖數(shù)據(jù)、文本數(shù)據(jù)、時空數(shù)據(jù)以及文本數(shù)據(jù)等類型;機器學習與數(shù)據(jù)管理技術(shù)的結(jié)合,如自然語言支持數(shù)據(jù)庫的查詢、機器學習引入查詢優(yōu)化(分布式查詢優(yōu)化)、機器學習技術(shù)減少數(shù)據(jù)庫參數(shù)配置的代價、機器學習技術(shù)提高數(shù)據(jù)庫中特有查詢,如近似查詢的效果等等;現(xiàn)有關(guān)系型數(shù)據(jù)庫發(fā)展,如海量并發(fā)事務(wù)管理、新的面向內(nèi)存的架構(gòu)設(shè)計,減少封鎖、IO代價等;圖數(shù)據(jù)管理技術(shù)發(fā)展,如圖數(shù)據(jù)挖掘、知識圖譜、圖數(shù)據(jù)應(yīng)用(異常檢測、應(yīng)用)、大數(shù)據(jù)環(huán)境下傳統(tǒng)圖問題的新方法(分布式、近似算法等);數(shù)據(jù)分析技術(shù)發(fā)展,如深度學習模型及其在不同數(shù)據(jù)的應(yīng)用、時序數(shù)據(jù)的深度分析與挖掘、基于強化學習的數(shù)據(jù)分析方法、關(guān)聯(lián)規(guī)則、聚類、異常發(fā)現(xiàn)等;人工智能和深度學習技術(shù),將進一步和數(shù)據(jù)管理融合,在數(shù)據(jù)表示、查詢語言、執(zhí)行優(yōu)化、生命周期管理等方面提升數(shù)據(jù)管理的智能化;區(qū)塊鏈技術(shù)也是一個很有意義的研究方向。
- 總結(jié)
? ? ? ?我們可以看出未來的數(shù)據(jù)庫技術(shù)將與機器學習人工智能技術(shù)息息相關(guān)、互相促進、共同繁榮,加之大數(shù)據(jù)和云計算的發(fā)展,也將促使著數(shù)據(jù)庫技術(shù)的巨大發(fā)展(甚至變革),而這些發(fā)展都需要我們解決一些底層的課題,這就需要學術(shù)界和工業(yè)界的深度融合,相互合作,我們堅信未來的數(shù)據(jù)庫技術(shù)是非常有發(fā)展?jié)摿Φ?#xff0c;以及有著豐富多彩的先進知識。
總結(jié)
以上是生活随笔為你收集整理的基于机器学习与人工智能的数据(数据库+大数据)技术的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 尺子英语怎么读计算机英语怎么读,尺子英语
- 下一篇: SQL Server研习录(08)——L