1.1初步了解和认识大数据
初步了解認識大數據
任務目的
- 了解大數據的概念及其特征
- 熟悉大數據的典型應用場景
- 了解大數據部門的業務流程
任務清單
-
任務1:大數據概念
-
任務2:大數據特點
-
任務3:大數據應用場景
-
任務4:大數據發展前景
-
任務5:業務流程分析
任務1:大數據概念
何謂“大數據”(Big Data),“大數據”計量單位已經超過TB級別發展到PB、EB、ZB、YB甚至是BB級別。
“大數據”是一個較為抽象的概念,至今尚無確切、統一的定義,各方對“大數據”給出了10余種不同的定義,比較典型的是:
最早提出“大數據”這一概念的全球知名咨詢公司麥肯錫的定義:“大數據”是指在一定時間內無法用傳統數據庫軟件工具采集、存儲、管理和分析其內容的數據集合。
研究機構Gartner是這樣定義“大數據”的:“大數據”是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。
若從技術角度來看,大數據技術的戰略意義不在于掌握龐大的數據信息,而在于對這些含有意義的數據進行專業化處理。如果把大數據比作一種產業,那么這種產業實現盈利的關鍵,在于提高對數據的“加工能力”,通過“加工”實現數據的“增值”。
任務2:大數據特點
一般認為,大數據主要具有以下5個方面的典型特征,即規模性(Volume)、多樣性(Variety)、高速性(Velocity)、價值性(Value)、以及真實性(Veracity),即所謂的5V,接下來,通過一張圖來具體描述。
接下來針對圖中的 5V 特征進行簡要介紹,具體如下。
大數據的特征首先就是數據規模大。
從前MP3時代,一個小小的MB級別的MP3就可以滿足很多人的需求,然而隨著時間的推移,存儲單位從過去的GB到TB,乃至現在的PB、EB級別。隨著信息技術的高速發展,數據開始爆發性增長。社交網絡(微博、推特、臉書)、移動網絡、各種智能工具,服務工具等,都成為數據的來源。
淘寶網近4億的會員每天產生的商品交易數據約20TB;臉書約10億的用戶每天產生的日志數據超過300TB。迫切需要智能的算法、強大的數據處理平臺和新的數據處理技術,來統計、分析、預測和實時處理如此大規模的數據。
數據相關計量單位的換算關系下表所示:
廣泛的數據來源,決定了大數據形式的多樣性。大數據可以分為三類:
一是結構化數據,指的是可以使用關系型數據庫表示和存儲,表現為二維形式的數據。一般特點是:數據以行為單位,一行數據表示一個實體的信息,每一行數據的屬性是相同的。如財務系統數據、信息管理系統數據、醫療系統數據等;
二是非結構化的數據,指的是數據結構不規則或不完整,沒有預定義的數據模型,不方便用數據庫二維邏輯表來表現的數據。如視頻、圖片、音頻等;
三是半結構化數據,是結構化數據的一種形式,它并不符合關系型數據庫或其他數據表的形式關聯起來的數據模型結構,但包含相關標記,用來分隔語義元素以及對記錄和字段進行分層。因此,它也被稱為自描述的結構。半結構化數據,屬于同一類實體可以有不同的屬性,即使他們被組合在一起,這些屬性的順序并不重要。如HTML文檔、JSON數據、郵件、網頁等。
有統計顯示,目前結構化數據占據整個互聯網數據量的75%以上,而產生價值的大數據,往往是這些非結構化數據。
數據的增長速度和處理速度是大數據高速性的重要體現。與以往的報紙、書信等傳統數據載體生產傳播方式不同,在大數據時代,大數據的交換和傳播主要是通過互聯網和云計算等方式實現的,其生產和傳播數據的速度是非常迅速的。
另外,海量數據的背后帶來的是更大的挑戰,即如何快速計算分析大數據已經成為當下熱門的話題。舉個常見的例子,我們經常使用百度搜索去找自己想要的商品,那么百度是在成千上萬的結果中毫秒級的找到符合你關鍵詞的選項呢,這就需要大數據的高速處理能力。
大數據的核心特征是價值,其實價值密度的高低和數據總量的大小是成反比的,即數據價值密度越高數據總量越小,數據價值密度越低數據總量越大。
任何有價值的信息的提取依托的就是海量的基礎數據。當然,目前大數據背景下有個未解決的問題,如何通過強大的機器算法更迅速地在海量數據中完成數據的價值提純。
真實性,其實就是數據的質量,海量數據并不一定都能反映用戶真實的行為信息或者客觀事物的真實信息。以網頁訪客數據為例,很多網站為了賺取更多的廣告費用,會使用作弊機器人對廣告進行點擊,這樣其實就造成了作弊流量,而這些流量并不能反映用戶真實需求。
任務3:大數據應用場景
大數據無處不在,大數據應用于各個行業,包括金融、汽車、餐飲、電信、能源、體能和娛樂等在內的社會各行各業都已經融入了大數據的印跡。
電商是最早利用大數據進行精準營銷的行業,除了精準營銷,電商可以依據客戶消費習慣來提前為客戶備貨,并利用便利店作為貨物中轉點,在客戶下單15分鐘內將貨物送上門,提高客戶體驗。
例如:馬云的菜鳥網絡宣稱的24小時完成在中國境內的送貨;以及劉強東宣傳未來京東將在15分鐘完成送貨上門都是基于客戶消費習慣的大數據分析和預測。
隨著大數據技術的應用,越來越多的金融企業也開始投身到大數據應用實踐中。
麥肯錫的一份研究顯示,金融業在大數據價值潛力指數中排名第一。
典型的案例有:花旗銀行利用IBM沃森電腦為財富管理客戶推薦產品;美國銀行利用客戶點擊數據集為客戶提供特色服務,如有競爭的信用額度;招商銀行利用客戶刷卡、存取款、電子銀行轉帳、微信評論等行為數據進行分析,每周給客戶發送針對性廣告信息,里面有顧客可能感興趣的產品和優惠信息。
可見,大數據在金融行業的應用可以總結為以下五個方面:精準營銷、風險管控、決策支持、效率提升以及產品設計。
大數據讓就醫、看病更簡單。隨著大數據在醫療行業的深度融合,大數據平臺積累了海量的病例、病例報告、治愈方案、藥物報告等信息資源,所有常見的病例、既往病例等都記錄在案,醫生通過有效、連續的診療記錄,能夠給病人優質、合理的診療方案。這樣不僅提高醫生的看病效率,而且能夠降低誤診率,從而讓患者在最短的時間接受最好的治療。
零售行業大數據應用有兩個層面,一個層面是零售行業可以了解客戶消費喜好和趨勢,進行商品的精準營銷,降低營銷成本。另一層面是依據客戶購買產品,為客戶提供可能購買的其它產品,擴大銷售額,也屬于精準營銷范疇。例如:美國零售業的傳奇故事——“啤酒與尿布”。
交通作為人類行為的重要組成和重要條件之一,對于大數據的感知也是最急迫的。目前,交通的大數據應用主要在兩個方面,一方面可以利用大數據傳感器數據來了解車輛通行密度,合理進行道路規劃包括單行線路規劃。另一方面可以利用大數據來實現即時信號燈調度,提高已有線路運行能力。
《黑貓警長》大家都很熟悉,它講述的是“黑貓警長”如何精明能干、對壞人窮追不舍、跌宕起伏的故事情節。拿到大數據時代背景下的話,雖然它也能體現“黑貓警長”的盡職盡責、聰明能干,但更多的會歸結到一個問題:為何還是如此的被動、低效?疾病可以預防,難道犯罪不能預防么?
答案是肯定的。國家正在將大數據技術用于輿情監控,其收集到的數據除了解民眾訴求,降低群體事件之外,還可以用于犯罪管理。
任務4:大數據發展前景
\1. 大數據發展前景之國家政策
黨的十八大提出“實施國家大數據戰略”,國務院印發《促進大數據發展行動綱要》,大數據技術和應用處于創新突破期,國內市場需求處于爆發期,我國大數據產業面臨重要的發展機遇。
黨的十九大提出“推動互聯網、大數據、人工智能和實體經濟深度融合”。
\2. 大數據發展前景之國際方面
國際數據公司IDC預測,到2020年,企業基于大數據計算分析平臺的支出將突破5000億美元。目前,我國大數據人才只有46萬,未來3到5年人才缺口達150萬之多。
\3. 大數據發展前景之高校方面
2016年北京大學、對外經濟貿易大學、中南大學首次成功申請到“數據科學與大數據技術”本科新專業。2017年,第二批32所高校獲批。2018年教育部最新公布的高校新增專業名單中,有248所學校獲批,是過去兩次審批通過額度近8倍。
目前,全國共有283所本科高校開設“數據科學與大數據技術”專業,270所高職院校成功申報“大數據技術與應用”專業,199所本科高校在建設人工智能專業。
任務5:業務流程分析
1.產品人員提需求:統計總用戶數、日活躍用戶數、回流用戶數等
2.數據部門搭建數據平臺、分析數據指標
3.數據可視化(報表展示,郵件發送,Echarts)
高職院校成功申報“大數據技術與應用”專業,199所本科高校在建設人工智能專業。
任務5:業務流程分析
1.產品人員提需求:統計總用戶數、日活躍用戶數、回流用戶數等
2.數據部門搭建數據平臺、分析數據指標
3.數據可視化(報表展示,郵件發送,Echarts)
總結
以上是生活随笔為你收集整理的1.1初步了解和认识大数据的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: AutoCAD中程序化加载.NET程序集
- 下一篇: java.lang.IllegalArg