日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【2016年第3期】大数据时代的数据科学家培养

發布時間:2025/3/15 编程问答 22 豆豆
生活随笔 收集整理的這篇文章主要介紹了 【2016年第3期】大数据时代的数据科学家培养 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

朱揚勇1,2,熊贇1,2

1.復旦大學計算機科學技術學院,上海? 200433;2.上海市數據科學重點實驗室,上海? 200433


摘要:大數據時代,最熱門的職業是數據科學家(data scientist),而不是傳統的信息科學家,也不是大數據工程師。大數據熱潮促進了數據科學(data science)研究進入快速發展期,數據科學家的培養也受到廣泛重視,越來越多的大學啟動數據科學學位培養計劃,但值得注意的是,當前數據科學家培養的基礎條件缺乏,其知識結構、學科體系、人才培養計劃尚未建立。結合大數據時代的人才要求,給出了科學、系統的數據科學人才知識體系,提出了超學科、多類型的培養模式。

關鍵詞:數據科學;數據科學家;人才培養;大數據

中圖分類號:TP399 ?????????文獻標識碼:A

doi: 10.11959/j.issn.2096-0271.2016035

論文引用格式:朱揚勇,熊贇.?大數據時代的數據科學家培養[J]. 大數據, 2016, 2(3): 106-112.

ZHU Y Y, XIONG Y.?Training data scientists in the era of big data[J]. Big Data Research,?2016, 2(3): 106-112.


Training data scientists in the era of big data

ZHU Yangyong1,2, XIONG Yun1,2

1. School of Computer Science, Fudan University, Shanghai 200433, China

2. Shanghai Key Lab of Data Science, Shanghai 200433, China

Abstract: In the age of big data, data scientist has become a hot occupation, supplanting traditional information scientist and big data engineer. Big data boom has been pushing data science research into fast development phase. How to train data scientists has been paid widespread attentions. Many universities launched data science degree training plans. The current situations in data scientists training were analyzed. The achievements of training data scientists in Fudan University were summarized. A systematical data scientists training plan was proposed.

Key words: data science, data scientist, talents training, big data


1 ?引言

數據是網絡空間(cyberspace)的唯一存在,網絡空間的數據呈現出不可控、未知性、多樣性、復雜性等自然界的特征,網絡空間的所有數據組成了數據界(data nature)[1,2]。2008年,朱揚勇等指出“數據資源是重要的現代戰略資源,其重要性越來越顯現,在本世紀有可能超過石油、煤炭、礦產,成為最重要的人類資源”[3]。數據資源作為一種基礎性、戰略性資源得到了空前關注,數據資源的開發利用被許多國家提高到了戰略高度,紛紛出臺大數據戰略。

提高數據資源開發利用水平、保護國家的戰略資源是增強我國綜合國力和國際競爭力的必然選擇[3]。對數據資源的開發利用已形成數據產業,其產業鏈主要包括:從網絡空間獲取數據并進行整合、加工和生產;數據產品傳播、流通和交易[4]。代表性企業有Google、Facebook、百度、萬得資訊、萬方數據等。在這個新的生產鏈上急需數據人才。不僅如此,越來越多的領域發現數據的價值,大數據[5]對人類社會發展、科學研究、經濟建設、文化生活的各個領域正在產生革命性的影響。于是,數據科學家作為一種最熱門的職業在工業界已經受到追捧,例如電商、廣告媒體、汽車制造行業等都在尋找數據科學家為其探尋數據價值,贏取利潤高點。

早在2011年,McKinsey公司預測到2018年,僅在美國本土就可能面臨缺乏19萬具備深入分析數據能力人才的情況,同時具備通過分析大數據并為企業做出有效決策的數據管理人員和分析師也有150萬人的缺口[6];美國專業招聘公司羅致恒富(Robert Halt)公布的《2015薪資指南(2015 salary guide)》也已把大數據人才列為薪資漲幅最大的六大行業之一。

目前,數據人才主要來自IT、管理、與企業相關的專業領域等各個方向,通過相互合作形成數據分析決策。但是,情況正在發生變化,例如,Google Translate團隊在一次招聘中僅招收多名計算機科學家,卻沒有招收一名語言學家,并且其部門主管Franz Josef Och是計算機科學家,并不精通語言學。這個案例說明,培養數據科學家并不是將幾種技能的人簡單地聚集成一個團隊,而是應該探索一種轉型模式,Google Translate團隊中這些計算機背景的人才是正在向真正數據科學家轉型的新型人才。

然而,目前數據科學人才培養、數據科學學科建設等剛剛起步,尚未形成持續為社會培養和輸送不同層次數據人才的教育培養體系。面對大數據時代數據人才緊缺現狀,大學有必要盡快研究數據科學學科構成和新型數據人才的培養體系,開設數據科學學科專業,提升人才培養和輸出能力。

?

2? 數據科學家培養現狀

大數據時代,最熱門的職業是數據科學家,而不是傳統的信息科學家,也不是大數據工程師。在此之前,大學沒有設置數據科學學科和專業。近幾年,數據科學家培養開始受到大學的重視,并快速發展。

2010年起,各國大學開始了數據科學人才培養工作。美國哥倫比亞大學從2011年起開設《數據科學導論》課程,2013年起開設《應用數據科學》課程以及“數據科學專業成就認證”培訓項目,并從2014年起設立碩士學位,2015年起設立博士學位;美國加州大學伯克利分校從2011年起開設《數據科學導論》課程,并從2012年起開設《數據科學和分析》課程;美國伊利諾伊大學香檳分校從2011年起舉辦“數據科學暑期研究班”;美國紐約大學從2013年秋季起設立“數據科學”碩士學位;美國華盛頓大學從2013年5月起開設《數據科學導論》課程,并對修滿數據科學相關課程學分的學生頒發數據科學證書;美國芝加哥大學開設夏季數據科學培訓課程;美國南加州大學設立“數據科學”碩士學位;美國雪城大學也提供數據科學高級研究證書培訓項目;英國鄧迪大學從2013年起設立“數據科學”科學碩士學位。

在中國,復旦大學從2007年起開設數據科學討論班,2010年開始招收數據科學博士研究生,并從2013年起開設研究生課程《數據科學》,2014年開始舉辦數據科學家訓練營,2015年開始正式招收數據科學專業研究生以及本科第二專業學位;香港中文大學自2008年起設立了“數據科學商業統計”科學碩士學位;清華大學于2014年推出大數據碩士項目,并于2014年9月開始招收研究生。

盡管數據科學的學位項目大量出現,但是,對數據科學家的培養還缺少統一的認識,具體表現在兩個方面。

(1)數據科學缺少統一的認識,研究機構發展迅速,但學科體系還沒有建立

事實上,數據科學已經發展了很多年,遠比大數據早,1966年,Peter Naur建議計算機科學應該被稱為Datalogy,即“關于研究數據使用和本質科學”[7]。2009年,朱揚勇等對數據科學進行了定義,并引入Dataology一詞[1]。2008年《Nature》、2011年《Science》都出版了關于數據研究的專輯,隨后Microsoft、IBM、Google等公司都開始了大數據技術研究,大數據熱潮促進了數據科學研究進入快速發展期。國內外紛紛成立數據科學研究機構,例如,美國哥倫比亞大學數據科學和工程研究院、美國紐約大學數據科學研究中心、英國帝國理工學院數據科學研究院、中國科學院虛擬經濟和數據科學研究中心、上海市數據科學重點實驗室、清華大學數據科學研究院、中山大學數據科學學院、華東師范大學數據科學與工程研究院等。

然而,數據科學還缺少統一的認識。當前,數據科學概念和觀點出現在科學數據處理領域、計算機科學領域、統計學領域、商業智能應用等方面。這些概念和觀點的基本思想是:認為數據科學是“從領域數據中獲取知識,為現有的科學研究、管理決策提供服務”。這些工作還不足以形成一個新的科學,因為它們的研究對象仍然是現實中的事物,并且相應的科學問題也都是現有科學領域的問題,數據科學學科體系尚未建立。

(2)數據科學家的知識結構還沒有形成統一框架

信息化是一個生產數據的過程。目前,幾乎所有領域都已經或正在信息化,都或多或少地使用計算機來解決遇到的數據存儲和數據計算問題,計算機科學與技術無疑成為數據科學家的基本技能。現有的數據科學家很大一部分來自于計算機學科,具備計算機科學相關專業背景,掌握處理大數據所必需的Hadoop、Spark、Mahout等大規模并行處理技術、數據挖掘與機器學習知識。但是,數據科學的研究對象、目的和方法等都與計算機科學、信息科學和知識科學有本質的不同[1,2],僅僅具備這些計算機技能并不能被稱為一個真正的數據科學家。

科學研究的對象也信息化了,變成了計算機中的數據,并且需要處理的數據越來越多,形成了專門的科學數據處理領域,于是有了生物信息學、地理信息學、行為信息學等。科學家可以通過研究數據來研究自然和行為,數據科學為科學研究提供了數據方法。于是,數據科學家的培養逐步發展為多領域聯合培養。在培養過程中,領域專家重點是學習如何將領域業務需求轉化為數據問題交給數據分析人員,并不關注數據處理細節;而數據分析人員注重對領域專家所給的數據集進行處理,缺乏對領域知識的理解。這是目前數據科學家培養的常見方式,但卻缺乏系統性。

?

3? 如何培養數據科學家

自計算機發明以來,人們一直在處理和使用數據,主要工作是將現實的東西用計算機數據表示,存儲在計算機中,然后管理這些數據,并在需要時使用它們。隨著數據量的不斷、快速增長,對數據的處理分析變成了科學研究、商業應用的一個重要環節,而這樣的數據分析工作往往依靠人的創造性,于是從事商業數據分析、科學數據分析的人被稱為數據科學家。近年來,對數據分析理論和技術的一些共性需求導致對數據本身的研究,例如,分析數據本身的現象和規律;研究數據每年的增長規律;預測10年后網絡空間數據的規模等,這樣就出現了專門研究數據自身規律和現象的數據科學家。

上述“從事商業(業務)數據分析的人”、“從事科學數據分析的人”、“研究數據的人”是目前被稱為數據科學家的3類人。但在解決一個大數據分析問題時,常常是由來自于數學與統計、計算機和業務領域的一個數據科學家團隊完成。這說明,目前在大學沒有什么專業具備了數據科學家所需要的知識,這是一個新問題。

下面,以精準營銷與數據相關的業務為例,討論數據科學家做什么工作。

簡單地將一個互聯網精準營銷描述為:“將商品推薦給可能購買的人群”。其具體實施則涉及工程、技術和科學3個層次的工作,見表1。

表 1?? 數據科學家做什么(以精準營銷為例)

(1)工程實施

作為互聯網廣告,當用戶上網登錄頁面時,需要在不到100 ms的時間內將廣告彈出,這主要是一個工程實施的問題。

(2)業務模型和技術手段

精準營銷的業務模型包括商品分類和人群分類,對應的技術手段主要是聚類分析等數據挖掘技術。

(3)科學研究

聚類分析的核心是相似性及其計算。如何確定兩個客戶是相似的,這是一個科學問題,需要科學家創造性地勞動。不同的相似性設計會導致不同的聚類結果,不同的聚類結果會導致不同的營銷精準性,最后導致營銷效果,即商品銷售。

“精準營銷”的例子也說明了為什么叫做數據科學家。因為這些人是在從事創造性的工作,是在發現數據的現象和規律,而不是從事制造性工作,他們的工作結果會有不確定性,因此是一項科學工作,所以他們是數據科學家。

2014年,Cleveland W S提出了一個數據科學行動計劃,指出了數據科學需要發展的重要方面(跨領域數據分析能力、數據建模和方法、數據計算能力、學科規劃、工具、基礎理論)[8]筆者認為,數據科學是研究數據界的科學或關于數據的科學[1,2,9,10],主要由兩部分組成:一是研究數據本身的規律和現象,解決關于數據界的科學問題,這部分研究工作并不考慮數據的現實含義,只研究數據自身的現象和規律,包括數據的歷史、進化和遷移等;二是研究數據表示的現實含義的現象和規律,即通過研究數據來研究現實,是指數據科學為傳統科學研究提供了方法,其目的在于揭示自然界和人類行為的現象和規律。相應地,數據科學的主要研究內容包括:數據科學基礎理論研究,如數據相似性、數據測度、數據代數、數據實驗、數據分類、數據百科全書等;數據界探索,如數據界有多大、全球數據如何增長等科學問題;科學研究的數據方法,如數據方法的框架;數據技術研究,如數據分析、數據探索、數據挖掘、數據偽裝和辨偽、領域驅動的數據技術(如生物信息學、業務智能(business intelligent,BI)和社會計算等)。

數據科學學科結構布局與數據科學的研究內容是對應的:將數據科學基礎理論研究為基礎,尤其是數據相似性理論研究是數據研究的關鍵和基礎,這是第一類數據科學家——“研究數據的人”的基礎知識結構;數據界探索作為數據科學的科學問題的探索,并且與社會科學、自然科學形成差異和支持,突出數據科學學科特色,這是第一類數據科學家——“研究數據的人”必備的知識結構;科學研究的數據方法是對現有科學研究創新研究方法,是數據科學學科的重點內容,涉及各個科學研究領域方向,這是第二類數據科學家——“從事科學數據分析的人”必備的知識結構;數據技術研究是數據科學學科的技術支撐和應用體現,這是第三類數據科學家——“從事商業(業務)數據分析的人”必備的知識結構。因此,數據科學在人才培養方面將打破原有的學科限制,數據科學家需要的知識結構是涵蓋和橫跨不同學科,融合多學科的研究方法,甚至取代并超越它們,是一種新的視角和一種新的學習體驗,即超學科[11]

數據科學家培養應該是多類型的,包括學位培養、科研人員培養和應用人才培訓。學位培養和科研人員培養的主要是在數據上做科學研究的人以及研究數據的人;而應用人才培養的主要是從事商業數據分析的人。并且,不同類型人才的培養在整個知識體系結構中的側重是不同的,其重點掌握的知識層次是有所劃分的,具體如下。

(1)學位培養

針對未來從事研究數據本身的人的學位培養,應該注重數據基礎理論的訓練,要求掌握各種數據技術;針對未來從事在數據上做科學研究的人的學位培養,則應該注重學生對專業領域知識的掌握以及對領域數據學的培養,提升在專業領域的數據能力。

(2)科研人員培養

主要是指獲得數據科學學位后,繼續從事科學研究活動的人。這里指的從事科學研究活動,包括從事數據科學研究和從事社會科學或自然科學研究。他們已經具備了學位培養期間的專業訓練,需要進一步提升他們的數據創新能力。

(3)應用人才培訓

主要針對從事商業數據分析的人才,這里包括獲得數據科學學位后從事商業數據分析的人以及未接受數據科學學位培養的社會人才,需要注重的是技能培訓,掌握大數據分析工具,例如Hadoop、Spark、MapReduce、Mahout等,熟悉大數據應用案例。以開展數據科學家訓練營或社會技能培訓的方式開展。

盡管國內數據科學家的培養已經起步,但值得注意的是,當前數據科學家培養中遭遇的主要問題是:獨立培養、缺乏交叉。在技能培訓方面,更多的是讓受訓者掌握數據分析工具,卻缺少數據科學家思維。總體而言,數據科學家培養的基礎條件缺乏,需要重視數據科學人才培養的基礎條件建設,具體如下。

● 計算條件:建設數據科學人才培養所需的計算能力,包括軟硬件環境。

● 數據條件:數據是資源,也是數據科學人才培養的核心,需要建設豐富的數據資源環境。

● 師資條件:這是目前相當缺乏的數據科學人才培養資源,也是影響未來數據科學人才培養成果的關鍵。

?

4? ?復旦大學探索實踐

上海市數據科學重點實驗室(依托復旦大學)在數據科學家培養方面起步早,主要思路是強調數據基礎、數據分析能力,注重超學科特色教育。目標是培養具有深度的數據探索能力、扎實的數據挖掘技能以及掌握數據分析工具的數據人才,能夠將數據技術、理論和方法與實際應用結合,實現數據驅動決策。

復旦大學數據科學家培養體系建設已初見成效,主要的探索成果如下。

(1)系統化的培養體系

包括青年數據科學家交流計劃、數據科學家博士后計劃、數據科學家研究生計劃、數據科學家本科第二專業計劃、軟件工程碩士大數據方向培養計劃和數據科學家訓練營計劃、數據科學FIST課程計劃,涵蓋了數據科學家培養的各個方面,是目前國際上領先的系統化的數據科學家培養計劃。

(2)多學科的課程和師資隊伍

利用實驗室多學科團隊優勢,組織數據科學家培養課件的編寫,內容涵蓋數學、計算機、金融、醫療、生物、管理、經濟、新聞等多學科領域,圍繞數據科學家所需要的數學基礎、計算機技能、領域知識和實踐經驗,設置課程和配置老師,使學生對數據科學的基本原理、方法、技術及應用進行深入的理解。

(3)雄厚的基礎設施

建設形成了近200 TB的各類數據資源,主要涵蓋:常用的科研實驗數據集;世界主要語種語料庫;交通、醫療、生物、證券期貨、社交網絡與輿情、互聯網營銷、公共設施安全、天文和遙感等應用領域的數據資源;208個CPU核心,4 032 GB內存;1 081 TB的數據存儲能力;48個萬兆以太網口、144個吉比特以太網口接入能力;30個公網地址。

?

5? 結束語

數據的生產、存儲、管理和分析已成為常態工作。大數據催生了數據科學人才的需求,數據科學為各行各業革命性的變革提供數據方法。掌握數據科學的理論基礎、數據技術的研發和科學研究的數據方法,有助于科學研究的方法創新和能力提高,有助于將數據技術與應用結合產生經濟效益,有助于數據產業的培育和發展。通過分析數據科學人才培養現狀,指出數據科學并不是簡單的學科交叉,應該基于并和所有學科相關;分析數據科學學科構成,給出數據科學系統知識結構,提出超學科數據人才培養體系,實現以團隊培養為主的數據人才培養模式向培養具有數據能力的人(而非團隊)為目標的培養模式轉變。

?

參考文獻:

[1]? ZHU Y Y, ZHONG N, XIONG Y. Data explosion, data nature and dataology[C]// International Conference on Brain Informatics, October 22-24, 2009, Beijing, China. New York: Springer, 2009: 147-158.

[2]? 朱揚勇, 熊赟. 數據學[M]. 上海: 復旦大學出版社, 2009.

?ZHU Y Y, XIONG Y. Dataology and data science[M]. Shanghai: Fudan University Press, 2009.

[3]? 上海市信息化專家委員會. 專家論城市信息化 [M]//朱揚勇, 熊赟. 數據資源保護與開發利用. 上海: 上海科技文獻出版社,2008: 133-137.

?Shanghai Informationalization Expert Committee. Expert forum on urban informationalization[M]//ZHU Y Y, XIONG Y. Protection and utilization of data resources. Shanghai: Shanghai Scientific & Technical Publishers, 2008: 133-137.

[4] ?朱揚勇. 數據科學與數據產業[J]. 科技促進發展, 2014, 10(1): 72-75.

?ZHU Y Y. Data science and data industry[J]. Science & Technology for Development, 2014, 10(1): 72-75.

[5]? 朱揚勇, 熊赟. 大數據是數據、技術,還是應用[J]. 大數據, 2015007.

?ZHU Y Y, XIONG Y. Defining big data[J]. Big Data Research, 2015007.

[6]? McKinsey Global Institute. Big data: the next frontier for innovation, competition, and productivity[R]. [S.l]: McKinsey Global Institute, 2011.

[7]? NAUR P. The science of datalogy[J]. Communications of the ACM, 1966, 9(7): 485.

[8]? CLEVELAND W S. Data science: an action plan for expanding the technical areas of the field of statistics[J]. International Statistical Review, 2001, 69(1): 21-26.

[9]? ZHU Y Y, XIONG Y. Towards data science[J]. Data Science Journal, 2015, 14(8): 1-7.

[10]? CODATA中國全國委員會. 大數據時代的科研活動[M]// 朱揚勇, 熊赟. 數據科學發展與展望. 北京: 科學出版社, 2014: 188-198.

?Chinese National Committee for CODATA. Scientific discovery in big data era[M]// ZHU Y Y, XIONG Y. Research progress and prospect for data science. Beijing: Science Press, 2014: 188-198.

[11]? BASARAB N. Transdisciplinarity: theory and practice[M]. Cresskill: Hampton Press, 2008.

朱揚勇(1963-),男,博士,復旦大學計算機科學技術學院教授、學術委員會主任,上海市數據科學重點實驗室主任。1989年起從事數據領域研究,2008年提出數據資源保護和利用,2009年發表了數據科學論文“Data explosion, data nature and dataology”,并出版專著《數據學》,對數據科學進行了系統探討和描述。2010年創辦了“International Workshop on Dataology and Data Science”,2014年和石勇、張成奇共同創辦了“International Conference on Data Science”。第462次香山科學會議“數據科學與大數據的理論問題探索” 的執行主席。《大數據技術與應用叢書》主編。目前研究興趣為數據科學、大數據。

熊贇(1980-),女,博士,復旦大學計算機科學技術學院教授。2004年起從事數據領域方面的研究工作,作為項目負責人主持國家自然科學基金、上海市科委發展基金以及企業合作項目。相關研究成果在本領域國際權威期刊或會議發表論文30余篇,出版著作3本。目前研究興趣為數據科學、大數據。

總結

以上是生活随笔為你收集整理的【2016年第3期】大数据时代的数据科学家培养的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。