日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

四说大数据时代“神话”:从大数据到深数据

發(fā)布時間:2025/5/22 编程问答 18 豆豆
生活随笔 收集整理的這篇文章主要介紹了 四说大数据时代“神话”:从大数据到深数据 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

在機器學習方面始終有個基礎性的誤會,即更大的數(shù)據(jù)會形成更快的學習效果。殊不知,更大的數(shù)據(jù)并非意味著能發(fā)現(xiàn)更深刻的信息。事實上,與數(shù)據(jù)的規(guī)模相較,數(shù)據(jù)的質量、價值和多樣性更最該關注,即數(shù)據(jù)的“深度”勝于“廣度”。文中從三個角度思索了大數(shù)據(jù)時代的問題并提出了一些建議的做法以改進這些問題。

現(xiàn)今,人們看待數(shù)據(jù)理應更為深思熟慮,而不是不加刷選地搜集全部可獲取的數(shù)據(jù)來實現(xiàn)“大數(shù)據(jù)”。我們如今需要讓某些數(shù)據(jù)落實到位,并搜尋數(shù)量和質量的多樣性。這一措施將產(chǎn)生很多長久的利益。

四種大數(shù)據(jù)神話:

任何數(shù)據(jù)都能夠而且理應被捕捉和儲存。

大量的數(shù)據(jù)總是有利于創(chuàng)建更精確的分折模型。

存儲大量數(shù)據(jù)的成本基本上為零。

計算大量數(shù)據(jù)的成本基本上為零。

殊不知:

來自物聯(lián)網(wǎng)和網(wǎng)絡流量的數(shù)據(jù)明顯超出了人們的捕捉能力。許多數(shù)據(jù)都需要在抓取時進行預處理便于存儲和監(jiān)管。人們需要按照其價值對數(shù)據(jù)做好歸類與篩選。

重復使用一千次同樣的數(shù)據(jù)開展訓練并不會提升預測模型的精確性。

儲存更多數(shù)據(jù)的成本不僅是亞馬遜網(wǎng)絡服務向您收取的以 TB 計費的美金。同時也包含系統(tǒng)在查尋和監(jiān)管好幾個數(shù)據(jù)源的超額復雜性,及其員工移動和運用該數(shù)據(jù)的“模擬重量”。這些成本一般高過儲存和計算費用。

人工智能算法對計算資源的需求會迅速超過彈性云基礎設施能夠提供的算力。在沒有專業(yè)的管理模式的情形下,計算資源會呈線性增長,而計算需求則會出現(xiàn)超線性增長,乃至指數(shù)級增長。

假如輕信了這些神話,你所構筑的信息系統(tǒng)將會看上去會好似紙上談兵,或從長久角度看上去非常好,但在即時性的架構中實現(xiàn)起來則是繁雜且低效的。

四種大數(shù)據(jù)問題:

重復的數(shù)據(jù)對模型無益。在為 AI 構建機器學習模型時,訓練樣本的多樣性尤為重要。緣故是模型試圖明確概念界限。比如,假如您的模型試圖通過年紀和職業(yè)來界定“退休人員”的概念,那么像“32 歲的注冊會計師”這樣的重復樣本對該模型并沒什么價值,因為這些人大也沒有退休。在 65 歲的概念邊界中獲得樣本并掌握退休怎樣隨職業(yè)而轉變則更具備價值。

低質量數(shù)據(jù)會對模型有害。在 AI 試圖學習兩個概念之間邊界的過程中,如果新數(shù)據(jù)是不精確的,或存在錯誤,那么它會混淆這個邊界。在這種情況下,更多數(shù)據(jù)無濟于事,并且還有可能會降低現(xiàn)有模型的準確性。

大數(shù)據(jù)增加了時間成本。針對不一樣學習算法,在 TB 級的數(shù)據(jù)上構建模型將會會比在數(shù) GB 的數(shù)據(jù)上構建模型多花費約千倍、乃至萬倍的時間。數(shù)據(jù)科學本就是迅速實驗,雖不完美卻輕量的模型更具備未來趨勢。數(shù)據(jù)科學一旦失去了速度,則失去了未來。

大數(shù)據(jù)環(huán)境下便于實現(xiàn)的模型。任何預測模型的最后目的都是構建一個可用于商業(yè)部署的高度精確的模型。有時使用來自數(shù)據(jù)庫深處陰暗面的模糊數(shù)據(jù)將會會產(chǎn)生更高的精確性,但所使用的數(shù)據(jù)針對實際部署可能是有風險的。應用一個不太準確卻能夠快速部署和運行的模型往往更好。

四種更好的措施

學會在準確性和執(zhí)行性之前權衡。數(shù)據(jù)科學家大都喜愛將目標定為更精確的模型。事實上,你理應依據(jù)準確性和部署速度,測算合理的 ROI 期待,隨后再開始你的項目。

應用隨機樣本搭建每一模型。如果你已經(jīng)獲取了大數(shù)據(jù),那么沒理由不采用它。假如能使用好的隨機抽樣方法,那么你可以先使用小樣本建立模型,隨后在全部數(shù)據(jù)庫上開展訓練和調節(jié)以獲取更精確的預測模型。

丟棄一些數(shù)據(jù)。倘若你對來源于物聯(lián)網(wǎng)設施和其它來源的流數(shù)據(jù)覺得手足無措,請拋下一些數(shù)據(jù),不必有太大的負擔。如果你沒法購買足夠的磁盤來儲存多余的數(shù)據(jù),它會損毀你在計算機科學生產(chǎn)線末期的全部工作。

找尋更多數(shù)據(jù)源。人工智能近期的很多突破并非歸因于更大的數(shù)據(jù)集,而是能夠將機器學習算法成功的應用于這些數(shù)據(jù),這在以前是沒法實現(xiàn)的。比如,現(xiàn)今普遍存在的大中型文本,圖像,視頻和聲頻數(shù)據(jù)集在20年前并非存在。你理應持續(xù)探尋新的數(shù)據(jù)以找出更好的機會。

總結

以上是生活随笔為你收集整理的四说大数据时代“神话”:从大数据到深数据的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內容還不錯,歡迎將生活随笔推薦給好友。