當前位置：首頁 > 人工智能 > pytorch >内容正文

pytorch

深度学习与大数据

發布時間：2023/12/14 pytorch 41 豆豆

生活随笔收集整理的這篇文章主要介紹了深度学习与大数据小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

——除了上帝，我只相信數據
在數據呈指數增長的這個數字世界中，深度學習和大數據是最為熱門的兩個技術趨勢。深度學習和大數據是數據科學領域相互關聯的兩個話題，而在技術發展方面，兩者緊密關聯且同樣重要。
數字數據和云存儲遵循名為摩爾定律的通用定律，摩爾定律我們在之前就有提到過。因特爾創始人摩爾認為數據每兩年就會翻一番，而存儲該數據的成本卻大致以相同的速率下降。這些豐富的數據產生了更多的特征和真理，因此為了從中提取所有有價值的信息，我們應當試圖創建更好的深度學習模型。
數據的高可用性也為多個行業帶來了巨大的機遇。此外，大數據及其分析為數據挖掘、數據應用和從數據中提取隱藏信息帶來了巨大挑戰。在人工智能領域，深度學習算法會在大規模數據的學習過程中產生最佳輸出。因此，隨著數據以前所未有的速度增長，深度學習在提供大數據分析解決方案方面也同樣起著至關重要的作用。
在這個EB數據規模的時代，數據仍以指數級速度迅速增長。出于各種目的，許多組織和研究人員以不同方式對數據的快速增長進行了分析。國際數據公司（International Data Corporation，IDC）的調查顯示，互聯網每天處理約2PB（1PB=1024TB，1TB=1024GB）的數據。2006年，數字數據的規模約為0.18ZB（1ZB=1024EB，1EB=1024PB），而到2011年，這一規模已經達到了1.8ZB。
截至2015年，該數字已達到10ZB之多。預計2020年全球數據量將增長到30-35ZB左右。在數字的世界中，這些海量的數據被正式定義為“Big Data”也就是大數據。
Facebook有兩億左右用戶，超過20PB數據，而美國橡樹嶺國家實驗室的Jaguar超級計算機擁有超過5PB的數據。這些存儲數據增長得如此迅速，因此在2018年——2020年可能會使用EB規模的存儲系統。
數據的這種爆炸式增長肯定會對傳統的數據密集型計算產生直接威脅，并引出使用分布式和可拓展存儲架構來查詢和分析大規模數據的需求。大數據的一般思路是，原始數據非常復雜、混亂，且持續增長。一個理想的大數據集應由大量的無監督原始數據和少量的結構化/分類數據組成。因此，在處理這些大量的非固定結構化數據時，傳統的數據密集型計算往往會失敗。具有無窮多樣性的大數據需要復雜的方法和工具，以提取模式并分析大規模數據。大數據的增長主要是由現代系統計算能力的增長及低廉的數據存儲成本促成的。
大數據的所有這些特征可以分為4個維度，通常稱為4V：即數量（Volume）、多樣性（Variety）、
速度（Velocity）、真實性（Veracity）。
在當今這個數據密集型技術時代，收集和獲取數據的速度與大數據的其他參數（即數量和多樣性）同樣重要。隨著數據的生成，如果未能及時收集和分析數據，那么重要的數據就會面臨巨大的丟失風險。雖然可以選擇將快速轉移的數據保留在大容量存儲中以便后續再批量處理，但是處理這種高速數據的真正重點在于將原始數據轉換成結構化和可用格式的速度。具體來說，如果數據沒有立即保留下來或進行系統的處理，那么飛機票價、酒店房價或某些電子商務產品的價格等時間敏感信息就會過時。大數據的真實性這一參數關系到數據分析結果的準確性。隨著數據變得越來越復雜，保持對大數據隱藏信息的信任將會是一大挑戰。
為了提取和分析這種復雜數據，我們需要一個更好的、精心規劃的模型。理想情況下，與處理少量數據相比，模型應該能夠更好的處理大數據。然而，情況并非總是如此。接下來通過一個實例來進行更為深入的討論。
使用小型數據集時，最佳算法的性能比最差算法的性能好n%。然而，隨著數據規模的增大（大數據級別），性能會成指數級增長到k%。這種現象也可以在其他實例中找到，他們清楚地表明了大型訓練集對模型性能的影響。然而，使用最簡單的模型時，只有大數據集才能達到最佳性能，這種觀點是完全錯誤的。
算法一是樸素貝葉斯模型，算法二是基于內存的模型，算法三是Winnow算法。從圖中可以看出，當使用小型數據集時，Winnow算法的性能要低于基于內存的模型；而在處理大數據集時，樸素貝葉斯模型和Winnow算法的性能比基于內存的模型要好。因此，從圖中很難判斷出那個簡單模型在大數據集條件下是較優的。對于使用大數據集時基于內存的模型性能相對較差，一種較為直觀的解釋是，由于需要等待大量數據加載到內存，算法要消耗很多時間。這純粹是與內存相關的問題，只使用大數據是不能解決問題的。因此，影響性能的重要因素應該是模型復雜度，而深度學習模型恰恰長于此項。
即使有大數據，思維狹隘也不會有進步！大數據需要思維突破。
深度學習與大數據形成鮮明對比。行業中的各種產品已經成功應用了深度學習，而且各類研究人員也通過大規模數字數據廣泛應用了深度學習。Facebook、Google、蘋果等世界知名科技公司每天都會收集和分析大量數據，并且在過去幾年中在各種深度學習相關的項目中取得了不俗的進展。
Google在大量非結構化數據上部署了深度學習算法，這些數據的來源包括Google街景、圖像搜索引擎、Google翻譯和Android語音識別等。
蘋果公司的Siri時iPhone的虛擬個人助理，提供了大量服務，如體育新聞、天氣預報、用戶問答等。Siri整個應用都是基于深度學習的，他收集來自不同蘋果服務的數據并獲得其職能授權。微軟和IBM等其他企業同樣以深度學習為主要方式來處理大量的非結構化數據。IBM類似人腦的計算機Watson和微軟的Bing搜索引擎也是主要使用深度學習技術來利用大數據的。
目前的深度學習架構包括數百萬甚至數十億的節點。此外，數據增長規模阻止了模型的過擬合，計算能力的快速增長也使得先進模型的訓練變得更加容易。
下表展示了近期的研究是如何應用大數據和流行的深度學習模型從數據中充分提取信息的。
借助分層學習方法，深度學習算法可以從輸入的原始數據中提取有意義的通用特征。一般來說，在更高層次上，更復雜和抽象的數據特征是從先前的層和多層學習模型的抽象水平稍低的數據中學習的，那么這些模型看起來會更具吸引力，從而更有助于生成大量非結構化數據的一些有意義的模式和特征。
在處理大規模無監督數據時，深度學習算法可以比淺層學習架構更好地提取數據點之間的通用模式和關系。以下是接受大規模為標記數據訓練時，深度學習算法的幾個主要特征。
1.從抽象和特征的較高層次來看，可以從深度學習模型中獲得大數據的語義和關聯性知識。
2.即使是一個簡單的線性模型，也可以有效地從大數據集極為復雜和抽象的特征中獲取知識。
3.來自無監督數據的各種數據特征為學習其他數據類型（比如文本、音頻、視頻、圖像等等）打開了大門。
因此，可以肯定的是，隨著GPU（圖形處理單元）處理能力的進一步增強和存儲容量的提升，深度學習將成為大數據情感分析、預測分析等不可或缺的組成部分。

大數據深度學習面臨的挑戰

大數據的潛力值得關注。然而，想要充分提取有價值的信息，還需要創新的、實用的算法來解決相關的技術問題。例如，為了訓練模型，大多數的傳統機器學習算法將數據存儲在內存中。但如果數據量龐大，這種方法肯定是不可行的，因為系統可能會耗盡內存。為了克服所有這些棘手的問題，并通過深度學習技術從大數據中挖掘出有用的信息，我們迫切需要頭腦風暴。
前文中說過，大規模深度學習在過去十年取得了很多成就，但這一領域還處于不斷發展的階段。大數據正在不斷提高其4V的限制。因此，為了解決這些問題，模型還需要進行更多改進。

海量數據帶來的挑戰（第一個V——Volume）

海量數據給深度學習帶來了巨大機遇同樣也帶來了巨大挑戰。大數據具有非常高的維度（屬性）、大量的實例（輸入）和類型繁多的分類（輸出），因此通常會增加模型的復雜度以及算法的運行時間復雜度。海量數據使得使用集中式存儲及其有限的處理能力來訓練深度學習算法幾乎不可能。為了給這個挑戰提供一個可能，在海量數據推動下，具有并行服務器的分布式框架應運而生。升級后的深度學習網絡已經開始使用CPU和GPU集群來提高訓練速度，并且不會影響算法的準確性。為實現模型并行和數據并行，各種新策略已經形成。
在這些類型中，模型或數據被分割成塊，以便與內存中的數據相匹配，然后分布到各個節點，進行前向傳播和后向傳播。Deeplearning4j是一種基于Java的、用于深度學習的分布式工具，為將數據分布到各個節點而使用數據并行性。我們將在之后詳細說明。
龐大的數據量往往會伴隨著不相關數據（噪聲）和不完整的數據（損壞），這為大規模深度學習的訓練帶來了重大挑戰。大數據在很大比例上是由未標記或非結構化數據組成的，其中噪聲標簽是最主要的。要解決這個問題，需要對數據進行人工處理。例如，在過去一年內，所有搜索引擎都用于收集數據。需要對這些數據進行過濾，尤其需要去除冗余數據和低價值數據。先進的深度學習算法對處理這些冗余噪聲數據來說至關重要。此外，相關的算法應該能夠容忍這些混亂的數據集。還可以應用某種更有效的代價函數和更新的訓練策略，以充分克服噪聲標簽的影響。此外，半監督學習有助于強化與這種噪聲數據相關的解決方案。

數據多樣性帶來的挑戰（第二個V——Variety）

多樣性是大數據的第二個維度，它代表了具有不同分布和多種來源的所有類型的格式。呈指數級增長的數據來源眾多，其中包括大量音頻流、圖像、視頻、動畫、圖形，以及來自不同日志文件的非結構化文本。這些數據類型具有不同的特征和表現。數據集成可能是處理這種情況的唯一方法。正如之前所說，深度學習能夠從結構化或者非結構化數據中學習特征。深度學習能夠以分層的方式執行無監督學習，分層的方式是一次執行一個層次的訓練，且較高層次的特征由直接下級來定義。深度學習的這個特征可以用于解決數據集成問題。自然解決方案可以是從每個單獨的數據源中學習數據特征，然后將學到的特征集成到后續層級。
已有實驗成功證明，深度學習可以很容易地應用于異構數據源，以顯著提高系統性能。然而，深度學習仍有許多懸而未決的問題。目前，大多數的深度學習模型主要是在雙模式（只有兩種來源的數據）上進行測試，但在處理多模式時，是否可以提高系統性能呢？多個數據來源的信息可能相互沖突。這種情況下，模型如何以富有成效的方式消除沖突并整合數據呢？考慮到深度學習能夠學習中間特征以及與數據多樣性相關的潛在因素，他似乎非常適用于整合具有多種模式的不同來源的數據。

數據快速處理帶來的挑戰（第三個V——Velocity）

數據的急速增長對于深度學習技術造成了巨大挑戰。對于數據分析而言。極速創建的數據也應該得到及時的處理。在線學習是學習高速數據的一個解決方案。然而，在線學習使用順序學習策略，即整個數據集應保存在內存中，這對傳統機器學習來說非常困難。雖然已經成為在線學習修改了傳統神經網絡，但這個領域深度學習仍然有巨大的進步空間。作為在線學習的替代方法，隨機梯度下降法也同樣適用于深度學習。在這種類型中，一個具有已知標簽的訓練樣本會輸入到下一個標簽，已更新模型參數。此外，為了加快學習速度，也可以在小批量處理的基礎上進行更新。這個小批量可以在運行時間和計算機內存之間提供良好的平衡。之后會詳細說明為什么說小批量數據對分布式深度學習來說最為重要。
與數據的這種高速相關的另一個更大挑戰是，這些數據在本質上是極其多變的。隨著時間的推移，數據的分配過于繁重。理想情況下，隨時間變化的數據被分割成從較小時間段內提取的小塊。其基本思想是，數據在一段時間內保持穩定，并具有一定程度的相關性。因此，基于大數據的深度學習算法應該具有將數據作為流來學習的特征。可以從這些非平穩數據中學習的算法對深度學習來說至關重要。

數據真實性帶來的挑戰（第四個V——Veracity）

雖然與大數據的其他三個維度同等重要，但數據的真實性、不準確性或不確定性有時會被忽略。由于大數據種類繁多且快速增長的特點，任何組織不能再依靠傳統模型來衡量數據的準確性。根據定義，非結構化數據包含大量不精確和不確定的數據。例如，社交媒體的數據本質上是非常不確定的。雖然一些工具可以自動化進行數據規范化和清理，但大都還處于早期萌芽階段。

拓展閱讀：分布式深度學習和Hadoop
https://blog.csdn.net/weixin_43106248/article/details/100803342

總結

以上是生活随笔為你收集整理的深度学习与大数据的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： GB2312、GBK、UTF-8 如何转
下一篇：大数据与深度学习