當(dāng)前位置：首頁(yè) > 人工智能 > pytorch >内容正文

pytorch

超级干货：如何创造性地应用深度学习视觉模型于非视觉任务（附代码）

發(fā)布時(shí)間：2024/1/1 pytorch 54 豆豆

生活随笔收集整理的這篇文章主要介紹了超级干货：如何创造性地应用深度学习视觉模型于非视觉任务（附代码）小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

作者：Max Pechyonkin;翻譯：和中華;校對(duì)：丁楠雅

本文約2900字，建議閱讀10分鐘。

本文將介紹3個(gè)非視覺(jué)領(lǐng)域的應(yīng)用實(shí)例。

導(dǎo)讀

眾所周知，目前深度學(xué)習(xí)在計(jì)算機(jī)視覺(jué)領(lǐng)域已經(jīng)有很好的應(yīng)用落地，再加上遷移學(xué)習(xí)，可以很容易的訓(xùn)練出一個(gè)用于視覺(jué)任務(wù)的模型。但是現(xiàn)實(shí)中還有很多任務(wù)的原始數(shù)據(jù)是非視覺(jué)類(lèi)型的，面對(duì)這樣的問(wèn)題，我們還可以借用強(qiáng)大的深度學(xué)習(xí)視覺(jué)模型嗎，本文作者將用3個(gè)具體案例來(lái)展示這一切都是可能的。

介紹

近年來(lái)，深度學(xué)習(xí)已經(jīng)徹底改變了計(jì)算機(jī)視覺(jué)。由于有遷移學(xué)習(xí)和優(yōu)秀的學(xué)習(xí)資源，任何人都可以在數(shù)天甚至數(shù)小時(shí)內(nèi)，利用預(yù)先訓(xùn)練好的模型并將其應(yīng)用于自己的領(lǐng)域從而獲得最先進(jìn)的結(jié)果。隨著深度學(xué)習(xí)變得商品化，人們的需求也隨之變成了它在不同領(lǐng)域的創(chuàng)造性應(yīng)用。

遷移學(xué)習(xí)教程：

https://machinelearningmastery.com/transfer-learning-for-deep-learning/

深度學(xué)習(xí)教程：

https://course.fast.ai/

今天，計(jì)算機(jī)視覺(jué)領(lǐng)域的深度學(xué)習(xí)已經(jīng)在很大程度上解決了視覺(jué)對(duì)象分類(lèi)、目標(biāo)檢測(cè)和識(shí)別問(wèn)題。在這些領(lǐng)域，深度神經(jīng)網(wǎng)絡(luò)的表現(xiàn)優(yōu)于人類(lèi)。

即使數(shù)據(jù)不是可視化的，你仍然可以利用深度學(xué)習(xí)視覺(jué)模型，主要是指CNN。要做到這一點(diǎn)，你必須將數(shù)據(jù)從非視覺(jué)型轉(zhuǎn)換為圖像，然后使用某個(gè)針對(duì)圖像預(yù)訓(xùn)練過(guò)的模型來(lái)處理你的數(shù)據(jù)。你將會(huì)對(duì)這種方法的強(qiáng)大感到驚訝！

在本文中，我將介紹3個(gè)創(chuàng)造性地使用深度學(xué)習(xí)的案例，展示一些公司如何將深度學(xué)習(xí)視覺(jué)模型應(yīng)用于非視覺(jué)領(lǐng)域。在每個(gè)案例中，都會(huì)對(duì)一個(gè)非計(jì)算機(jī)視覺(jué)問(wèn)題進(jìn)行轉(zhuǎn)換和說(shuō)明，以便利用適于圖像分類(lèi)的深度學(xué)習(xí)模型。

案例一：石油工業(yè)

在石油工業(yè)中，“磕頭機(jī)”常用于從地下開(kāi)采石油和天然氣。它們由一個(gè)連接在游梁上的發(fā)動(dòng)機(jī)提供動(dòng)力。游梁將發(fā)動(dòng)機(jī)的旋轉(zhuǎn)運(yùn)動(dòng)轉(zhuǎn)化為抽油桿的垂直往復(fù)運(yùn)動(dòng)，使得抽油桿像泵一樣將油輸送到表面。

磕頭機(jī)，也稱(chēng)為抽油機(jī)。來(lái)源：https://commons.wikimedia.org

像任何復(fù)雜的機(jī)械系統(tǒng)一樣，抽油機(jī)也容易發(fā)生故障。為了幫助診斷，人們?cè)诔橛蜋C(jī)上安裝一個(gè)測(cè)功計(jì)，用于測(cè)量桿上的負(fù)載。測(cè)量后，繪制出一張測(cè)功計(jì)泵卡，其顯示發(fā)動(dòng)機(jī)旋轉(zhuǎn)周期各部分的負(fù)載。

測(cè)功計(jì)泵卡樣例。來(lái)源：https://www.researchgate.net/

當(dāng)抽油機(jī)出故障時(shí)，測(cè)功計(jì)泵卡的形狀會(huì)改變。通常會(huì)邀請(qǐng)專(zhuān)業(yè)技術(shù)人員來(lái)檢查卡，并就泵的哪個(gè)部位出現(xiàn)故障以及需要采取什么措施來(lái)修復(fù)它作出判斷。這個(gè)過(guò)程非常耗時(shí)，并且需要非常狹窄的專(zhuān)業(yè)知識(shí)才能有效解決。

另一方面，這個(gè)過(guò)程看起來(lái)像是可以自動(dòng)化的，這就是之前為什么傳統(tǒng)的機(jī)器學(xué)習(xí)系統(tǒng)被試過(guò)，只是沒(méi)有取得好的效果，準(zhǔn)確率僅為60%左右。

將深度學(xué)習(xí)應(yīng)用到這個(gè)領(lǐng)域的公司之一是貝克休斯（Baker Hughes）。在他們的案例中，測(cè)功計(jì)泵卡被轉(zhuǎn)換成圖像，然后作為輸入傳給ImageNet預(yù)訓(xùn)練好的模型中。結(jié)果令人印象深刻——只需采用預(yù)訓(xùn)練好的模型并用新數(shù)據(jù)對(duì)其進(jìn)行微調(diào)，準(zhǔn)確率就從60%上升到了93%。對(duì)模型進(jìn)一步優(yōu)化，其準(zhǔn)確率可達(dá)97%。

貝克休斯部署的系統(tǒng)示例。左側(cè)是輸入圖像，右側(cè)是故障模式的實(shí)時(shí)分類(lèi)。系統(tǒng)在便攜式設(shè)備上運(yùn)行，其分類(lèi)時(shí)間顯示在右下角。來(lái)源：https://www.youtube.com

它不僅擊敗了以前基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法，而且現(xiàn)在該公司不需要抽油機(jī)技術(shù)人員花時(shí)間來(lái)診斷問(wèn)題，從而可以提高效率。他們可以立即開(kāi)始修復(fù)機(jī)械故障。

要了解更多信息，你還可以閱讀一篇討論類(lèi)似方法的論文。

案例二：在線(xiàn)欺詐檢測(cè)

計(jì)算機(jī)用戶(hù)在使用計(jì)算機(jī)時(shí)有獨(dú)特的模式和習(xí)慣。當(dāng)你瀏覽一個(gè)網(wǎng)站時(shí)你使用鼠標(biāo)的方式或者編寫(xiě)郵件時(shí)你在鍵盤(pán)上敲擊的方式都是獨(dú)一無(wú)二的。

在這個(gè)案例中，Splunk解決了一個(gè)問(wèn)題，即通過(guò)使用計(jì)算機(jī)鼠標(biāo)的方式對(duì)用戶(hù)進(jìn)行分類(lèi)。如果你的系統(tǒng)能夠根據(jù)鼠標(biāo)使用模式唯一地識(shí)別用戶(hù)，那它就可以用于欺詐檢測(cè)。想象一下：欺詐者竊取某人的登錄名和密碼，然后登錄并在網(wǎng)上商店購(gòu)物。欺詐者使用電腦鼠標(biāo)的方式是獨(dú)一無(wú)二的，系統(tǒng)將很容易檢測(cè)到這種異常情況，并防止欺詐交易發(fā)生，同時(shí)也會(huì)通知賬戶(hù)的真正所有者。

使用一段特殊的javascript代碼，就可以收集所有的鼠標(biāo)活動(dòng)。該軟件每5-10毫秒記錄一次鼠標(biāo)活動(dòng)。因此，每個(gè)用戶(hù)每頁(yè)面大約會(huì)產(chǎn)生5000–10000個(gè)數(shù)據(jù)點(diǎn)。該數(shù)據(jù)有兩大挑戰(zhàn)：首先，這對(duì)每個(gè)用戶(hù)來(lái)說(shuō)都是大量的數(shù)據(jù)；第二，每個(gè)用戶(hù)的數(shù)據(jù)集將包含不同數(shù)量的數(shù)據(jù)點(diǎn)，這不是很方便，因?yàn)橥ǔ６?#xff0c;不同長(zhǎng)度的序列需要用到更精巧的深度學(xué)習(xí)架構(gòu)。

他們的解決辦法是將每個(gè)用戶(hù)在每個(gè)網(wǎng)頁(yè)上的鼠標(biāo)活動(dòng)轉(zhuǎn)換為單個(gè)圖像。在每幅圖像中，鼠標(biāo)移動(dòng)由一條線(xiàn)表示，顏色編碼了鼠標(biāo)移動(dòng)的速度，而左擊和右擊則由綠色和紅色圓圈表示。這種處理初始數(shù)據(jù)的方法解決了上述兩個(gè)問(wèn)題：首先，所有圖像的大小都相同；其次，可以使用處理圖像的深度學(xué)習(xí)模型了。

在每幅圖像中，鼠標(biāo)移動(dòng)由一條顏色編碼鼠標(biāo)速度的線(xiàn)表示，而左擊和右擊則由綠色和紅色圓圈表示。來(lái)源：https://www.splunk.com

Splunk使用TensorFlow加Keras構(gòu)建了一個(gè)分類(lèi)用戶(hù)的深度學(xué)習(xí)系統(tǒng)。他們做了兩個(gè)實(shí)驗(yàn)：

實(shí)驗(yàn)一：某個(gè)金融服務(wù)網(wǎng)站用戶(hù)的組別分類(lèi)——訪(fǎng)問(wèn)類(lèi)似頁(yè)面時(shí)，區(qū)分他們是普通客戶(hù)還是非客戶(hù)。

僅用了一個(gè)由2000張圖片組成的較小的訓(xùn)練集，在對(duì)基于VGG16修改的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行了2分鐘的訓(xùn)練后，系統(tǒng)就能以80%以上的準(zhǔn)確率識(shí)別這兩個(gè)類(lèi)別。

實(shí)驗(yàn)二：單個(gè)用戶(hù)分類(lèi)。

該任務(wù)是對(duì)于給定的用戶(hù)，通過(guò)鼠標(biāo)活動(dòng)預(yù)測(cè)它是此用戶(hù)的還是模仿者的。這回僅有一個(gè)360張圖片的小訓(xùn)練集。基于VGG16，但考慮到數(shù)據(jù)集更小和過(guò)擬合（可能使用了dropout和batch normalization），他們對(duì)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行了修改。經(jīng)過(guò)3分鐘的訓(xùn)練，準(zhǔn)確率就達(dá)到了78%左右，考慮到該任務(wù)的挑戰(zhàn)性，這個(gè)結(jié)果令人印象非常深刻。

想了解更多信息，請(qǐng)參閱下面這篇描述系統(tǒng)和實(shí)驗(yàn)的完整文章。

文章鏈接：

https://www.splunk.com/blog/2017/04/18/deep-learning-with-splunk-and-tensorflow-for-security-catching-the-fraudster-in-neural-networks-with-behavioral-biometrics.html

案例三：鯨魚(yú)的聲音檢測(cè)

在這個(gè)例子中，谷歌使用卷積神經(jīng)網(wǎng)絡(luò)來(lái)分析錄音并檢測(cè)其中的座頭鯨。這對(duì)研究而言很有用，例如跟蹤單個(gè)鯨魚(yú)的運(yùn)動(dòng)、歌曲的特性、鯨魚(yú)的數(shù)量等。有趣的不是研究目的，而是谷歌如何處理數(shù)據(jù)以用于需要圖像的卷積神經(jīng)網(wǎng)絡(luò)。

將音頻數(shù)據(jù)轉(zhuǎn)換成圖像的方法是使用時(shí)頻譜。時(shí)頻譜是音頻數(shù)據(jù)基于頻率特征的視覺(jué)表示。

一個(gè)男性聲音說(shuō)“十九世紀(jì)”的時(shí)頻譜例子。來(lái)源：https://commons.wikimedia.org

在將音頻數(shù)據(jù)轉(zhuǎn)換成時(shí)頻譜之后，谷歌的研究人員使用了Resnet-50架構(gòu)來(lái)訓(xùn)練這個(gè)模型。達(dá)到的性能如下：

精度90%：90%被模型歸類(lèi)為鯨魚(yú)歌聲的音頻剪輯被正確歸類(lèi)
召回率90%：如果有一首鯨魚(yú)歌聲的錄音，有90%的幾率它會(huì)被貼上這樣的標(biāo)簽。

這一結(jié)果令人印象深刻，對(duì)鯨魚(yú)的研究也一定有幫助。

讓我們把焦點(diǎn)從鯨魚(yú)轉(zhuǎn)到處理音頻數(shù)據(jù)上。創(chuàng)建時(shí)頻譜時(shí)，根據(jù)音頻數(shù)據(jù)的類(lèi)型，你可以選擇要使用的頻率。針對(duì)人類(lèi)語(yǔ)音、座頭鯨歌聲或工業(yè)設(shè)備錄音等將需要不同的頻率，因?yàn)樵谶@些不同場(chǎng)景下，最重要的信息包含在不同的頻段中。必須使用領(lǐng)域知識(shí)來(lái)選擇該參數(shù)。例如，如果你使用的是人類(lèi)語(yǔ)音數(shù)據(jù)，那么第一選擇應(yīng)該是梅爾倒頻譜。

目前有很好的軟件包可用于音頻。librosa是一個(gè)免費(fèi)的音頻分析python庫(kù)，可以使用CPU生成時(shí)頻譜。如果你在TensorFlow上開(kāi)發(fā)并且想在GPU上做時(shí)頻譜計(jì)算，也是可以的。

librosa相關(guān)鏈接：

https://librosa.github.io/librosa/

請(qǐng)參考下面這篇谷歌人工智能的原始博客文章，以了解更多關(guān)于谷歌如何處理座頭鯨數(shù)據(jù)的信息。

谷歌博客文章：

https://ai.googleblog.com/2018/10/acoustic-detection-of-humpback-whales.html

總而言之，本文概述的一般方法遵循兩個(gè)步驟。

首先，找到一種將數(shù)據(jù)轉(zhuǎn)換成圖像的方法；
第二，使用經(jīng)過(guò)預(yù)訓(xùn)練的卷積網(wǎng)絡(luò)或從頭訓(xùn)練一個(gè)。

第一步要比第二步更難，需要思考你的數(shù)據(jù)是否可以轉(zhuǎn)換成圖像，這是你展現(xiàn)創(chuàng)造性的地方。我希望上述提供的示例對(duì)解決你的問(wèn)題有幫助。如果你還有其他的例子或問(wèn)題，請(qǐng)寫(xiě)在下面的評(píng)論中。

參考引用

IoT for Oil & Gas?—?The Power of Big Data and ML (Cloud Next ’18)
https://www.youtube.com/watch?v=6_kdEguYwwg&feature=youtu.be&t=1692
Beam Pump Dynamometer Card Prediction Using Artificial Neural Networks
https://www.knepublishing.com/index.php/KnE-Engineering/article/download/3083/6587
Splunk and Tensorflow for Security: Catching the Fraudster with Behavior Biometrics
https://www.splunk.com/blog/2017/04/18/deep-learning-with-splunk-and-tensorflow-for-security-catching-the-fraudster-in-neural-networks-with-behavioral-biometrics.html
Acoustic Detection of Humpback Whales Using a Convolutional Neural Network
https://ai.googleblog.com/2018/10/acoustic-detection-of-humpback-whales.html

本文最初發(fā)表在作者網(wǎng)站pechyonkin.me上。

作者聯(lián)系方式

Twitter：

https://twitter.com/max_pechyonkin

LinkdIn：

https://www.linkedin.com/authwall?trk=gf&trkInfo=AQFpHL3mlkPKnQAAAWiThnDAgtn1tdrvz57ag0PVaE7smdQF3iJOA2Eapss4-q9395VIOxi_DSeBALr0q2KXAxHqmEkhqzFKFdkMWgCcWSkILT7gOlMbd9XT5Jqctr4d-DFLHGk=&originalReferer=&sessionRedirect=https%3A%2F%2Fwww.linkedin.c

原文標(biāo)題：

Deep Learning Vision for Non-Vision Tasks

原文鏈接：

https://towardsdatascience.com/deep-learning-vision-non-vision-tasks-a809df74d6f

編輯：黃繼彥

譯者簡(jiǎn)介:和中華，留德軟件工程碩士。由于對(duì)機(jī)器學(xué)習(xí)感興趣，碩士論文選擇了利用遺傳算法思想改進(jìn)傳統(tǒng)kmeans。目前在杭州進(jìn)行大數(shù)據(jù)相關(guān)實(shí)踐。加入數(shù)據(jù)派THU希望為IT同行們盡自己一份綿薄之力，也希望結(jié)交許多志趣相投的小伙伴。

「完」

轉(zhuǎn)自：數(shù)據(jù)派THU?；

版權(quán)聲明：本號(hào)內(nèi)容部分來(lái)自互聯(lián)網(wǎng)，轉(zhuǎn)載請(qǐng)注明原文鏈接和作者，如有侵權(quán)或出處有誤請(qǐng)和我們聯(lián)系。

關(guān)聯(lián)閱讀

原創(chuàng)系列文章：

1：從0開(kāi)始搭建自己的數(shù)據(jù)運(yùn)營(yíng)指標(biāo)體系（概括篇）

2 ：從0開(kāi)始搭建自己的數(shù)據(jù)運(yùn)營(yíng)指標(biāo)體系（定位篇）

3 ：從0開(kāi)始搭建自己的數(shù)據(jù)運(yùn)營(yíng)體系（業(yè)務(wù)理解篇）

4 ：數(shù)據(jù)指標(biāo)的構(gòu)建流程與邏輯

5 ：系列：從數(shù)據(jù)指標(biāo)到數(shù)據(jù)運(yùn)營(yíng)指標(biāo)體系

6: ??實(shí)戰(zhàn) ：為自己的公號(hào)搭建一個(gè)數(shù)據(jù)運(yùn)營(yíng)指標(biāo)體系

7:??從0開(kāi)始搭建自己的數(shù)據(jù)運(yùn)營(yíng)指標(biāo)體系（運(yùn)營(yíng)活動(dòng)分析）

8:上班一周了，【就業(yè)季】對(duì)2018年交滿(mǎn)意的答卷...

數(shù)據(jù)運(yùn)營(yíng)?關(guān)聯(lián)文章閱讀：??

運(yùn)營(yíng)入門(mén)，從0到1搭建數(shù)據(jù)分析知識(shí)體系? ??

推薦：數(shù)據(jù)分析師與運(yùn)營(yíng)協(xié)作的9個(gè)好習(xí)慣

干貨：手把手教你搭建數(shù)據(jù)化用戶(hù)運(yùn)營(yíng)體系

推薦：最用心的運(yùn)營(yíng)數(shù)據(jù)指標(biāo)解讀

干貨 : 如何構(gòu)建數(shù)據(jù)運(yùn)營(yíng)指標(biāo)體系

從零開(kāi)始，構(gòu)建數(shù)據(jù)化運(yùn)營(yíng)體系

干貨：解讀產(chǎn)品、運(yùn)營(yíng)和數(shù)據(jù)三個(gè)基友關(guān)系

干貨：從0到1搭建數(shù)據(jù)運(yùn)營(yíng)體系

數(shù)據(jù)分析、數(shù)據(jù)產(chǎn)品?關(guān)聯(lián)文章閱讀：

干貨：數(shù)據(jù)分析團(tuán)隊(duì)的搭建和思考

關(guān)于用戶(hù)畫(huà)像那些事，看這一文章就夠了

數(shù)據(jù)分析師必需具備的10種分析思維。

如何構(gòu)建大數(shù)據(jù)層級(jí)體系，看這一文章就夠了

干貨：聚焦于用戶(hù)行為分析的數(shù)據(jù)產(chǎn)品

80%的運(yùn)營(yíng)注定了打雜？因?yàn)槟銢](méi)有搭建出一套有效的用戶(hù)運(yùn)營(yíng)體系

從底層到應(yīng)用，那些數(shù)據(jù)人的必備技能

讀懂用戶(hù)運(yùn)營(yíng)體系：用戶(hù)分層和分群

做運(yùn)營(yíng)必須掌握的數(shù)據(jù)分析思維，你還敢說(shuō)不會(huì)做數(shù)據(jù)分析

合作請(qǐng)加qq：365242293??

更多相關(guān)知識(shí)請(qǐng)回復(fù)：“ 月光寶盒 ”；

數(shù)據(jù)分析（ID :?ecshujufenxi?）互聯(lián)網(wǎng)科技與數(shù)據(jù)圈自己的微信，也是WeMedia自媒體聯(lián)盟成員之一，WeMedia聯(lián)盟覆蓋5000萬(wàn)人群。

總結(jié)

以上是生活随笔為你收集整理的超级干货：如何创造性地应用深度学习视觉模型于非视觉任务（附代码）的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：微软 ERP 的定价及其它
下一篇：将视觉深度学习模型应用于非视觉领域