當(dāng)前位置：首頁 > 人工智能 > pytorch >内容正文

pytorch

深度学习实时表情识别

發(fā)布時(shí)間：2023/12/20 pytorch 53 豆豆

生活随笔收集整理的這篇文章主要介紹了深度学习实时表情识别小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

背景

計(jì)算機(jī)動(dòng)畫代理和機(jī)器人為人機(jī)交互帶來了新的維度，這使得計(jì)算機(jī)如何在日常活動(dòng)中影響我們的社交生活變得至關(guān)重要。面對(duì)面的交流是一個(gè)以毫秒級(jí)的時(shí)間尺度運(yùn)行的實(shí)時(shí)過程。這個(gè)時(shí)間尺度的不確定性是相當(dāng)大的，這使得人類和機(jī)器有必要依賴感官豐富的感知原語，而不是緩慢的符號(hào)推理過程。在這個(gè)項(xiàng)目中，我們展示了七種最基本的人類表情的實(shí)時(shí)面部表情識(shí)別：憤怒、厭惡、恐懼、快樂、中立、悲傷、驚訝。

現(xiàn)實(shí)問題

從七種基本的人類表情中對(duì)圖像中的面部表情進(jìn)行分類。

該模型可用于預(yù)測(cè)靜態(tài)圖像和實(shí)時(shí)視頻的表達(dá)。但是，在這兩種情況下，我們都必須為模型提供圖像。在實(shí)時(shí)視頻的情況下，應(yīng)該在任何時(shí)間幀拍攝圖像并將其提供給模型以進(jìn)行表情預(yù)測(cè)。系統(tǒng)使用 HAAR 級(jí)聯(lián)自動(dòng)檢測(cè)人臉，然后對(duì)其進(jìn)行裁剪并將圖像調(diào)整為特定大小，并將其提供給模型進(jìn)行預(yù)測(cè)。該模型將生成對(duì)應(yīng)于七個(gè)表達(dá)式的七個(gè)概率值。對(duì)應(yīng)表達(dá)式的最高概率值將是該圖像的預(yù)測(cè)表達(dá)式。

然而，我們?cè)谶@里的目標(biāo)是預(yù)測(cè)人類的表情，但我們已經(jīng)在人類和動(dòng)畫圖像上訓(xùn)練了我們的模型。因?yàn)?#xff0c;我們只有大約 1500 張人體圖像，這對(duì)于制作一個(gè)好的模型來說非常少，所以我們拍攝了大約 9000 張動(dòng)畫圖像，并利用這些動(dòng)畫圖像來訓(xùn)練模型，最終對(duì)人體圖像進(jìn)行表情預(yù)測(cè)。

為了更好地預(yù)測(cè)，我們決定將每張圖像的大小保持為 350*350。

目標(biāo)和約束

目標(biāo)

我們的目標(biāo)是盡可能快速準(zhǔn)確地實(shí)時(shí)預(yù)測(cè)人臉的表情。

約束

延遲：給定圖像，系統(tǒng)應(yīng)該能夠立即預(yù)測(cè)表達(dá)并傳輸結(jié)果。因此，存在低延遲要求。

可解釋性：可解釋性對(duì)于靜止圖像很重要，但不是實(shí)時(shí)的。對(duì)于靜止圖像，可以給出預(yù)測(cè)表達(dá)的概率。

準(zhǔn)確性：我們的目標(biāo)是盡可能準(zhǔn)確地預(yù)測(cè)圖像中人臉的表情。測(cè)試精度越高，我們的模型在現(xiàn)實(shí)世界中的表現(xiàn)就越好。

性能指標(biāo)

這是一個(gè)具有 7 個(gè)不同類別的多類別分類問題，因此我們考慮了三個(gè)性能指標(biāo)：

多類對(duì)數(shù)損失：我們最終使用了帶有交叉熵層的深度學(xué)習(xí)模型，其中包含七個(gè) softmax 單元，因此我們的目標(biāo)是減少多類對(duì)數(shù)損失/交叉熵?fù)p失。

準(zhǔn)確度：這告訴我們我們的模型在預(yù)測(cè)表達(dá)式方面的準(zhǔn)確度。

混淆度量：由于我們的問題是多類分類，所以混淆度量將幫助我們知道哪些類比其他類更具優(yōu)勢(shì)，或者模型更偏向哪個(gè)類。這讓我們對(duì)模型的預(yù)測(cè)結(jié)果有了清晰的了解。

數(shù)據(jù)源

數(shù)據(jù)類型

我們總共有 10596 張圖片。其中1496幅是人體圖像，9100幅是動(dòng)畫圖像。因此，我們有兩種類型的圖像。一種是人像，另一種是動(dòng)畫圖像。

一些人類圖像的例子：

一些動(dòng)畫圖像的例子：

庫

我們使用了幾乎所有在普通 ML/DL 問題中使用的庫，如 pandas、numpy、matplotlib、sklearn 等。但在這里我想強(qiáng)調(diào)兩個(gè)重要的庫。

圖像初始預(yù)處理概述

我們從一開始就將人和動(dòng)畫圖像分開，并將它們存儲(chǔ)在七個(gè)不同的文件夾中，即：憤怒、厭惡、恐懼、快樂、中立、悲傷、驚喜。

請(qǐng)記住，每個(gè)表達(dá)式都有兩個(gè)文件夾。一種用于人類，另一種用于動(dòng)畫。總共有 14 個(gè)文件夾。

我們?yōu)槊總€(gè)表達(dá)式制作了單獨(dú)的數(shù)據(jù)框。因此，總共將有 14 個(gè)數(shù)據(jù)幀。 7 個(gè)數(shù)據(jù)幀對(duì)應(yīng)于人類圖像的 7 個(gè)表達(dá)式。同樣，7個(gè)數(shù)據(jù)幀對(duì)應(yīng)到動(dòng)畫圖像的七個(gè)表達(dá)式。

然后我們結(jié)合了人類的所有數(shù)據(jù)幀。總共有1496張人體圖像。在此之后，我們組合了動(dòng)畫圖像的所有數(shù)據(jù)幀。共有 9100 張動(dòng)畫圖像。

所以，現(xiàn)在我們有兩個(gè)數(shù)據(jù)幀，一個(gè)用于人類圖像，另一個(gè)用于動(dòng)畫圖像。

訓(xùn)練/測(cè)試/分割

對(duì)于人類和動(dòng)畫圖像，我們已經(jīng)拆分了我們的數(shù)據(jù)，使得所有三個(gè)數(shù)據(jù)（即train、CV 和 test）都應(yīng)該得到均勻分布的類標(biāo)簽圖像。

人體圖像的分布如下：

動(dòng)畫圖像的分布如下：

圖像的最終處理

結(jié)合人類和動(dòng)畫的訓(xùn)練數(shù)據(jù)

從 VGG-16 模型創(chuàng)建瓶頸特征（轉(zhuǎn)移學(xué)習(xí)）

建模和訓(xùn)練

測(cè)試結(jié)果

測(cè)試真實(shí)圖片

源代碼

詳情參閱 - 亞圖跨際

總結(jié)

以上是生活随笔為你收集整理的深度学习实时表情识别的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： Python入门学习—元组/字符串（Fi
下一篇：「技术综述」人脸表情识别研究