當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

论文笔记：MTCNN

發布時間：2025/3/21 编程问答 30 豆豆

生活随笔收集整理的這篇文章主要介紹了论文笔记：MTCNN 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

Joint Face Detection and Alignment using Multi-task Cascaded Convolutional Networks

要解決什么問題？

用了什么方法解決？

效果如何？

還存在什么問題？

MTCNN的三層結構如上圖。
- 階段一：先使用全卷積網絡，即P-Net，來獲取到獲選的人臉框和其對應的向量。隨后根據回歸框向量對候選框進行校正。之后使用非極大抑制（NMS）來去除高度重合的候選框。
- 階段二：P-Net得到的回歸框都送入R-Net中，隨后拒絕大量錯誤框，再對回歸框做校正，并使用NMS去除重合框。
- 階段三：與階段二類似，但是這里會額外進行人臉特征點（5個）的檢測。

Refine Network（R-Net）：
- 以P-Net預測得到的回歸框信息作為輸入，先對原始圖片進行切片，隨后resize到固定尺寸。
- 輸入為： $24 \times 24 \times 3$ ，與P-Net的輸出一樣。

Output Network（O-Net）：
- 以R-Net預測得到的回歸框信息作為輸入，對原始圖片切片，隨后resize到固定尺寸。
- 輸入為： $48 \times 48 \times 3$ ，與R-Net的輸出一樣。

Online Hard sample mining：在每個mini-batch中計算所有sample的loss，并按照降序排序，取前70%的sample用來訓練。

使用四種不同數據注釋：
- positives：與ground truth的IOU高于閾值。
- negatives：與ground truth的IOU低于閾值。
- part faces：與ground truth的IOU處于前面兩個閾值之間。
- landmark faces：有landmark標簽。

Joint Face Detection and Alignment using Multi-task Cascaded Convolutional Networks

以上是生活随笔為你收集整理的论文笔记：MTCNN的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。