CNN+RNN
文章目錄
- 相同點(diǎn)
- 不同點(diǎn)
- 組合意義
- 組合方式
- 圖片標(biāo)注
- 基本思路
- 模型設(shè)計(jì)-數(shù)據(jù)準(zhǔn)備
- 視頻行為識(shí)別
- 視頻行為識(shí)別
- 圖片問答
相同點(diǎn)
傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的擴(kuò)展
前向計(jì)算產(chǎn)生結(jié)果,反向計(jì)算模型更新
每層神經(jīng)網(wǎng)絡(luò)橫向可以多個(gè)神經(jīng)元共存,縱向可以多層神經(jīng)網(wǎng)絡(luò)鏈接
不同點(diǎn)
CNN空間擴(kuò)展,神經(jīng)元與特征卷積,RNN時(shí)間擴(kuò)展,神經(jīng)元與多個(gè)時(shí)間輸出計(jì)算
RNN可用于描述時(shí)間上的連續(xù)狀態(tài)輸出,具有記憶功能,CNN靜態(tài)輸出
CNN100+深度 RNN深度有限
組合意義
文結(jié)合,真實(shí)的場景對話
組合方式
類回歸 DNN
圖片標(biāo)注
問題描述
? 擁有大量圖片及標(biāo)注信息,能否通過學(xué)習(xí)
建立一個(gè)能夠自動(dòng)圖片標(biāo)注的模型
基本思路
? 目標(biāo)是產(chǎn)生標(biāo)注的語句,是一個(gè)語句生成
的任務(wù),LSTM?
? 描述的對象大量圖像信息,圖像信息表達(dá),
CNN?
? CNN網(wǎng)絡(luò)中全連接層特征描述圖片,特
征與LSTM輸入結(jié)合?
全連接層特征用來描述原圖片
LSTM輸入:word+圖片特征;輸出下一word
模型設(shè)計(jì)-數(shù)據(jù)準(zhǔn)備
第n+1單詞向量
視頻行為識(shí)別
1. CNN 特征提取
2. LSTM融合
3. Linear regr+Softmax分類
4. 1. 并不是所有的視頻圖像包含確定分類信息
5. RNN用于確定哪些frame是有用的
6. 對有用的圖像特征融合
視頻行為識(shí)別
RNN用于,目標(biāo)檢測
似)
? 競賽/應(yīng)用中,為了產(chǎn)生最好結(jié)果,多采用
多模型ensemble形式
圖片問答
方法流程
依舊按照語言問答流程解決
圖片特征同語言
特征融合
訓(xùn)練數(shù)據(jù):問題+圖片-答案
2. 模型設(shè)計(jì)-純文字問答系統(tǒng)
特征生成
(word embedding)
總結(jié)
- 上一篇: linux开发板作为蓝牙音箱,USB 蓝
- 下一篇: 生成step文件_利用opencv给彦女