Finding Structure in Time论文解读
《Finding Structure in Time》-1990
作者Jeffrey L.Elman
已經于2018年的六月份去世了。
該文的引用量非常之高,目前有9000多,所以也導致有些神經網絡發展史中把該篇文章視為經典論文。
文章目的是:
提出一種新的結構,用來解決時序相關的問題。
注意,該文的Section 1不是從Introduction部分開始算起。
文章結構={1.TheProblemwithTime2.Networkswithmemory3.Exclusive?OR4.Strutureinlettersequences5.Discoveringthenotion"word"6.Discoveringlexicalclassesfromwordorder7.Types,tokens,andstructuredrepresentations8.Conclucions文章結構=\left\{ \begin{aligned} 1.The\ Problem\ with\ Time \\ 2.Networks\ with\ memory\\ 3.Exclusive-OR \\ 4.Struture\ in\ letter\ sequences\\ 5.Discovering\ the\ notion\ "word"\\ 6.Discovering\ lexical\ classes\ from\ word\ order\\ 7.Types,tokens,and\ structured\ representations\\ 8.Conclucions \end{aligned} \right.文章結構=????????????????????????????????1.The?Problem?with?Time2.Networks?with?memory3.Exclusive?OR4.Struture?in?letter?sequences5.Discovering?the?notion?"word"6.Discovering?lexical?classes?from?word?order7.Types,tokens,and?structured?representations8.Conclucions?
section1 講了目前的一些問題。
section2 指明本文的方案
論文的中間大部分用來指明該方案應用到現有問題上的一些效果。
Section 1的標題是:The problem with time.
講了三個問題:
1.現有的神經網絡的使用需要現實世界與該神經網絡有一個接口。
怎么讓該神經網絡系統知道接受的內容中的哪一部分應該作為神經網絡的輸入數據?(對應P181的第2段內容)
2.現有的系統的輸入端口數量是固定的,那要是相比較兩個長度不一的句子咋辦?(對應P181的第3段內容)
3.之前的方案不能準確地區分相對時序位置,作者這里舉了一個例子:
[011100000]
[000111000]
怎么讓系統知道這是兩個不同的輸入呢?
這里稍微總結下:我個人理解,這里的前面兩個問題其實是在說同一個事兒。
Section 2的標題是:Networks with Memory.
注意,下面的Figure1,雖然號稱使用的是Jordan的1986年的文章中的一個插圖。該文章是:
《Serial order:A parallel distributed processing approach》-1986
但是該篇所謂的1986年的文章在google學術中查到是1997年發表的。
所以可能是86年發表后,于1997年重映了。
值得一提的是,上圖與《Serial order:A parallel distributed processing approach》-1986的插圖并不一致。
好了,本文作者提出的結構如下:
一句話概括,創新點在哪里:
Fig1中的反饋點是從“輸出層”返回輸入端。
Fig2中的反饋點是從“隱藏層輸出端”返回輸入端。
所以本文創新點就是改了個“反饋點的位置”,然后后面就是各種實驗和理論分析了。
好了,上圖只是一個草圖,
這個神經網絡內部到底長啥樣?
我們來看Section 3:Exclusive-OR
XOR異或的完整名稱就是“Exclusive-OR”
這個section在P185
這個Section下面的第4段提到:
The input stream was presented to the network shown in Figure2(with 1 input unit,2 hidden units,1 output unit,and 2 context units),one bit at a time.
所以上面的Figure2里面的節點數我們知道了,但是怎么反饋的,上面的圖就是很抽象的一條線,以及“權重線”具體怎么連接也沒有說。
作者去世了,所以也無法聯系了。
P186的最下方,我們可以得到一丁點信息:
當全0或者全1輸入時,其中一個hidden unit(就是放激活函數)會被激活,另外一個會被抑制。
當0101…這種不停變換的方式輸入時,則反過來,其中一個hidden unit被抑制,另外一個hidden unit會被激活。
因為論文本身也沒有附帶代碼鏈接,且沒有講清楚具體的網絡結構,后面的解讀無法進行下去,也無法聯系去世的作者獲知具體細節。
創作挑戰賽新人創作獎勵來咯,堅持創作打卡瓜分現金大獎總結
以上是生活随笔為你收集整理的Finding Structure in Time论文解读的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Learning representat
- 下一篇: Backpropagation Thro