在深度進修才開端風行然則沒有像現在這么成熟的時刻(2011 年),Hinton 等人就曾經開端思慮一個成績:深度進修依附的反向流傳算法 (back-prop) 在生物學上是很難成立的,很難信任神經體系可以或許主動構成與正向流傳對應的反向流傳構造(這須要精準地求導數,對矩陣轉置,應用鏈式軌則,而且剖解學上歷來也沒有發明如許的體系存在的證據)。
別的一點是,神經體系是有分層的(好比視覺體系有 V1, V2 等等分層),然則層數弗成能像如今的年夜型神經收集一樣動不動就成百上千層(并且生物學上也不支撐如斯,神經傳導速度很慢,不像用 GPU 盤算神經收集一層能夠在微秒量級,生物體系傳導一次普通在 ms 量級,這么多層數弗成能支撐我們如今如許的反響速度,而且同步也存在成績)。
然則風趣的是,今朝年夜多半研討指出,年夜腦皮層中廣泛存在一種稱為 Cortical minicolumn 的柱狀構造,其外部含有上百個神經元,并存在分層。這意味著人腦中的一層其實不是相似如今神經收集的一層,而是有龐雜的外部構造。
不外 Hinton 也沒有料到后來 CNN 成長的如斯火,他其時的這篇論文沒有怎樣遭到存眷。這幾年他也沒有持續存眷這個成績,由于 CNN,LSTM, NTM 等等成績太多太風趣。
不外到如今,CNN 的成長仿佛到了一個瓶頸:特殊年夜,特殊深的收集;輕易被反抗樣本誘騙;依然須要年夜量練習數據;無監視進修方面停頓很少。
Hinton 在題主給的視頻中從新剖析了一下今朝 CNN 的成績,重要集中在 Pooling 方面(我以為可以推行到下采樣,由于如今許多 CNN 用卷積下采樣取代 Pooling 層)。Hinton 以為,曩昔人們對 Pooling 的意見是可以或許帶來 invariance 的后果,也就是當內容產生很小的變更的時刻(和一些平移扭轉),CNN 依然可以或許穩固辨認對應內容。
Hinton 認為這是一個毛病的偏向。他給出了一個心思學試驗的例子,這個例子請求斷定兩個 R 能否是一樣的,僅僅由于扭轉招致分歧:
(簡直一切)人的做法是下認識的扭轉左邊的 R,“看” 它們能否重合。
然則依照 CNN 的 invariance 的設法主意完整不是這么做。假如你對練習神經收集有經歷,你能夠會想到我們在做圖象預處置和數據拓增的時刻,會把某些圖片扭轉一些角度,作為新的樣本,給神經收集辨認。如許 CNN 可以或許做到對扭轉的 invarience,而且是 “直覺上” 的 invariance,基本不須要像人那樣去扭轉圖片,它直接就 “疏忽” 了扭轉,由于我們愿望它對扭轉 invariance。
CNN 異樣強調對空間的 invariance,也就是對物體的平移之類的不敏感(物體分歧的地位不影響它的辨認)。這固然極年夜地進步了辨認準確率,然則關于挪動的數據(好比視頻),或許我們須要檢測物體詳細的地位的時刻,CNN 自己很難做,須要一些滑動窗口,或許 R-CNN 之類的辦法,這些辦法很失常(簡直確定在生物學中不存在對應構造),并且極難說明為何年夜腦在辨認靜態圖象和不雅察活動場景等差別很年夜的視覺功效時,簡直應用統一套視覺體系。
是以 Hinton 以為,人腦做到的是 equivariance ,也就是可以或許檢測到平移、選轉等等各類差別,然則可以或許 “熟悉” 到他們在某些視覺成績場景下是雷同的,某些場景下應當有所差別,而不是像 CNN 一樣為了尋求單一的辨認率,用 invariance 掩飾這些差別。
因而 Hinton 從新開端存眷 Capsules 的成績,愿望從中有所沖破,處理之前深度進修中的許多成績。假如確切可以或許處理這些成績,Hinton 有勇氣完整擯棄之前的系統構造,從 0 開端。
這是 Hinton 比來被 NIPS 接收的關于 Capsules 論文 Dynamic Routing between Capsules (未揭橥)。其在 MNIST 上異常勝利,辨認率到達了新高,同時處理了 CNN 難以辨認堆疊圖象等成績。
注:上文中 equivalence 改成了 equivariance,這是更精確的說法
一些剖析
固然如今只要論文摘要,和 Hinton 比來的視頻,我們照樣可以剖析一下 Hinton 的設法主意和尋求:
可說明性。
依照 Hinton 的說法, Capsule 是一組神經元,這組神經元的激起向量可以代表對應于一類實體(好比一個物體,或許一個物體的部件)的實例參數( instantiation parameters )。這個說法異常像 Hinton 已經提的 “專家積”(Products of Experts)[1] 的概念,他用這個概念說明有名的比較散度(contrastive divergence)算法 [2]。更加人熟知的是 Andrew Y. Ng 的關于主動從視頻中辨認貓臉的試驗 [3],這些試驗都暗示了某個神經元可以代表代表某些物體實例(祖母細胞假說)。然則我們曉得,某個神經元本身是個簡略的數學變換,其本身不克不及起到決議性的感化。CNN 等可以或許主動抽取圖象特點等等性質曾經為人熟知,然則究竟是哪些神經元或許哪些構造起了感化?這個很難答復。古代年夜多半神經收集的構造是絕對全體且比擬粗拙的,很難說明其外部的詳細感化機制,是以我們經常把神經收集稱為 “黑盒模子”。如今有了 Capsule 后,我們也許可以以 Capsule 為單元剖析得出每一個 Capsule 詳細的感化,如許可說明性要強許多。
注:從視頻中看 Hinton 所說的 instantiation parameters 應當是指表征以下內容的參數:
1. 某類物體涌現的幾率
2. 物體的普通姿勢 (generalized pose),包含地位,偏向,尺寸,速度,色彩等等
因果性。
這是 Hinton 在視頻中重點提到的,也是許多機械進修專家關懷的器械。如今的神經收集缺少某種 “揣摸” 的機制,更多是目的函數最年夜化下的函數擬合。我們曉得收集可以或許準確分類某個圖片,然則為何?圖片中甚么部門或許前提才招致收集得出這個結論?假如分類失足了,又是甚么詳細的部門或許前提誤導了它?這些我們都不長短常清晰,年夜部門時刻僅僅靠調參進步成果。而論文中 Dynamic Routing,就是愿望可以或許構成一種機制,讓收集可以或許將合適 Capsule_A 處置的內容,路由到 Capsule_A 讓其處置。如許就構成了某種揣摸鏈。 “找到最好的(處置)途徑等價于(準確)處置了圖象” ,Hinton 如許說明。
Hinton 指出,本來的 Pooling,相似于靜態的 routing,僅僅把下面的成果原地交給上面一層的神經元。(上面圖片中 Dynamic Routing 僅供表示,詳細完成要看揭橥出來的論文)
無監視進修。
這點也是 Hinton 強調的(原話仿佛是 A human does not know so much labels)。Hinton 估量有在 Capsule 基本上做無監視研討的意向,在之前的 [4] 中 Hinton 曾經用 Capsule 完成了自編碼器。
若何對待 Hinton 從新提出的 Capsule ?
起首這個任務勝利或許不勝利都是很正常的,就算 Capsule 真的會成為今后的趨向,Hinton 也未必這么快找到準確的練習算法;就算 Hinton 找到了準確的練習算法,也沒有人可以或許包管,Capsules 的數目不到人腦中 mini-columns 數目的時刻,可以或許起到達人類的辨認率(況且如今 CNN 固然成績許多,然則辨認率許多曾經跨越人類了)。
別的看之前的關于 Capsules 的論文 [4],個中的成果在 2011 年照樣不錯的,然則比擬最近幾年來的 CNN 就差多了,這生怕也是 Capsules 隨后沒有火起來的緣由。許多人都吐槽如今深度進修各類各樣的成績,須要年夜量調參,然則每次調參都能有一年夜批人在論文揭橥 deadline 前調到想要的后果,這個也不能不服啊;不服你用 SIFT 給你一年調到一樣的后果嘗嘗?
也許最糟的成果是,好像散布式存儲中有名的 CAP 實際(又叫 Brewer's theorem)所述,分歧性,可用性和分片性三者不克不及同時知足;也許關于機械進修,準確率,可說明性,因果性也不克不及同時知足(最好的模子必定最難懂得)。Hinton 暮年試圖沖破深度進修就像愛因斯坦暮年試圖同一電磁力和引力一樣,是注定沒法勝利的。不外信任 Hinton 依然情愿等下去,究竟從反向流傳提出,到深度進修的火爆,Hinton 曾經苦守了 30 年了。
評論中有人提到,人工神經收集不用非要依照生物的門路走。我想 Hinton 重提 Capsule 的緣由不只是由于 Capsule 在生物學上有支撐,而是其有可以實行 dynamic routing 算法等的優秀性質,Hinton 在其上看到了一些能夠的沖破點。
最早的神經收集作為感知機涌現的時刻是依照 Hebb's rule 進修的,可以說長短常生物了。恰是 Hinton 和 LeCun 弄出離開生物模子的反向流傳算法,和 Hinton 后來基于熱力學統計做的玻爾茲曼機和受限玻爾茲曼機和配套的比較散度算法,才有了深度進修的明天。
