既然深度學習的優勢如此明顯,并且這套方法在80年代末就被提出,那么為何直到近兩年才開始崛起并超越人類呢?總結起來,主要有三大因素共同決定了深度學習在近幾年才開始大爆發:數據規模,計算能力,網絡架構。
首先,大數據是深度學習成功的重要路基。在如今的互聯網時代,數據量的累積是爆炸式的,越來越多的領域正持續積累著日趨豐富的應用數據,這對深度學習的進一步發展和應用至關重要。不過大數據收集是有成本的,并且標注成本已經開始水漲船高,樣本的好壞直接決定了模型的度,所以只有擁有一定技術實力的公司才能持續投入研究。在安防領域,像海康威視等有自主研發實力且在安防行業深耕多年的公司,運用大量真實視頻監控場景的視頻、圖片數據作為訓練樣本庫,數據量大且質量較好,通過超過百人團隊的數據組,對視頻圖像打標簽,積累了別的樣本數據,在使用這些數據量大且質量良好的樣本不斷訓練下,對安防監控場景下的人、車、物進行模式識別的模型也會越來越。
其次,高性能硬件平臺計算是引擎助力。深度學習模型需要大量的樣本,這就避免不了大量的計算,而以前的硬件設備不足以訓練出復雜的上百層的深度學習模型。2011年谷歌DeepMind用了1000臺機器、16000個CPU處理的深度模型大概有10億個神經元,而現在,只要用幾個GPU,我們就可以完成同樣的計算,并且迭代速度更快。因此,GPU、超級計算機、云計算等高性能硬件平臺的迅猛發展讓深度學習成為可能,強大的計算能力有助于深度學習算法快速實現驗證,并積累更多經驗進行模型修正,進一步提高模型精度。
zui后,算法網絡的結構創新是燃料。通過深度學習算法的不斷優化,可以更好地識別目標物。在安防領域,對于一些復雜場景,比如人臉識別,光照、角度、姿態、表情、飾物、分辨率等都會影響識別準確率,這要求算法模型具有更強的泛化能力,深度學習模型需要進一步優化。深度學習算法的層次越深,性能就會越好,目前海康威視的深度學習算法層次已經達到200層,處于業界。在2016年ImageNet競賽中,海康威視研究院基于Faster R-CNN深度學習目標檢測算法排名*,盤踞近一年的第二名微軟4.1個點,刷新紀錄。另外,海康威視關于車輛檢測和車頭方向評估技術在KITTI測評中排名世界*,關于多目標跟蹤技術在MOT Challenge測評中結果排名世界*。
總的來說,隨著安防大數據的快速積累、大規模并行計算的高速發展、更優化算法的不斷出現,是深度學習算法崛起不可忽視的條件。