對比深度學習十大框架：TensorFlow 并非最好？

作者：時間：2017-09-21 來源：網絡

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

　　2016 年已經過去，BEEVA Labs 數據分析師 Ricardo Guerrero Gomez-Ol 近日在 Medium 上發(fā)表了一篇文章，盤點了目前最流行的深度學習框架。為什么要做這一個盤點呢?他寫道：「我常聽到人們談論深度學習——我該從哪里開始呢?TensorFlow 是現在最流行的吧?我聽說 Caffe 很常用，但會不會太難了?在 BEEVA Labs，我們常常需要應對許多不同的深度學習庫，所以我希望能夠將我們的發(fā)現和感想分享出來，幫助那些剛剛進入深度學習這一美麗世界的人?！?/p>本文引用地址：http://cafeforensic.com/article/201709/364603.htm

　　TensorFlow

　　鏈接：https://www.tensorflow.org/

　　對于那些聽說過深度學習但還沒有太過專門深入的人來說，TensorFlow 是他們最喜歡的深度學習框架，但在這里我要澄清一些事實。

　　在 TensorFlow 的官網上，它被定義為「一個用于機器智能的開源軟件庫」，但我覺得應該這么定義：TensorFlow 是一個使用數據流圖(data flow graphs)進行數值計算的開源軟件庫。在這里，他們沒有將 TensorFlow 包含在「深度學習框架」范圍內，而是和 Theano 一起被包含在「圖編譯器(graph compilers)」類別中。

　　在結束了 Udacity 的 Deep Learning 課程(https://www.udacity.com/course/deep-learning--ud730)之后，我的感覺是 TensorFlow 是一個非常好的框架，但是卻非常低層。使用 TensorFlow 需要編寫大量的代碼，你必須一遍又一遍地重新發(fā)明輪子。而且我并不是唯一一個這么想的人。Andrej Karpathy 在 Twitter 上就多次吐過槽：

　　推文：我希望 TensorFlow 能標準化我們的代碼，但它是低層面的，所以我們在其上面的層上分道揚鑣了：Slim、PrettyTensor、Keras、TFLearn ...

　　比如：我們在 OpenAI 使用 TensorFlow，但我們似乎都更喜歡其它框架，我們有些人還寫自定義代碼。嘆

　　幾個月前，我去參加了「Google Experts Summit: TensorFlow, Machine Learning for everyone, with Sergio Guadarrama」。Sergio 是開發(fā) TensorFlow 的一位工程師，但他在會上沒有展示 TensorFlow，而是展示了一個在 TensorFlow 上工作的更高層的庫 tf.contrib：https://www.tensorflow.org/tutorials/tflearn/。我的看法是：他們內部已經意識到如果要讓更多人使用 TensorFlow，他們就需要以更高的抽象水平在其上創(chuàng)建一些層，從而簡化 TensorFlow 的使用。

　　TensorFlow 支持 Python 和 C++，也允許在 CPU 和 GPU 上的計算分布，甚至支持使用 gRPC 進行水平擴展。

　　總結：TensorFlow 非常好，但你必須了解它好在哪里。如果你不想什么事都自己手動去做和重新發(fā)明輪子，你可以使用更簡單的庫(安利一下 Keras)。

　　Theano

　　鏈接：http://deeplearning.net/software/theano/

　　Theano 是最老牌和最穩(wěn)定的庫之一。據我所知，深度學習庫的開端不是 Caffe 就是 Theano。

　　和 TensorFlow 類似，Theano 是一個比較低層的庫。也因此它并不適合深度學習，而更適合數值計算優(yōu)化。它支持自動的函數梯度計算，帶有 Python 接口并集成了 Numpy，這使得它從一開始就成為了通用深度學習領域最常使用的庫之一。

　　今天，Theano 依然效果良好，但由于它不支持多 GPU 和水平擴展，在 TensorFlow 的熱潮下(它們針對同一個領域)，Theano 已然開始被遺忘了。

　　Keras

　　鏈接：https://keras.io/

　　「You have just found Keras.」

　　上面這句話是你打開文檔頁面時看到的第一句話。我還記得我第一次發(fā)現 Keras 的時候。那時候我正在柏林解決 Data Science Retreat 的最后一個項目，為此我努力進入了深度學習庫的世界。我在起步時就已經有了足夠的深度學習知識，但我沒有時間自己手動編寫功能，也沒有時間探索和學習一個新的庫(截止時間不到 2 個月，而我還有課要上)。然后我發(fā)現了 Keras。

　　我真的很喜歡 Keras，因為它的句法是相當明晰的，它的文檔也非常好(盡管相對較新)，而且它支持我已經掌握的語言 Python。它的使用非常簡單輕松;我們也能很直觀地了解它的指令、函數和每個模塊之間的鏈接方式。

　　Keras 是一個非常高層的庫，可以工作在 Theano 和 TensorFlow(可以配置)之上。另外，Keras 強調極簡主義——你只需幾行代碼就能構建一個神經網絡。在這里你可以比較一下 Keras 和 TensorFlow 實現相同功能時所需的代碼：https://gist.github.com/ricgu8086/0ba44ce3aab19ec50425383a4d778b50

　　Lasagne

　　鏈接：http://lasagne.readthedocs.io/en/latest/index.html

　　Lasagne 是一個工作在 Theano 之上的庫。它的使命是簡化一點深度學習算法之下的復雜計算，同時也提供了一個更加友好的接口(也是 Python 的)。這是一個老牌的庫，并且很長時間以來它都是一個擴展能力很強的工具;但在我看來，它的發(fā)展速度趕不上 Keras。它們的適用領域都差不多，但 Keras 有更好的文檔、也更完整。

　　Caffe

　　鏈接：http://caffe.berkeleyvision.org/

　　Caffe 不只是最老牌的框架之一，而是老牌中的老牌。

　　在我看來，Caffe 有非常好的特性，但也有一些小缺點。起初的時候它并不是一個通用框架，而僅僅關注計算機視覺，但它具有非常好的通用性。在我們實驗室的實驗中，CaffeNet 架構的訓練時間在 Caffe 中比在 Keras 中(使用了 Theano 后端)少 5 倍。Caffe 的缺點是它不夠靈活。如果你想給它來一點新改變，那你就需要使用 C++ 和 CUDA 編程，不過你也可以使用 Python 或 Matlab 接口進行一些小改變。

　　Caffe 的文檔非常貧乏。你需要花大量時間檢查代碼才能理解它(Xavier 初始化有什么用?Glorot 是什么?)

　　Caffe 的最大缺點之一是它的安裝。它需要解決大量的依賴包……我曾經安裝過 Caffe 兩次，真正痛苦至極。

　　但要清楚，Caffe 并不是一無是處。在投入了生產的計算機視覺系統(tǒng)的工具上，Caffe 是無可爭議的領導者。它非常穩(wěn)健非?？焖?。我的建議是：用 Keras 進行實驗和測試，然后遷移到 Caffe 中進行生產。

　　DSSTNE

　　鏈接：https://github.com/amznlabs/amazon-dsstne

　　DSSTNE 的發(fā)音同 Destiny，是一個酷勁十足的框架卻總是被忽略。為什么?除去其他的因素不談，原因在于這個框架不具有普適性，不是為一般常見任務所設計的。DSSTNE 框架只做一件事——推薦系統(tǒng)，但把這件事做到了極致。既不是為研究而設計，也不是為測試 idea 而設計(來源其官方網站的宣傳語)，DSSTNE 框架是為量產而設計。

　　我們已在 BEEVA 上做一些實驗測試了，目前我已經感覺到這是一個運行非?？斓墓ぞ卟⑶夷軌虻玫椒浅：玫倪\行結果(平均準確率均值——mAP 很高)。為了達到這一速度，DSSTNE 框架用 GPU 運行，這也是它的弊端之一：不同于篇中分析的其他框架或者庫，這個框架不支持使用者隨意在 CPU 和 GPU 中切換，而這可能會對有些嘗試有用，但我們在 DSSTNE 里做這樣的嘗試時是不被框架所允許的。

　　其他的感受就是迄今為止 DSSTNE 還不是一個足夠成熟的項目，而且它封裝的太嚴密了(「black box」)。如果我們想深入了解這個框架的運行機制是什么，我們必須且只能去看它的源碼，并且你需要完成很多必須完成的設置(「TODO」)才可以看到。同時，關于這個框架的在線教程不多，而能讓開發(fā)者進行操作嘗試的指導就更少了。我的意見是再等 4 個月看看 DSSTNE 的最新版本。不能不說 DSSTEN 的確是一個很有意思的項目但還需要一點成長空間。

　　還想說明一點，這個框架對編程能力沒有要求。DSSTNE 框架通過其終端的命令行來執(zhí)行相關操作。

　　到目前為止，很多我知道也很流行的框架和庫我還沒有用過，我不能給出更多具體的細節(jié)。

　　Torch

　　鏈接：http://torch.ch/

　　在這個世界上每天仍有很多戰(zhàn)爭，但是一個優(yōu)秀的「勇士」(西班牙語「Guerrero」)必須熟知哪些戰(zhàn)爭是需要去參加作戰(zhàn)的，哪些是可以選擇不參與的。

　　Torch 是一個很著名的框架，因巨頭 Facebook 的人工智能研究所用的框架是 Torch，并且在被谷歌收購之前 DeepMind 也是用的 Torch(收購之后 DeepMind 轉向了 TensorFlow)。Torch 的編程語言是 Lua，這就是我剛才所談的「戰(zhàn)爭」的具體所指。在目前深度學習編程語言絕大部分以 Python 實現為主的大趨勢下，一個以 Lua 為編程語言的框架的最大劣勢莫過于此。我從未用使用過這個語言，如果我想使用 Torch 這個工具，毫無疑問我需要先學習 Lua 語言然后才能使用 Torch。這固然是一個合理的過程，但就我個人情況來說，我偏向于用 Python、Matlab 或者 C++的實現。

　　MXNet

　　鏈接：https://github.com/dmlc/mxnet

　　mxnet 是一個支持大多數編程語言的框架之一，包括 Python，R，C++，Julia 等。但我覺得使用 R 語言的開發(fā)者會特別偏愛 mxnet，因為至今為止還是 Python 以不可置疑的態(tài)勢稱霸深度學習語言的(Python 與 R 的對決，猜猜我會站哪邊?:-p)

　　老實說，在此之前我并沒有很關注 mxnet。但是當亞馬遜 AWS 宣布選擇 mxnet 作為其深度學習 AMI 的庫時觸發(fā)我開始關注 mxnet。我必須去了解一下。后來我獲知亞馬遜把 mxnet 列為其深度學習的參考庫并宣稱其巨大的橫向擴展能力。我感覺到這里面有一些新的改變發(fā)生而且我必須深入了解。這也是為什么我們 2017 的 BEEVA 的技術測試名單里有 mnxet 的原因。

　　我對多 GPU 的擴展能力有點疑慮并且我很原意去了解這樣實驗的更多細節(jié)，但目前我還是對 mxnet 持懷疑態(tài)度。

　　DL4J

　　鏈接：https://deeplearning4j.org/

　　我接觸這一庫，是因為它的 documentation。當時我正在尋找受限玻爾茲曼機、自編碼器，在 DL4J 中找到了這兩個 documentation。里面的文件很清楚，有理論，有代碼案例。我必須得說 DL4J 的 documentation 簡直是藝術品，其他庫在記錄代碼的時候需要向它學習。

　　DL4J 背后的公司 Skymind 意識到，雖然在深度學習圈內 Python 是老大，但大部分程序員起自 Java，所以需要找到一個解決方案。DL4J 兼容 JVM，也適用 Java、Clojure 和 Scala，隨著 Scala 的起起落落，它也被很多有潛力的創(chuàng)業(yè)公司使用，所以我還會繼續(xù)緊追這個庫。

　　此外，Skymind 的 twitter 賬戶非?；钴S，不斷公開最新的科學論文、案例和教程，及其推薦大家關注。

　　Cognitive Toolkit

　　鏈接：https://github.com/Microsoft/CNTK

　　認知工具包(Cognitive Toolkit)之前被大家所知的縮略是 CNTK，但是最近又重命名回歸到 Cognitive Toolkit，很可能是想沾最近微軟認知服務(Microsoft Cognitive services)的光。在公開的基準測試上的表現來看，這個工具似乎很強勁，支持縱向和橫向的推移。

　　目前為止，Cognitive Toolkit 似乎不是很流行。我并沒有讀到很多關于使用這個庫的博客、在線實驗案例或者在 Kaggle 里的相關評論。但是對我來說，一個背靠微軟研究的框架特別強調自己的推移能力讓我覺得有些奇怪，畢竟微軟研究團隊可是在語音識別上打破世界紀錄并逼近人類水準。

　　我在查看他們項目百科的一個范例的時候了解到 Cognitive Toolkit 在 Python 上的語法和 Keras 是非常相類似的(Cognitive Toolkit 也支持 C++)，這不禁讓我在想(并不是確認)Keras 才是正確的方式。

　　結論

　　我的結論是：如果你想進入這一領域，你應該首先學習 Python。盡管這一領域還支持其它很多語言，但 Python 是應用范圍最廣而且最簡單的一個。但是為什么要選擇 Python 呢——畢竟 Python 速度這么慢?因為大多數的庫都使用的是符號式語言(symbolic language)方法而非命令式語言(imperative language)方法。解釋一下也就是說：不是一條接一條地執(zhí)行你的指令，而是根據你給出的所有指令創(chuàng)建一個計算圖(computing graph)。這個圖被內部優(yōu)化和編譯成可執(zhí)行的 C++ 代碼。這樣你就能同時利用上兩個世界的最優(yōu)之處：Python 帶來的開發(fā)速度和 C++ 帶來的執(zhí)行速度。

　　人們對深度學習的興趣越來越大了，但人們并不愿意等待算法訓練所需的大量計算時間(而且我說的是 GPU，想都不要想只使用 CPU)。這也是多 GPU 支持、多機器上的水平擴展甚至定制硬件最近開始得勢的原因。

　　深度學習領域非?；钴S、易變。很可能我現在所說的在 2017 年的中旬就變了。

　　我的建議是，如果你是初學者，使用 Keras，如果不是初學者，也可以使用它。如果你參加過 Kaggle 比賽，你肯定注意到了 Kaggle 的兩大巨星：Keras 和 XGBoost。