选自Stanford机器之心编译参与:Smith斯坦福大学的课程CS231n(ConvolutionalNeuralNetworksforVisualRecognition)作为深度学习和计算机视觉方......
选自Stanford
机器之心编译
参与:Smith
斯坦福大学的课程CS231n(ConvolutionalNeuralNetworksforVisualRecognition)作为深度学习和计算机视觉方面的重要基础课程,在学界广受推崇。今年4月,CS231n再度开课,全新的CS231nSpring2017仍旧由李飞飞带头,带来了很多新鲜的内容。今天机器之心给大家分享的是其中的第八讲——深度学习软件(DeepLearningSoftware)。主要内容有:CPU和GPU的对比;深度学习框架简介;TensorFlow和PyTorch的实例;以及各种深度学习框架的比较。
一、CPU和GPU
CPU:核芯的数量更少;
但是每一个核芯的速度更快,性能更强;
更适用于处理连续性(sequential)任务。
GPU:核芯的数量更多;
但是每一个核芯的处理速度较慢;
更适用于并行(parallel)任务。

二、深度学习框架简介
去年我们还仅有Caffe、Torch、Theano和TensorFlow这些深度学习框架可供使用;但是到了今年,在此基础上我们又新增加了Caffe2、Pytorch、TensorFlow、PaddlePaddle、CNDK、MXNet等等一系列新的框架,可谓「百花齐放」。如今最常用的框架当数Pytorch和TensorFlow了,而Caffe和Caffe2次之。
深度学习框架的关键点在于:
(1)易于建造大型的计算机图形;
(2)易于在计算机图形中进行梯度计算;
(3)能在GPU上高效运行(cuDNN,cuBLA等)
三、TensorFlow简单实例
下面我们将详细说明一个在TensorFlow下训练神经网络的简单实例:即用随机数据训练一个两层的网络,激活函数为ReLU。
a.定义计算机图形:
1.为输入x,权重系数w1、w2,和目标函数y创建placeholder:
2.定义前向传输:这是为了计算y的预测值和误差损失(loss);实际上这里是没有计算过程的——仅仅是为了创建图形!
3.告诉Tensorflow去计算关于w1和w2的梯度损失;这里仍然不产生计算过程——仅仅是为了创建图形。
b.运行
现在已经完成了创建图形的步骤,所以我们进入对图形进行运算的部分。
创建Numpy数组,这个数组将会被填进上方的placeholder中。
对图形进行运算:将x、y、w1、w2输入到numpy数组中;得到关于损失(loss),w1梯度和w2梯度的numpy数组。
训练网络:反复对图形进行运算,用梯度(gradient)来更新权重(weights)。
把w1和w2的相应函数从placeholder()改为Variable()。
添加assign操作来更新w1和w2(图形的一部分)。
对图形进行一次运算来初始化w1和w2,然后进行多次迭代训练。
完整代码如下:
但是产生一个问题:误差损失(loss)并没有下降!这是因为Assign指令实际上并没有被执行。
这时我们就需要添加虚拟图形节点,并且告诉图形去计算虚拟节点。
可以使用optimizer来计算梯度和更新权重系数;记得要执行optimizer的输出!
使用预先定义的常用损失函数:
使用Xavier进行初始化;会自动设置权重系数(weight)和偏置项(bias)!
c.高级Wrapper——Keras
把模型目标定义成一系列的layer:
定义优化器目标(optimizerobject):
创建模型,明确规定损失函数(lossfunction):
仅用一行代码就能训练模型!
除了Keras,还有一些其他类型的高级容器(Wrapper)可供使用:
四、PyTorch实例
PyTorch是Facebook推出的深度学习框架,不论是在工业界还是学术界,它都得到了广泛的应用。它包括三个等级的抽象概念:
张量(Tensor):命令式的多维数组对象(ndarray),在GPU上运行;
变量(Varaible):计算型图形(computationalgraph)的节点;用于存储数据和梯度(gradient)
模块(Module):代表一个神经网络层;可以存储状态(state),也可以存储可学习的权重系数(learnableweights)
PyTorch和TensorFlow中抽象概念的等价对应关系:
中的张量(Tensor)设置
PyTorch中的张量就像numpy中的数组,但是这些张量可以在GPU上运行;
这里我们用PyTorch的张量设置了一个两层网络:
下面我们来分步解读:
1.为数据和权重(weights)创建随机张量:
2.设置前向传播:计算预测值(prediction)和损失(loss):
3.设置反向传播:计算梯度(gradients):
4.梯度下降(Gradientdescent)和权重(weights)相对应:
5.为了在GPU上运行,将张量(tensors)设置为cuda数据类型:
中的Autogradient设置
PyTorch的张量(Tensors)和变量(Variables)拥有相同的应用编程接口API。变量(Variables)可以记忆它们是怎么产生的(因为反向传播的缘故)。
下面仍进行分步解读:
1.我们不希望(损失loss的)梯度和数据(data)有相关性,但我们希望梯度和权重(weights)是相关的。相关设置如图:
2.这里的前向传播看上去和上述张量(Tensor)的对应版本很相似,但是需要注意的是现在这里全部都是变量(variable)。
3.计算损失函数对w1和w2的梯度(开始的时候梯度置零):
4.让梯度和权重(weights)相对应:
C.定义新型Autograd函数
通过张量的前向和反向传播来定义你自己的autograd函数:
可以在前向传播中使用新的autograd函数:
中的神经网络(nn)设置
用更高级的「容器」(wrapper)来处理神经网络(neuralnets),和Keras相似。完整代码如下:
下面进行分步解读:
把我们的模型定义成一系列的layers:
也要定义常用损失函数:
前向传播:给模型输入数据;给损失函数(lossfunction)输入预测信息(prediction):
反向传播:计算所有的梯度(gradients):
让梯度和每一个模型参数对应:
下面我们添加一个优化器(optimizer):
在计算完梯度以后对所有的参数(parameters)进行更新:
中的神经网络——定义新的模型
Pytorch中的模块(Module)其实是一个神经网络层(neuralnetlayer),需要注意它的输入和输出都是变量;模块(Module)中包含着权重(当作变量处理)或者其他模块;你可以使用autograd来定义你自己的模块。详细代码如下:
下面进行分步解读:
1.把我们的整体模型定义成一个单一的模块:
2.用初始化程序来设置两个子模块(一个父模块可以包含子模块)
3.用子模块和变量上的autogradops定义前向传播;不需要定义反向传播——因为autograd会作相应处理:
4.创建并训练一个模型实例:
中的资料存储器(Dataloaders)
资料存储器(DataLoader)包括一个数据集(Dataset),而且给你提供了小批量处理(minibatching),「洗牌」处理(shuffling)和多线程处理(multithreading);当你需要载入自定义数据(customdata)时,写下你自己的数据集类型(datasetclass)就可以了。
通过遍历存储器(loader)来形成小批量(minibatch);存储器会给你提供张量(Tensors),所以你需要将其「打包」(wrap)进变量中:
注意:使用带有torchvision的预先训练好的模型(pretrainedmodel)将会更加简单易行。
和pytorch的简单对比
结论:尽量使用PyTorch来做你的新项目。
五、Caffe2简介
六、深度学习框架之争,究竟谁更胜一筹?
其实具体选择何种框架来进行深度学习取决于我们要做什么。在参阅相关文献之后,我们大致可以得出以下结论(仅供参考):
PyTorch和Torch更适用于学术研究(research);TensorFlow,Caffe,Caffe2则更适用于工业界的生产环境部署(industrialproduction)。
Caffe适用于处理静态图像(staticgraph);Torch和PyTorch更适用于动态图像(dynamicgraph);而TensorFlow在两种情况下都很实用;
Tensorflow和Caffe2可在移动端使用
附参考文献(斯坦福课程CS231n;以及港中文课程ELEG5491):