Open lfkdsk opened 6 years ago
神经网络的学习分为以下的四个步骤:
[ [-0.11111, ..... ], [...] , ...] 梯度的正负的值表示了损失函数的方向。
[ [-0.11111, ..... ], [...] , ...]
梯度的正负的值表示了损失函数的方向。
这里参考一个例子,来自于《深度学习入门》:
# coding: utf-8 import sys, os sys.path.append(os.pardir) # 为了导入父目录的文件而进行的设定 import numpy as np import matplotlib.pyplot as plt from dataset.mnist import load_mnist from two_layer_net import TwoLayerNet # 读入数据 mnist 识别数字 (x_train, t_train), (x_test, t_test) = load_mnist(normalize=True, one_hot_label=True) # 两层神经网路 代表输入层 784 个结点、隐藏层 50 个节点、输出层 10 个节点 network = TwoLayerNet(input_size=784, hidden_size=50, output_size=10)
配置一些基础的参数:
iters_num = 10000 # 适当设定循环的次数 train_size = x_train.shape[0] # 训练集的大小 batch_size = 100 # 每个批次的大小 learning_rate = 0.1 # 学习速率 (梯度的数值运算的学习速率,就是每次调整参数乘的系数) train_loss_list = [] # 训练损失列表 train_acc_list = [] # ac 列表 test_acc_list = [] # test ac 列表
训练的大循环代码:
for i in range(iters_num): batch_mask = np.random.choice(train_size, batch_size) x_batch = x_train[batch_mask] t_batch = t_train[batch_mask] # 计算梯度 #grad = network.numerical_gradient(x_batch, t_batch) grad = network.gradient(x_batch, t_batch) # 更新参数 for key in ('W1', 'b1', 'W2', 'b2'): network.params[key] -= learning_rate * grad[key] loss = network.loss(x_batch, t_batch) train_loss_list.append(loss) if i % iter_per_epoch == 0: train_acc = network.accuracy(x_train, t_train) test_acc = network.accuracy(x_test, t_test) train_acc_list.append(train_acc) test_acc_list.append(test_acc) print("train acc, test acc | " + str(train_acc) + ", " + str(test_acc))
这里每次从 train set 里面随机的选取一个 batch 作为训练集和测试集,并且计算出梯度,这个梯度请求的是以下的函数:
# x:输入数据, t:监督数据 def numerical_gradient(self, x, t): loss_W = lambda W: self.loss(x, t) grads = {} grads['W1'] = numerical_gradient(loss_W, self.params['W1']) grads['b1'] = numerical_gradient(loss_W, self.params['b1']) grads['W2'] = numerical_gradient(loss_W, self.params['W2']) grads['b2'] = numerical_gradient(loss_W, self.params['b2']) return grads
这里的 W 开头的参数是权重、b 开头的参数是偏置值,这里偏导数的函数是 loss_W 这个函数是求 x 和 t (训练集和测试集之间的 loss 函数),这个 loss 函数是这么实现的:
# x:输入数据, t:监督数据 def loss(self, x, t): y = self.predict(x) return cross_entropy_error(y, t) def predict(self, x): W1, W2 = self.params['W1'], self.params['W2'] b1, b2 = self.params['b1'], self.params['b2'] a1 = np.dot(x, W1) + b1 z1 = sigmoid(a1) a2 = np.dot(z1, W2) + b2 y = softmax(a2) return y
def sigmoid(x): return 1 / (1 + np.exp(-x)) def cross_entropy_error(y, t): if y.ndim == 1: t = t.reshape(1, t.size) y = y.reshape(1, y.size) # 监督数据是one-hot-vector的情况下,转换为正确解标签的索引 if t.size == y.size: t = t.argmax(axis=1) batch_size = y.shape[0] return -np.sum(np.log(y[np.arange(batch_size), t] + 1e-7)) / batch_size
cross_entropyerror 其中有一些针对 one-hot 的特化功能(one-hot 就是说返回的 array 是 [1, 0, 0] 验证为 1 未验证为 0,而普通的函数是预测值 [2, 7, 10]),这里使用了面向 multi-batch 的交叉熵误差法: $$ E = -\frac{1}{N} \sum{n} \sum{k} t{nk} log{y{nk}} $$ 计算之后的 grad 参数(每个向量都表示着与拟合的距离),即损失函数的值。之后通过求出的损失函数的值对各个权重参数进行更新:
# 更新参数 for key in ('W1', 'b1', 'W2', 'b2'): network.params[key] -= learning_rate * grad[key]
因此可以这么理解 —— 我们的权重值从 “超参数” (人为设定的参数值),通过逐个 step 的变换不断地向更好的参数方向靠近。之后记录了每个 batch 的训练集和测试集之间的损失值:
if i % iter_per_epoch == 0: train_acc = network.accuracy(x_train, t_train) test_acc = network.accuracy(x_test, t_test) train_acc_list.append(train_acc) test_acc_list.append(test_acc) print("train acc, test acc | " + str(train_acc) + ", " + str(test_acc))
之后这部分每个 epoch 被更新了之后都会计算一次训练集和测试集的正确率。
epoch 是一个单位。一个 epoch表示学习中所有训练数据均被使用过 一次时的更新次数。
epoch
def accuracy(self, x, t): y = self.predict(x) y = np.argmax(y, axis=1) t = np.argmax(t, axis=1) accuracy = np.sum(y == t) / float(x.shape[0]) return accuracy
np.argmax 是去取出在某个维度上(axis 指定的)最大值的索引位置,因此对比训练集和测试集的结果除以整个维度长度就是所谓的精确度 (accuracy)。
最后对结果进行绘制:
# 绘制图形 markers = {'train': 'o', 'test': 's'} x = np.arange(len(train_acc_list)) plt.plot(x, train_acc_list, label='train acc') plt.plot(x, test_acc_list, label='test acc', linestyle='--') plt.xlabel("epochs") plt.ylabel("accuracy") plt.ylim(0, 1.0) plt.legend(loc='lower right') plt.show()
把 train 的精确值列表和 test 的精确值列表绘制在图形上:
Deep-Learning 笔记
神经网络的学习分为以下的四个步骤:
这里参考一个例子,来自于《深度学习入门》:
配置一些基础的参数:
训练的大循环代码:
这里每次从 train set 里面随机的选取一个 batch 作为训练集和测试集,并且计算出梯度,这个梯度请求的是以下的函数:
这里的 W 开头的参数是权重、b 开头的参数是偏置值,这里偏导数的函数是 loss_W 这个函数是求 x 和 t (训练集和测试集之间的 loss 函数),这个 loss 函数是这么实现的:
cross_entropyerror 其中有一些针对 one-hot 的特化功能(one-hot 就是说返回的 array 是 [1, 0, 0] 验证为 1 未验证为 0,而普通的函数是预测值 [2, 7, 10]),这里使用了面向 multi-batch 的交叉熵误差法: $$ E = -\frac{1}{N} \sum{n} \sum{k} t{nk} log{y{nk}} $$ 计算之后的 grad 参数(每个向量都表示着与拟合的距离),即损失函数的值。之后通过求出的损失函数的值对各个权重参数进行更新:
因此可以这么理解 —— 我们的权重值从 “超参数” (人为设定的参数值),通过逐个 step 的变换不断地向更好的参数方向靠近。之后记录了每个 batch 的训练集和测试集之间的损失值:
之后这部分每个 epoch 被更新了之后都会计算一次训练集和测试集的正确率。
np.argmax 是去取出在某个维度上(axis 指定的)最大值的索引位置,因此对比训练集和测试集的结果除以整个维度长度就是所谓的精确度 (accuracy)。
最后对结果进行绘制:
把 train 的精确值列表和 test 的精确值列表绘制在图形上: