chenghong-lin-nu / blog

个人技术博客，博文写在issue里。

0 stars 0 forks source link

DLND-Week2 #2

Open chenghong-lin-nu opened 6 years ago

chenghong-lin-nu commented 6 years ago

Deep Learning所用到的数学知识

Linear Algebra
Statistics
Calculus
对数据进行归一化处理（Normalization）- 可以帮助我们的模型更快地达到收敛。
归一化数据的策略有好多，但是最常用的是“区间缩放法”（Min Max Scaling)
然后为了保证数据都是神经网络可以接收的形式，所以这里我们需要使用到线性代数的知识。
经常使用到的术语有：1.Scalars（标量） 2.Vectors（向量） 3.Matrices（矩阵） 4.Tensors（张量）
Hyperparameters 超参数
超参数就是我们所定义的网络高级调节旋钮，能帮助确定网络架构的一些特征。（如模型运行有多快、有多少的神经元、隐藏层）
你可以手动地设置超参，当然你也可以进行Random Search.
可以创建一个搜索算法，进行随机选值。

矩阵数学和Numpy复习

Scalar: 标量；
Vector: 向量（row vector & column vector）- 1 dimension(我们叫它Length)
Matrices: 矩阵 - 2 dimension
Tensors: 张量 - 张量可以指任何n维的值集合

矩阵乘法：Matrix Product

Rules:
Numpy矩阵乘法：有np.matmul(a,b)[其中a，b均为矩阵]；也有np.dot(a,b)[其中a，b可以为标量，这里还是和前面那个有所不同的]

矩阵转置：Matrix Transpose

Numpy中矩阵的转置：
在 NumPy 中获得矩阵的转置非常容易。只需访问其 T 属性即可。还有一个 transpose() 函数也可以返回同样的结果，但是你很少看到它的使用，因为输入 T 的方法要简单得多。:)

chenghong-lin-nu commented 6 years ago

神经网络入门

Logistic Regression(逻辑回归)

这个过程的关键点是：通过最小化误差函数值来获得最优拟合线。
那么怎样使误差函数值最小化呢？
Gradient Descent（梯度下降法）

神经网络图示

最左边是输入层
中间层又叫做隐藏层 - 帮助我们进行运算
最后一层 - 输出层

Perceptron-感知器

数据，无论是考试成绩还是评级，被输入到一个相互连接的节点网络中。这些独立的节点被称作感知器或者神经元。它们是构成神经网络的基本单元。每个感知器依照输入数据来决定如何对数据分类。在上面的例子中，输入的评级或者成绩要么通过阈值 (threshold) 要么通不过。

Weight-权重

当数据被输入感知器，它会与分配给这个特定输入的权重相乘。例如，上图感知器有两个输入，tests和 grades，所以它有两个与之相关的权重，并且可以分别调整。这些权重刚开始是随机值，当神经网络学习到什么样的输入数据会使得学生被学校录取之后，网络会根据之前权重下分类的错误来调整权重，这个过程被称为神经网络的训练。

输入数据加总

权重代表它的重要性
接下来，经过加权的输入数据被加总，生成一个单独的值，它会帮助实现最终输出 - (也就是这个学生是否被录取)。

计算激活函数的输出

感知器求和的结果会被转换成输出信号，这是通过把线性组合传给 激活函数 来实现的。
当输入给到节点，激活函数可以决定节点的输出。因为它决定了实际输出，我们也把层的输出，称作“激活”。

单位阶跃函数（Heaviside step function）

偏置项（bias）

相当于是直线中的位移b

完整感知器公式

然后神经网络开始学习！权重 (wi) 和偏置项 (b) 被初始化为一个随机值，然后神经网络使用一种学习算法（比如梯度下降算法）来更新它们的值。权重和偏置项的更新使得下一个训练样本更准确地被归类，数据中蕴含的模式，也就被神经网络“学”出来了。

AND感知器

OR感知器

练习
一开始没想明白，但是通过数学推理还是挺清晰的。
这是一个二维，变量分别是x1,x2而没有y。

XOR感知器

输入相同返回0，不同返回1.

chenghong-lin-nu commented 6 years ago

最简单的神经网络

现在我们只了解了阶跃激活函数。
下图是最简单的神经网络架构图。当然激活函数可以是任意函数，除了阶跃函数。

sigmoid（对数几率）激活函数

sigmoid 函数值域是 0 到 1 之间，它的输出还可以被解释为成功的概率。

梯度下降

学习如何找到权重

要了解我们将如何找到这些权重，可以从我们的目标开始考虑。我们想让网络做出的预测与真实值尽可能接近。
为了能够衡量，我们需要有一个指标来了解预测有多差，也就是误差 (error)。
一个普遍的指标是误差平方和 sum of the squared errors (SSE)：
我们想让网络预测的误差尽可能小，权重是让我们能够实现这个目标的调节旋钮。我们的目的是寻找权重wij使得误差平方 E 最小。通常来说神经网络通过梯度下降来实现这一点。

Gradient Descent

误差就像是山，下山最快的路就是最陡峭的那条。因此我们也应该寻找能够使误差最小化的方向。我们可以通过计算误差平方的梯度来找到这个方向。

梯度（Gradient）

梯度是改变率或者斜度的另一个称呼。
梯度就是对多变量函数导数的泛化。
Gradient就是把所有的一个函数的所有偏微分都放在一起。
Gradient就是把这些偏微分都放在一个vector里面。
Gradient: is a vector full of the partial derivatives.
Gradient is always perpendicular to the contour lines. (它总是垂直于等高线)。

chenghong-lin-nu commented 6 years ago

梯度下降-数学

不知道正确权重怎么办呢？可以先输入已经的正确数据，然后再根据预测结果调整权重参数。

首先，我们要选取衡量预测误差的标准。
- 最简单的是用实际目标值-预测值，但是这样子误差的符号会不能保持一致。
- 那么要使符号全都为正，我们可以使用平方的方式。（为什么不用绝对值？因为用平方值时，异常值会被赋予更高的惩罚值；而较小误差的惩罚值较低。）
- 但是现在仅是单次的误差。
全体数据的整体误差
- SSE可以衡量神经网络的预测效果。数值越高，预测效果越差；越低，效果则越好；
- 加1/2是为了简化计算。
- y一把（数学符号打不出来）代表的是预测值。
- 权重（weight）可以调整预测值。-> 从而影响整体误差 -> 我们目标求取是误差最小化的权重值。
- 如上图，我们的目的就是为了找到在碗底的那个E（就是最小的那个E对应的w值。）
- 它走的方向是和gradient（斜率）相反的。
- 新的wi和gradient成正比，然后那个learning rate指的是梯度下降中更新步长的大小。

高数求导 - 链式法则

最后推出来了下面那两个公式：
多个输出误差
也是可以解决的，结合这两张图来看。

chenghong-lin-nu commented 6 years ago

梯度下降-代码

实现梯度下降来更新权重Weights

import numpy as np
# 梯度下降-代码
# f(h)是sigmoid

# 定义sigmoid激活函数
def sigmoid(x):
    return 1/(1+np.exp(-x))

# 定义激活函数的导数
def sigmoid_prime(x):
    return np.exp(-x)*(1+np.exp(-x))**(-2)

# Input Data
x = np.array([0.1, 0.3])
print(x)

# Target
y = 0.2

# Weight
weights = np.array([-0.8, 0.5])
print(weights)

# 权重更新的学习率
learnrate = 0.5

# 输入和权重的组合
h = np.dot(x, weights.T)

# 神经网络输出
nn_output = sigmoid(h)

# 输出误差
error = y - nn_output

# 输出梯度(f'(h))
output_grad = sigmoid_prime(h)

# error term (lowercase delta)
error_term = error * output_grad

# Gradient descent step (delta wi)
# Calculate change in weights
del_w = [learnrate * error_term * x[0],
        learnrate * error_term * x[1]]
print(del_w)

上面那个代码就是根据数学公式来进行计算的。

chenghong-lin-nu commented 6 years ago

实现梯度下降

Below is the general algorithm for updating weights with gradient descent.
首先，把权重步长设置成为0,
然后对于training data中的每一条记录，进行遍历；
然后进行前向传播，并计算网络的输出y一把；
然后计算输出层的error_term；
然后更新权重步长。
遍历完了之后呢，然后更新权重了。
最后重复迭代上述过程e次。

代码实现

import numpy as np
from data_prep import features, targets, features_test, targets_test

def sigmoid(x):
    """
    Calculate sigmoid
    """
    return 1 / (1 + np.exp(-x))

# TODO: We haven't provided the sigmoid_prime function like we did in
#       the previous lesson to encourage you to come up with a more
#       efficient solution. If you need a hint, check out the comments
#       in solution.py from the previous lecture.

# Use to same seed to make debugging easier
np.random.seed(42)

n_records, n_features = features.shape
last_loss = None

# Initialize weights
weights = np.random.normal(scale=1 / n_features**.5, size=n_features)

# Neural Network hyperparameters
epochs = 1000
learnrate = 0.5

for e in range(epochs):
    del_w = np.zeros(weights.shape)
    for x, y in zip(features.values, targets):
        # Loop through all records, x is the input, y is the target

        # Note: We haven't included the h variable from the previous
        #       lesson. You can add it if you want, or you can calculate
        #       the h together with the output

        # TODO: Calculate the output
        output = sigmoid(np.dot(x,weights))

        # TODO: Calculate the error
        error = y - output

        # TODO: Calculate the error term
        error_term = error * (1 - output) * output

        # TODO: Calculate the change in weights for this sample
        #       and add it to the total weight change
        del_w += error_term * x 

    # TODO: Update weights using the learning rate and the average change in weights
    weights += learnrate * del_w / n_records

    # Printing out the mean square error on the training set
    if e % (epochs / 10) == 0:
        out = sigmoid(np.dot(features, weights))
        loss = np.mean((out - targets) ** 2)
        if last_loss and last_loss < loss:
            print("Train loss: ", loss, "  WARNING - Loss Increasing")
        else:
            print("Train loss: ", loss)
        last_loss = loss

# Calculate accuracy on test data
tes_out = sigmoid(np.dot(features_test, weights))
predictions = tes_out > 0.5
accuracy = np.mean(predictions == targets_test)
print("Prediction accuracy: {:.3f}".format(accuracy))

chenghong-lin-nu commented 6 years ago

多层感知器

现在，权重被储存在矩阵中，由 wij来索引。矩阵中的每一行对应从同一个输入节点发出的权重，每一列对应传入同一个隐藏节点的权重。
多层感知器练习
注意：感知器的输入就是wi*xi；然后感知器的输出就是经过激活函数计算后得到的结果。

import numpy as np

def sigmoid(x):
    """
    calculate sigmoid
    """
    return 1/(1+np.exp(-x))

# Network size
N_input = 4
N_hidden = 3
N_output = 2

np.random.seed(42)
# Make some fake data
X = np.random.randn(4)

# scale是标准差，第一个0是中心点的位置
# 最后一个则是output的大小，N_input * N_hidden
# 下面两个都是随机生成的数据
weights_input_to_hidden = np.random.normal(0, scale=0.1, size=(N_input, N_hidden))
weights_hidden_to_output = np.random.normal(0, scale=0.1, size=(N_hidden, N_output))

# TODO: Make a forward pass through the network

hidden_layer_in = np.dot(X,weights_input_to_hidden)
hidden_layer_out = sigmoid(hidden_layer_in)

print('Hidden-layer Output:')
print(hidden_layer_out)

output_layer_in = np.dot(hidden_layer_out,weights_hidden_to_output)
output_layer_out = sigmoid(output_layer_in)

print('Output-layer Output:')
print(output_layer_out)

chenghong-lin-nu commented 6 years ago

反向传播

反向传播其实和正向传播差不多，只不过一个是input weights，而另一个是error_term weights
Back Propagation 解决的问题是：how to make a multilayer neural network learn.

步骤

Since we know the error at the output, we can use the weights to work backwards to hidden layers.
首先我们知道了output error，然后我们就可以这个error去计算hidden layer的output error。
然后计算完之后我们就可以根据这个error去计算梯度下降步长。

具体例子

见Lesson 2的第15课。

代码

import numpy as np

def sigmoid(x):
    """
    Calculate sigmoid
    """
    return 1 / (1 + np.exp(-x))

x = np.array([0.5, 0.1, -0.2])
target = 0.6
learnrate = 0.5

weights_input_hidden = np.array([[0.5, -0.6],
                                 [0.1, -0.2],
                                 [0.1, 0.7]])

weights_hidden_output = np.array([0.1, -0.3])

## Forward pass
hidden_layer_input = np.dot(x, weights_input_hidden)
hidden_layer_output = sigmoid(hidden_layer_input)

#print(hidden_layer_output)
#print(weights_hidden_output)

output_layer_in = np.dot(hidden_layer_output, weights_hidden_output)
output = sigmoid(output_layer_in)

## Backwards pass
## TODO: Calculate output error
error = target - output

# TODO: Calculate error term for output layer
output_error_term = error * sigmoid(output_layer_in) * (1 - sigmoid(output_layer_in))

# TODO: Calculate error term for hidden layer
hidden_error_term = weights_hidden_output * output_error_term * hidden_layer_output * (1 - hidden_layer_output)
# print(hidden_error_term)
# print(str(weights_hidden_output)+","+str(output_error_term)+","+str(hidden_layer_output)+","+str(1-hidden_layer_output))

# TODO: Calculate change in weights for hidden layer to output layer
delta_w_h_o = learnrate * output_error_term * hidden_layer_output

# TODO: Calculate change in weights for input layer to hidden layer
x = x.reshape(1,3)
delta_w_i_h = learnrate * hidden_error_term * x.T

print('Change in weights for hidden layer to output layer:')
print(delta_w_h_o)
print('Change in weights for input layer to hidden layer:')
print(delta_w_i_h)

chenghong-lin-nu commented 6 years ago

Implementing BackPropagation

Here is the general algorithm for updating the weights with back propagation.

代码实现

import numpy as np
from data_prep import features, targets, features_test, targets_test

np.random.seed(21)

def sigmoid(x):
    """
    Calculate sigmoid
    """
    return 1 / (1 + np.exp(-x))

# Hyperparameters
n_hidden = 2  # number of hidden units
epochs = 900
learnrate = 0.005

# 上面所说的m是数据点的数量
# 也就是下面的n_records
n_records, n_features = features.shape
last_loss = None
# Initialize weights
weights_input_hidden = np.random.normal(scale=1 / n_features ** .5,
                                        size=(n_features, n_hidden))
weights_hidden_output = np.random.normal(scale=1 / n_features ** .5,
                                         size=n_hidden)

for e in range(epochs):
    del_w_input_hidden = np.zeros(weights_input_hidden.shape)
    del_w_hidden_output = np.zeros(weights_hidden_output.shape)
    for x, y in zip(features.values, targets):
        ## Forward pass ##
        # TODO: Calculate the output
        hidden_input = np.dot(x,weights_input_hidden)
        hidden_output = sigmoid(hidden_input)
        output = sigmoid(np.dot(hidden_output, weights_hidden_output))

        ## Backward pass ##
        # TODO: Calculate the network's prediction error
        error = y - output

        # TODO: Calculate error term for the output unit
        output_error_term = error * (1-output) * output

        ## propagate errors to hidden layer

        # TODO: Calculate the hidden layer's contribution to the error
        hidden_error = weights_hidden_output * output_error_term 

        # TODO: Calculate the error term for the hidden layer
        hidden_error_term = hidden_error * (1-hidden_output) * hidden_output

        # TODO: Update the change in weights
        del_w_hidden_output += output_error_term * hidden_output
        del_w_input_hidden += x[:,None] * hidden_error_term

    # TODO: Update weights
    weights_input_hidden += learnrate * del_w_input_hidden / n_records
    weights_hidden_output += learnrate * del_w_hidden_output / n_records

    # Printing out the mean square error on the training set
    if e % (epochs / 10) == 0:
        hidden_output = sigmoid(np.dot(x, weights_input_hidden))
        out = sigmoid(np.dot(hidden_output,
                             weights_hidden_output))
        loss = np.mean((out - targets) ** 2)

        if last_loss and last_loss < loss:
            print("Train loss: ", loss, "  WARNING - Loss Increasing")
        else:
            print("Train loss: ", loss)
        last_loss = loss

# Calculate accuracy on test data
hidden = sigmoid(np.dot(features_test, weights_input_hidden))
out = sigmoid(np.dot(hidden, weights_hidden_output))
predictions = out > 0.5
accuracy = np.mean(predictions == targets_test)
print("Prediction accuracy: {:.3f}".format(accuracy))