如果没有意外的话，我应该有学上了！

所以我又准备开始更新博客了。

这个深度学习专项是杨神推荐的，链接为https://www.coursera.org/specializations/deep-learning（可能需要挂梯子）。吴恩达老师的英语非常通俗易懂啊，基本上开着英文字幕就能听，不需要中文字幕😜。

这个专项课程一共五门，包括

Neural Networks and Deep Learning（神经网络与深度学习）

Improving Deep Neural Networks: Hyperparameter Tuning, Regularization and Optimization（改进深度神经网络：超参数、正则化和优化）

Structuring Machine Learning Projects（构建机器学习项目）

Convolution Neural Networks（卷积神经网络）

Sequence Model（序列模型）

目前我还在学第四门，我准备把每门课的内容在博客上梳理一下。

——3月25日

第四门学完啦，第五门第一周也学完啦。又来更新了！

——4月5日

Neural Networks and Deep Learning 学习笔记

第一门课的主体框架

Week 1: Introduction
Week 2: Programming
Week 3: Singal hidden layer NN
Week 4: Deep NN

Week 1

Welcome to the Deep learning Specilization主要就是五门课程的总体介绍，这里就不放了。

Introduction to Deep Learning

这个section主要介绍了神经网络和深度学习最基础的内容，并分析了为何深度学习会在当今take-off。

1. Neural Network

neural

2. Supervised learning with neural network

监督学习：输入为x，输出为y。（即有标签）
分不同类型神经网络的应用范围
- 标准神经网络(Standard NN)：房地产，网上广告
- 卷积神经网络(Convolution NN, CNN)：图像标语
- 循环神经网络(Recurrent NN，RNN)：语音识别，翻译
- Hybrid：自动驾驶
监督学习的对象主要有两种
- Structured Data：类似于数据表
- Unstructured Data：如音频、图像、文本

3. Why DL take-off? (Why now?)

Scale drives deep learning progress. (规模驱动深度学习的发展)

Data（近几年来数据收集量越来越大）
- Large NN 需要大的网络、大量的数据
Computation
Algorithm

重要的循环

Week 2

Logistic Regression as a NN

在这个section中，讲述的是Logistic回归的相关内容，主要包括Logistic回归的正向（cost function）和反向传播（梯度下降最小化cost function），并对Python、numpy、jupyter notebook的使用做了讲解。

1. Binary Classification

二元分类(Binary Classification)： $x\to y$ $x \to y$
- 例如处理一幅64×64像素猫的图像时，先将其分成RGB三个通道，再将其unroll成一个列向量，其维数为 $64 \times 64\times 3=12288$ 。此时该图像即Binary Classification中的输入 $x$ 。标记(label)用于分类是否为猫，即为 $y$ 。
符号说明：
- One training example: $(x,y),\ x\in\mathbb{R}^{n_x},y\in\{0,1\}$
- $m$ $m$ training example: $\{(x^{(1)},y^{(1)}),(x^{(2)},y^{(2)}),\cdots,(x^{(m)},y^{(m)})\}$ ${(x^{(1)}, y^{(1)}), (x^{(2)}, y^{(2)}), \dots, (x^{(m)}, y^{(m)})}$
  - 其中 $m$ 可以取为 $m_{\text{train}},m_{\text{test}}$ 分别表示训练样本的个数和测试样本的数量
- 训练集： $X=\begin{bmatrix}|&|&\vdots&|\\ x^{(1)}&x^{(2)}&\cdots&x^{(m)}\\ |&|&\vdots&|\end{bmatrix}, X\in\mathbb{R}^{n_x\times m}$ ，是一个 $(n_x,m)$ 维的矩阵。
- 标签： $Y=[y^{(1)},y^{(2)},\cdots,y^{(m)}], Y\in \mathbb{R}^{1\times m}$ ，是一个 $(1,m)$ 维的矩阵。

2. Logistic Regression & cost function

单个样本Logistic Regression的主要流程

Given $x\in\mathbb{R}^{n_x}$ , want $\hat y=P(y=1|x),0\le \hat y \le 1$ （即希望 $\hat y$ 是 $y=1$ 的一个良好估计）

Parameter: $w\in \mathbb{R}^{n_x},b\in\mathbb{R}$

Output: $\hat y=w^T+b$ (linear regression)

$\hat y=\sigma[w^T+b]$ (logistic regression，其中 $\sigma[\bullet]$ 是sigmoid function)

此外也可以表示为 $\hat y=\Theta^Tx\quad(x_0=1, x\in\mathbb{R}^{n_x+1})$

其中 $\Theta^T=\begin{bmatrix}\theta_0\\ \theta_1\\ \vdots\\ \theta_{n_x}\end{bmatrix}\begin{matrix}\to b\\\rmoustache\quad\\ \to w\\\lmoustache\quad \end{matrix}$
sigmoid function

$\sigma(z)=\frac{1}{1-e^{-z}}$

其中，当 $z\to -\infty$ 时， $\frac{1}{1+\infty}=0$ ；当 $z\to \infty$ 时， $\frac{1}{1+0}=1$
对于m个样本的Logistic regression

$\hat y=\sigma(w^Tx+b)$ , where $\sigma(z^{(i)})=\frac{1}{1+e^{-z^{(i)}}}$

Given $\{(x^{(1)},y^{(1)}),(x^{(2)},y^{(2)}),\cdots,(x^{(m)},y^{(m)})\}$ , want $\hat y^{(i)}=y^{(i)}$

其中，上标 $^{(i)}$ 表示第 $i$ 个training example。
Loss Function(损失函数，针对单个样本来说)

$\mathscr{L}(\hat y, y)=-(y\log \hat y+ (1-y)\log(1-\hat y))$
- 当 $y=1$ 时，希望 $\hat y$ 越大越好
- 当 $y=0$ 时，希望 $\hat y$ 越小越好
Cost function(代价函数，针对全体样本来说，是cost of parameter)

$\begin{aligned} J(w,b)=&\frac 1m\sum_{i=1}^m\mathscr{L}(\hat y^{(i)}, y^{(i)})\\ =&-\frac 1m\sum_{i=1}^m(y^{(i)}\log \hat y^{(i)}+ (1-y^{(i)})\log(1-\hat y^{(i)})) \end{aligned}$

3. Gradient Descent

Gradient Descent基础
- 梯度下降实际上就是沿着 $w,b$ $w, b$ 梯度(简记作 $\frac{\partial J(w,b)}{\partial w}=dw,\frac{\partial J(w,b)}{\partial b}=db$ $\frac{\partial J ( w , b )}{\partial w} = d w, \frac{\partial J ( w , b )}{\partial b} = d b$ )下降方向，即
  Repeat{
  　　 $w:=w-\alpha dw$ $w : = w - α d w$
  　　 $b:=b-\alpha db$ $b : = b - α d b$
  }
  - 其中 $\alpha$ 是learning rate。
- 计算 $\frac{\partial J(w,b)}{\partial w}=dw,\frac{\partial J(w,b)}{\partial b}=db$ 的方式是利用计算图(Computation Graph)，其实就是多元微分的内容，即“连线相乘，分线相加，一元全导，多元偏导”。但吴恩达也说在实际应用中，我们只需要考虑正向传播，而不需要考虑反向传播，框架可以自己处理反向传播。
Logistic Regression Gradient descent on one example

LogisticL Regression的步骤主要包括以下三步：
- $z=w^Tx+b$
- $\hat y=a=\sigma(z)$
- $\mathscr{L}(a,y)=-(y\log a+(1-y)\log (1-a))$
计算得

$\left\{\begin{aligned} \frac{\partial \mathscr{L}}{\partial w_1}=&\frac{\partial \mathscr{L}}{\partial a}\cdot\frac az\cdot\frac{\partial z}{\partial w_1}\left(-\frac ya+\frac{1-y}{1-a}\right)\cdot a(1-a)\cdot x_1=(a-y)x_1\\ \frac{\partial \mathscr{L}}{\partial w_2}=&(a-y)x_2\\ \frac{\partial \mathscr{L}}{\partial b}=&a-y \end{aligned}\right.$

$\Rightarrow \left\{\begin{aligned} w_1:=&w_1-\alpha \frac{\partial \mathscr{L}}{\partial w_1}\\ w_2:=&w_2-\alpha \frac{\partial \mathscr{L}}{\partial w_2}\\ b:=&b-\alpha \frac{\partial \mathscr{L}}{\partial b} \end{aligned}\right.$

其中 $\sigma(z)=\frac{1}{1+e^{-z}}$ 的导数推导如下

$\begin{aligned} \left(\frac{1}{1+e^{-z}}\right)'&=\left(1+e^{-z}\right)^{-2}e^{-z}\\ &=\frac{e^{-z}}{(1+e^{-z})^2}\\ &=\frac{e^{-z}+1-1}{1+e^{-z}}\cdot \frac{1}{1+e^{-z}}\\ &=\left(1-\frac{1}{1+e^{-z}}\right)\cdot\frac{1}{1+e^{-z}}\\ &=(1-\sigma(z))\sigma(z) \end{aligned}$
Gradient descent on $m$ example
- Cost function
  
  $\begin{gathered} J(\omega, b)=\frac{1}{m} \sum_{i=1}^{m} \mathcal{L}\left(a^{i}, y\right)\\ a^{(i)}=\hat{y}^{(i)}=\sigma(z)=\sigma\left(\omega^{\top} x^{(i)}+b\right)\\ \frac{\partial}{\partial w_{1}} J(w, b)= \frac{1}{m} \sum_{i=1}^{m} \frac{\partial}{\partial w_{1}} \mathcal{L}\left(a^{(i)}, y\right)\end{gathered}$
- 算法
  
  可以注意到在上述算法中存在两个显式的for-loop，这对于加快运算是非常不利的。
- 解决显式for-loop的方法：Vectorization（向量化）

Python and Vectorization

1. Vectorization

Whenever possible, avoid explicit for-loops.

举例
- 【Example·01】 $z=w^Tx+b$ ，其中 $w$ 是一个列向量， $x$ 也是一个列向量。
  
  Vectorization：z = np.dot(w, x) + b
- 【Example·02】 $u=Av$
  
  non-Vectorization: $u_i=\sum_jA_{ij}v_j$ （存在两重for-loop）
  
  Vectorization: u = np.dot(A, v)
- 【Example·03】
  
  $v=\begin{bmatrix}v_1\\ v_2\\ \vdots\\ v_n\end{bmatrix}\Rightarrow u=\begin{bmatrix}e^{v_1}\\ e^{v_2}\\ \vdots\\ e^{v_n}\end{bmatrix}$
  
  Vectorization: u = np.exp(v)
- 另外还可以使用np.log(v), np.abs(v), np.maximum(v, 0), v ** 2, 1 / v。
针对logistic regression derivatives的改进（改进第二个for-loop）

$J = 0$ , $\boldsymbol{dw = \mathtt{np.zeros([n_x, 1])}}$ , $db = 0$
For $i=0$ to $m$
　　 $z^{(i)}=w^Tx^{(i)}+b$
　　 $a^{i}=\sigma(z^{(i)})$
　　 $J_+=-[y^{(i)}\log a^{(i)}+ (1-y^{(i)})\log(1-a^{(i)})]$
　　 $dz^{(i)}=a^{(i)}-y^{(i)}$
　　 $\boldsymbol{dw+=x^{(i)}dz^{(i)}}$
　　 $db+=dz^{(i)}$
$J/=m$ ; $\boldsymbol{dw/=m}$ ; $db/=m$ ;

注意其中加粗部分即为利用vectorization的部分。

2. Vectorizing Logistic Regression

各参数的矩阵表示：

$\begin{aligned} X=&\begin{bmatrix}|&|&\vdots&|\\ x^{(1)}&x^{(2)}&\cdots&x^{(m)}\\ |&|&\vdots&|\end{bmatrix}, X\in\mathbb{R}^{n_x\times m}\\ Z=&[z^{(1)},z^{(2)},\cdots, z^{(m)}]_{1\times m}\\ =&w^TX+[b, b, \cdots, b]_{1\times m}=[w^Tx^{(1)}+b, w^Tx^{(2)}+b, \cdots, w^Tx^{(m)}+b]_{1\times m}\\ =& \mathtt{np.dot(w.T,X)+b}\\ dZ=&[dz^{(1)},dz^{(2)},\cdots, dz^{(m)}]_{1\times m}=[a^{(1)}-z^{(1)},a^{(2)}-z^{(2)},\cdots, a^{(m)}-z^{(m)}]_{1\times m}\\ =&A-Y\\ db=& \frac 1m\sum_{i=1}^mdz^{(i)}=\mathtt{np.sum(dZ)}\\ dw=& \frac 1m XdZ^{T}=\begin{bmatrix}|&|&\vdots&|\\ x^{(1)}&x^{(2)}&\cdots&x^{(m)}\\ |&|&\vdots&|\end{bmatrix}\begin{bmatrix}dz^{(1)}\\\vdots\\dz^{(m)}\end{bmatrix} \end{aligned}$
算法：

$\begin{aligned} Z=&w^TX+b\\ =&\mathtt{np.dot(w.T,X)+b}\\ A=&\sigma(Z)\\ dZ=&A-Y\\ dw=&\frac 1m XdZ^T\\ db=&\frac 1m \mathtt{np.sum(dZ)}\\ w=& w-\alpha dw\\ b=& b-\alpha db \end{aligned}$

即使对参数进行了vectorization，for-loop仍然是需要的。

3. Broadcasting in Python

Broadcasting

4. Notes & Tips on Python/numpy

note

Week 3

Shallow NN

NN short for Neural Network.

本section主要介绍单层的神经网络（Shallow NN），介绍了Shallow NN的正向传播(forward prop)和反向传播(Back prop)过程，并讲解了常见的激活函数(Activation Function)和随机初始化(Random Initialization)的相关内容。

1. NN overview

NN的计算
NN的表示

如图所示是一个2层的神经网络，因为输入层不计入。
- 用上标 $^{[i]}$ 表示第 $i$ 层
- 每个矩阵的维数见图中。
- 注意到我们把输入层 $x$ 也表示为 $a^{[0]}$

2. Computing a NN’s Output & Vectorizing

取其中一个unit计算结果，左图显示了只有一个hidden layer，且只有一个unit的情况。

如左图所示，在神经元中的计算主要包括线性的 $z=w^Tx+b$ 和非线性激活函数 $a=\sigma(z)$ 两部分，最后输出的预测结果 $\hat y =a$ 。从右图可以看到hidden layer的每一个都是这unit样两步。
- 矩阵表示
  
  $\begin{aligned} \sigma(z^{[1]})=&\sigma\left(\begin{bmatrix}-& w_1^{[1]T}&-\\-& w_2^{[1]T}&-\\-& w_3^{[1]T}&-\\-& w_4^{[1]T}&-\\\end{bmatrix}_{4\times 3}\begin{bmatrix}x_1\\ x_2\\ x_3\end{bmatrix}_{3\times 1}+\begin{bmatrix} b_1^{[1]}\\ b_2^{[1]}\\ b_3^{[1]}\\ b_4^{[1]}\\\end{bmatrix}_{4\times 1}\right)\\ =&\sigma\left(\begin{bmatrix} w_1^{[1]T}x+b_1^{[1]}\\w_2^{[1]T}x+b_2^{[1]}\\w_3^{[1]T}x+b_3^{[1]}\\w_4^{[1]T}x+b_4^{[1]}\\\end{bmatrix}_{4\times 1}\right)=\sigma\left(\begin{bmatrix} z_1^{[1]}\\ z_2^{[1]}\\ z_3^{[1]}\\ z_4^{[1]}\\\end{bmatrix}\right) \end{aligned}$
- 对于1个样本的算法：(右下角标注的是维数)
  Given input $x$ :
  
  $\begin{gathered} \left.\begin{array}{l}z^{[1]}_{4\times 1}=W^{[1]}_{4\times 3} a^{[0]}_{3\times 1}+b^{[1]}_{4\times1}\\ a^{[1]}_{4\times1}=\sigma\left(z^{[1]}_{4\times1}\right) \end{array}\right\} &\text{layer 1}\\ \left.\begin{array}{l}z^{[2]}_{1\times 1}=W^{[2]}_{1\times 4} a^{[1]}_{4\times 1}+b^{[2]}_{1\times1}\\ a^{[2]}_{1\times1}=\sigma\left(z^{[2]}_{1\times1}\right) \end{array}\right\} &\text{layer 2} \end{gathered}$
Vectorizing across multiple examples（多个样本进行Vectorization）
- 对于 $a^{[2](i)}$
  - [2]表示Layer 2(第二层)
  - (i)表示第i个training example
- 对于 $m$ 个样本的算法：
  for $i=0$ to $m$ :
  
  $\begin{aligned} z^{[1](i)}=&W^{[1]} x^{(i)}+b^{[1]}\\ a^{[1](i)}=&\sigma\left(z^{[1](i)}\right) \\ z^{[2](i)}=&W^{[2]} a^{[1](i)}+b^{[2]}\\ a^{[2](i)}=&\sigma\left(z^{[2](i)}\right) \end{aligned}$
- Vectorization
  
  $\begin{aligned} Z^{[1]}=&W^{[1]} X+b^{[1]}\\ A^{[1]}=&\sigma\left(Z^{[1]}\right) \\ Z^{[2]}=&W^{[2]} A^{[1]}+b^{[2]}\\ A^{[2]}=&\sigma\left(Z^{[2]}\right) \end{aligned}$
  
  其中， $X=\begin{bmatrix}|&|&\vdots&|\\ x^{(1)}&x^{(2)}&\cdots&x^{(m)}\\ |&|&\vdots&|\end{bmatrix}_{n_x\times m}$ , $Z^{[1]}=\begin{bmatrix}|&|&\vdots&|\\ z^{[1](1)}&z^{[1](2)}&\cdots&z^{[1](m)}\\ |&|&\vdots&|\end{bmatrix}$ , $A^{[1]}=\begin{bmatrix}|&|&\vdots&|\\ a^{[1](1)}&a^{[1](2)}&\cdots&a^{[1](m)}\\ |&|&\vdots&|\end{bmatrix}$ ，其水平方向是training examples的数量，垂直方向是hidden unit的数量。
- Explanation for vectorized Implementation

3. Activation Function

常用的activation function
Why non-linear activation function?

如果使用线性激活函数，则在重复进行线性计算。根据线性运算的齐次性和叠加性，易知该情况和无hidden layer的情况没有区别。即无法构建Deeper NN。
Derivatives of activation function
- sigmoid function
  
  $\begin{gathered}g(z)=\frac{1}{1+e^{-z}}\\ g'(z)=g(z)(1-g(z))\end{gathered}$
  - $z\to \infty(10)$ : $g'(z)=0$
  - $z\to-\infty(10)$ : $g'(z)=0$
  - $z\to 0$ : $g'(z)=\frac 14$
- tanh function
  
  $\begin{gathered} g(z)=\frac{e^{z}-z^{-z}}{e^{z}+e^{-z}}\\ g'(z)=1-\tanh^2(z) \end{gathered}$
  - $z\to \infty(10)$ : $g'(z)=0$
  - $z\to-\infty(10)$ : $g'(z)=0$
  - $z\to 0$ : $g'(z)=1$
- ReLU & leaky ReLU
  - ReLU:
    
    $\begin{gathered} g(z)=\max (0, z)\\ g^{\prime}(z)=\left\{\begin{array}{ll}0, & \text { if } z<0 \\ 1, & \text { if } z>0\end{array}\right. \end{gathered}$
  - leaky ReLU:
    
    $\begin{gathered} g(z)=\max (0.01 z, z)\\ g^{\prime}(z)=\left\{\begin{array}{ll}0.01, & \text { if } z<0 \\ 1, & \text { if } z>0\end{array}\right. \end{gathered}$

4. Gradient Descent & Back propagation

Gradient Descent for NN

参数： $w^{[1]}_{n^{[1]}\times n^{[0]}},b^{[1]}_{n^{[1]}\times 1},w^{[2]}_{n^{[2]}\times n^{[1]}},w^{[2]}_{n^{[2]}\times 1},n_x=n^{[0]},n^{[1]},n^{[2]}=1$
Cost function: $J(w^{[1]},b^{[1]},w^{[2]},w^{[2]})=\frac 1m\sum_{i=1}^m\mathscr{L}(\hat y, y)$
Gradient descent:
Repeat{
　　Compute predictions ( $\hat y^{(i)},i=1,2,\cdots,m$ )
　　 $dw^{[1]}=\frac{\partial J}{\partial w^{[1]}},db^{[1]}=\frac{\partial J}{\partial b^{[1]}},\cdots$
　　 $w^{[1]}:=w^{[1]}-\alpha dw^{[1]}$
　　 $b^{[1]}:=b^{[1]}-\alpha db^{[1]}$
　　同理计算 $w^{[2]},b^{[2]}$ }

Formula for computing derivatives

Forward propagation	Back propagation
$Z^{[1]}=W^{[1]} X+b^{[1]}\\ A^{[1]}=g^{[1]}\left(Z^{[1]}\right) \\Z^{[2]}=W^{[2]} A^{[1]}+b^{[2]}\\ A^{[2]}=g^{[2]}\left(Z^{[2]}\right)$	$dZ^{[2]}=A^{[2]}-Y\\dW^{[2]}=\frac 1m dZ^{[2]}A^{[1]T}\\db^{[2]}=\frac 1m \mathtt{np.sum(dZ^{[2]}, axis = 1, keepdims = True)}\\ dZ^{[1]}=W^{[2]T}dZ^{[2]}*g^{[1]\prime}(z^{[1]})\\dW^{[1]}=\frac 1m dZ^{[1]}X^T\\ db^{[1]}=\frac 1m \mathtt{np.sum(dZ^{[1]}, axis = 1, keepdims = True)}$

其中axis = 1表示按行加
$W^{[2]T}dZ^{[2]}$ 和 $g^{[1]\prime}$ 都是 $n^{[1]}\times m$ 维的。*表示element wise

Back propagation

对于 $m$ 个examples，

$\begin{gathered} dZ^{[2]}=A^{[2]}-Y\\dW^{[2]}=\frac 1m dZ^{[2]}A^{[1]T}\\db^{[2]}=\frac 1m \mathtt{np.sum(dZ^{[2]}, axis = 1, keepdims = True)}\\ dZ^{[1]}=W^{[2]T}dZ^{[2]}*g^{[1]\prime}(z^{[1]})\\dW^{[1]}=\frac 1m dZ^{[1]}X^T\\ db^{[1]}=\frac 1m \mathtt{np.sum(dZ^{[1]}, axis = 1, keepdims = True)} \end{gathered}$

5. Random Initialization

为什么不能将初始的weight初始化为0？

若 $W^{[1]}=\begin{bmatrix}0&0\\0&0\end{bmatrix}$ ，则两个unit算的结果是相同的，每一个hidden layer的unit多少就没有意义了。同时对其求gradient， $dW^{[1]}=\begin{bmatrix}u&v\\u&v\end{bmatrix}$
恰当的初始化方式为：
$W^{[1]}=\mathtt{np.random.randn((2,2))*0.01}$ (这步*0.01主要是为了获得一个比较小的靠近0的初始值，这是考虑到sigmoid function只在0附近的取值存在一定的线性，而过大趋于1，过小趋于0)
$b^{[1]}=\mathtt{np.zeros((2,1))}$ （由于对于weight的取值已经随机了，bias是否随机不再重要）
对于 $W^{[2]},b^{[2]}$ 的取值和上述类似。

Week 4

Deep NN

1. DNN Overview

在week 3主要介绍的是Shallow NN，随着hidden layer越来越多，也就越来越deeper了。
notations

根据上图介绍notations：
- number of layer(#layer): $L=4$
- number of units of layer $l$ : $n^{[l]}$
- activations of layer $l$ : $a^{[l]}=g^{[l]}(z^{[l]})$
- weight for $z^{[l]}$ : $w^{[l]}$
- bias for $z^{[l]}$ : $b^{[l]}$

2. Forward Propagation in a Deep Network

和Shallow NN类似，计算forward propagation的过程，如下表左侧。若对其进行vectorized，则变为右侧形式。

Elements	Vectorization
$\begin{gathered}z^{[1]}=w^{[1]}x+b^{[1]}\\a^{[1]}=g^{[1]}(z^{[1]})\\z^{[2]}=w^{[2]}a^{[1]}+b^{[2]}\\a^{[2]}=g^{[2]}(z^{[2]})\\\cdots\\ z^{[4]}=w^{[4]}a^{[3]}+b^{[4]}\\a^{[4]}=g^{[4]}(z^{[4]})\end{gathered}$	$\begin{gathered}Z^{[1]}=W^{[1]} X+b^{[1]}\\ A^{[1]}=g^{[1]}\left(Z^{[1]}\right) \\Z^{[2]}=W^{[2]} A^{[1]}+b^{[2]}\\ A^{[2]}=g^{[2]}\left(Z^{[2]}\right)\\\cdots\\ Z^{[4]}=W^{[4]} A^{[3]}+b^{[4]}\\ A^{[4]}=g^{[4]}\left(Z^{[4]}\right) \end{gathered}$

更一般的可以写作

$\begin{gathered} Z^{[l]}=W^{[l]}A^{[l-1]}+b^{[l]}\\ A^{[l]}=g^{[l]}\left(Z^{[l]}\right) \end{gathered}$

在处理DNN的forward propagation时需要注意矩阵的维数是否正确。下面是一个例子

下面归纳单个样本Deep NN中出现的各个参数的维度：
- $w^{[l]},dw^{[l]}:(n^{[l]},n^{[n-1]} )$
- $b^{[l]},db^{[l]}:\left(n^{[l]},1 \right)$
- $z^{[l]},a^{[l]}:(n^{[l]},1)$
针对 $m$ 个样本来说：
- $Z^{[l]},A^{[l]}:(n^{[l]},m)$ （特别地，当 $l=0$ 时， $A^{[0]}=X:(n^{[0]},m)$ ）
- $dZ^{[l]},dA^{[l]}:(n^{[l]},m)$
Why deep representation？为何“深度”的NN表现更好？
- 在early layer，网络主要实现一些简单功能，例如边缘的检测；在对其进行组合后，即到了later layer时，网络将实现一些复杂的功能，例如分类器。
- 类似于数字电路理论中的与、或、非门和与非门，层数越多可以减少每个隐层的units的数量

3. Backward Propagation

Building blocks of DNN

blocks可以表明在前向传播的过程中需要对应传递那些参数用于反向传播。
- 假设针对NN中的layer $l$ 构建如下图的block进行分析
  - 第 $l$ 层的参数： $w^{[l]},b^{[l]}$
  - 在forward prop中，输入 $a^{[l-1]}$ ，输出 $a^{[l]}$
    
    $z^{[l]}=w^{[l]}a^{[l-1]}+b^{[l]}$ （cache $z^{[l]}$ ）
    
    $a^{[l]}=g^{[l]}(z^{[l]})$
  - 在backward prop中，输入 $da^{[l]}$ 和先前cache的 $z^{[l]}$ ，需要输出 $da^{[l-1]},dw^{[l]},db^{[l]}$
- 假设NN有L层，将上述block组合起来，有

Forward & Backward Propagation

上面构建了block用于分析前向传播的过程中需要对应传递那些参数用于反向传播，下面利用传递的参数构建DNN的反向传播公式。DNN的正、反向传播公式如下：

FORWARD
- 输入： $a^{[l-1]}$
- 输出： $a^{[l]},\text{cache}(z^{[l]})$
- $Z^{[l]}=W^{[l]}A^{[l-1]}+b^{[l]}$
  $A^{[l]}=g^{[l]}(Z^[l])$

BACKWARD

输入： $da^{[l]}$ 和先前cache的 $z^{[l]}$

输出 $da^{[l-1]},dw^{[l]},db^{[l]}$

one example	$m$ examples
$\begin{aligned}dz^{[l]}=&da^{[l]}g^{[l]\prime}(z^{[l]})\\dw^{[l]}=&dz^{[l]}\cdot a^{[l-1]T}\\ db^{[l]}=&dz^{[l]}\\da^{[l-1]}=&w^{[l]T}\cdot dz^{[l]}\\dz^{l}=&w^{[l+1]T}\cdot dz^{[l+a]}g^{[l]\prime}(z^{[l]}) \end{aligned}$	$\begin{aligned}dZ^{[l]}=&dA^{[l]}*g^{[l]\prime}(z^{[l]})\\dW^{[l]}=&\frac 1m dZ^{[l]}A^{[l-1]T}\\ db^{[l]}=&\frac 1m \mathtt{np.sum(dZ^{[l]}, axis = 1, keepdims = True)}\\dA^{[l-1]}=&W^{[l]T}\cdot dZ^{[l]} \end{aligned}$

其结构如图

4. Parameters & Hyperparameters

Hyperparameters其实是Course 2主要研究的问题，在这里只是提了一下什么是超参数(Hyperparameters)。

参数： $W^{[1]},b^{[1]},W^{[2]},b^{[2]},\cdots$
超参数：(吴恩达用#表示number of …)
- learning rate $\alpha$
- #iterations
- #hidden layer $L$
- #hidden units $n^{[1]},n^{[2]},\cdots$
- choice of activation function
- 包括Course 2中将涉及的momentum, mini-batch, regulations, …
参数根据超参数的改变是会有很大的变化的，即Hyperparameters control parameters.

Applied deep learning is a very empirical process.

5. Deep learning and brain

brain

这个笔记主要是我看coursera课程是笔记的整理，所以文章里面肯定是很多疏漏，也存在很多错误的，欢迎在评论区批评指正。（求轻喷

由于整理打公式还是非常麻烦的，也很容易出错，所以会有一些写的不太规范的地方，大家见谅。

不知道为什么好好的表格到网页框线就没了，大家将就看吧。/(ㄒoㄒ)/~~