循环神经网络

通过使用带自反馈的神经元，能够处理任意长度的序列。

一般来讲，需要让网络具有短期记忆能力。给网络增加短期记忆能力的方法有三种：

(time delay neural network， TDNN) [Waibel et al., 1989]

在前馈网络中的非输出层都添加一个延时器，记录最近几次神经元的输出。在第t个时刻，第l+1层的神经元和下一层神经元的最近q次输出相关，即:

通过延时器，前馈网络就具有了短期记忆的能力。延时神经网络，在时间维度上共享权值，以降低参数数量。

(nonlinear autoregressive with exogenous inputs model， NARX) [Leontaritis and Billings,1985]

通过延时器，记录最近几次的网络的输入和输出，将它们都作为前馈网络的输入，从而使得前馈网络具有短期记忆能力。

通过使用带自反馈的神经元，能够处理任意长度的序列。

为了区别与递归神经网络（Recursive Neural Networks），我们称为循环神经网络。

循环神经网络

循环神经网络可以应用到很多不同类型的机器学习任务，可以分为以下几种模式：

在循环神经网络中主要有两种计算梯度的方式：

长期依赖问题：梯度爆炸和梯度消失

LSTM循环网络除了外部的RNN循环外，还具有内部的“LSTM细胞”循环（自环），因此LSTM不是简单地向输入和循环单元的仿射变换之后施加一个逐元素的非线性。

LSTM

LSTM关键是加入“细胞状态”。历史信息直接在整个链上运行，只有一些少量的线性交互。信息在上面流传保持不变会很容易。

类似于传送带

决定从“细胞状态” 中丢弃什么信息

决定放什么新信息到“细胞状态”中

更新“细胞状态”

基于“细胞状态” 得到输出

与LSTM的主要区别是，单个门控单元同时控制遗忘因子和更新状态单元的决定

欢迎进入 S-top 的博客