Page 54 - 国外钢铁技术信息内参（2022年8月）

P. 54

ᇏݓࣁඋ࿐߶

差，梯度爆炸会导致神经网络不稳定，使梯度误差随着处理进程不断累积。因此，

当输入时滞超过 5~10 步后，传统 RNN 无法进行有效学习。

2000 年，Gers 等人引入了带有自适应遗忘门的 LSTM 模型，该模型能够清

理单元内存并捕获长期依赖。LSTM 具有最先进的语音识别、手写识别、语言建

模和翻译等方面性能。2014 年，Sak 等人发现 LSTM 网络在大型声学建模方面

比深度神经网络（DNN）更具优势。Sutskever 等人（2014 年）在通过语言建模
ᇏݓࣁඋ࿐߶
解决机器翻译问题的过程中应用了 LSTM 模型，其困惑度比标准递归网络语言

模型提高了 8%左右。 ᇏݓࣁඋ࿐߶

LSTM 通过隐含层中的自连接内存块突破梯度爆炸限制。通过内存块中被称

为“门”的内部单元调节信息流。每个内存块中有三个不同的“门”：输入门（it）、

输出门（ot）和遗忘门（ft），分别通过方程（6）-（8）表示：

it=σ（wi[mt-1，xt]+bi）方程（6）
ot=σ（wo[mt-1，xt]+bo）方程（7）
ft=σ（wf[mt-1，xt]+bf）方程（8）

其中，σ为 sigmoid 激活函数，wi，o，f 为每个门的权重矩阵，mt-1 为前一时间
步的输出，xt 为当前时间步的输入，bi， o， f 为每个门的偏置矢量。图 2 所示为 LSTM

架构的示意图。 ᇏݓࣁඋ࿐߶

ᇏݓࣁඋ࿐߶

图 2 LSTM 架构及其输入门、输出门和遗忘门

由输入门控制激活流进入记忆，输出门控制输出流从当前块进入其余网络块。

遗忘门用于丢弃信息或重置不需要的单元状态。通过 sigmoid 函数分析先前状态
ᇏݓࣁඋ࿐߶
及当前状态下的输入信息，再根据输出结果确定是否保留/丢弃信息。

(3) 数据处理和建模

CSM 中国金属学会 CMISI 冶金工业信息标准研究院
51

49 50 51 52 53 54 55 56 57 58 59