Page 54 - 国外钢铁技术信息内参(2022年8月)
P. 54

ᇏݓࣁඋ࿐߶







                   差,梯度爆炸会导致神经网络不稳定,使梯度误差随着处理进程不断累积。因此,

                   当输入时滞超过 5~10 步后,传统 RNN 无法进行有效学习。

                       2000 年,Gers 等人引入了带有自适应遗忘门的 LSTM 模型,该模型能够清

                   理单元内存并捕获长期依赖。LSTM 具有最先进的语音识别、手写识别、语言建

                   模和翻译等方面性能。2014 年,Sak 等人发现 LSTM 网络在大型声学建模方面

                   比深度神经网络(DNN)更具优势。Sutskever 等人(2014 年)在通过语言建模
                       ᇏݓࣁඋ࿐߶
                   解决机器翻译问题的过程中应用了 LSTM 模型,其困惑度比标准递归网络语言

                   模型提高了 8%左右。                                                                                         ᇏݓࣁඋ࿐߶

                       LSTM 通过隐含层中的自连接内存块突破梯度爆炸限制。通过内存块中被称

                   为“门”的内部单元调节信息流。每个内存块中有三个不同的“门”:输入门(it)、

                   输出门(ot)和遗忘门(ft),分别通过方程(6)-(8)表示:

                                                  it=σ(wi[mt-1,xt]+bi)                     方程(6)
                                                  ot=σ(wo[mt-1,xt]+bo)                     方程(7)
                                                  ft=σ(wf[mt-1,xt]+bf)                     方程(8)

                       其中,σ为 sigmoid 激活函数,wi,o,f 为每个门的权重矩阵,mt-1 为前一时间
                   步的输出,xt 为当前时间步的输入,bi, o, f 为每个门的偏置矢量。图 2 所示为 LSTM


                   架构的示意图。                                     ᇏݓࣁඋ࿐߶



 ᇏݓࣁඋ࿐߶
















                                    图 2 LSTM 架构及其输入门、输出门和遗忘门

                       由输入门控制激活流进入记忆,输出门控制输出流从当前块进入其余网络块。

                   遗忘门用于丢弃信息或重置不需要的单元状态。通过 sigmoid 函数分析先前状态
       ᇏݓࣁඋ࿐߶
                   及当前状态下的输入信息,再根据输出结果确定是否保留/丢弃信息。

                        (3) 数据处理和建模




                   CSM 中国金属学会                                               CMISI 冶金工业信息标准研究院
                                                              51
   49   50   51   52   53   54   55   56   57   58   59