Page 47 - 国外钢铁技术信息内参( 2022年5月)
P. 47
ᇏݓࣁඋ࿐߶
变量中的负值,不可用或不存在的值,如“nans”,“nulls”或在 LF 炉中未加入添ᇏݓࣁඋ࿐߶
炉渣氧化物比例(CaO、Al2O3、SiO2、MgO、MnO 和 Fe2O3)。ANN 将这些变量
用于脱硫能力指标的预测,结果令人满意。将上述值归一化,由 ANN 进行处理,
训练集与测试集划分为 70-30。
ᇏݓࣁඋ࿐߶
3) 数据预处理
预处理是为了满足数据质量的需要。数据质量包括其所具有的准确性、完整
性和一致性。要实现数据质量,必须对数据进行清理、集成、减少和转换。
执行数据清理,排除或替换那些数据不一致的样例。例如,以自然数表示的
加物的样例,以及其他非典型情况。通过整合不同的工艺数据库,如初始和最终 ᇏݓࣁඋ࿐߶
ᇏݓࣁඋ࿐߶
炉渣化学分析数据库、工艺条件数据库和脱硫指标数据库,开发了数据集成。数
据简化的实施是通过选择那些影响变量预测的变量,并通过选择最有影响力的变
量来确定工艺工程师知识和经验的优先级。
最后,对变量进行归一化,将变量域变换为另一个空间,对所有特征赋予相
同的权重。在这项工作中,变量被归一化,因为它们比其他变量具有更大的数量
级特征,例如铸件的吨数和炉渣氧化物比例。有不同类型的归一化,但它被选为
ᇏݓࣁඋ࿐߶
“最小-最大”归一化类型。它是原始数据的线性变换,其公式表示为:
X X min
Xnormalize d (2)
X max X min
4) 数据建模
如前所述, K-最近邻是一种基于实例的学习模式,这意味着它“记忆”训练集
中的样例,并在进行预测时使用。 ᇏݓࣁඋ࿐߶
KNN 模型将响应变量近似为一个实值,假设样例对应于一个 n 维度欧几里
ᇏݓࣁඋ࿐߶
得空间中的点,并且每个实例都有一个响应值。最相似样例或最近邻输出值的平
均值为新实例提供其输出值。
基于实例的方法的优点包括能够使用一组不太复杂的局部近似值对复杂的
目标函数进行建模,以及训练样例中呈现的信息永远不会丢失的事实(因为样例
本身是显式存储)。
但是,这种方法的主要缺点是所有处理都是在查询时进行。此外,确定适当
ᇏݓࣁඋ࿐߶
44

