本系列的第七篇文章将继续围绕如何让算法逼近模型上限的问题,介绍一种基于回归分析的异常点检测技术-regression based outlier detection(rod)技术。不同于传统的异常检测算法,rod方法是在模型训练的基础上后处理的进行异常点剔除的方法。所以,如何选择合适的异常点剔除个数需要较多的测试,以寻找到最适用于当前测试集的模型。
该技术模块集成于dtempower中的每个回归算法节点,能够帮助用户在剔除“潜在异常点”的同时,提高了模型的精度和泛化能力。
图1 dtempower中每个算法节点都集成有rod异常点检测功能,用户只需要打开对应开关按钮“activate_remove_malform”,并配置异常点剔除的个数“remove_malform_top_n”和迭代次数“remove_malform_times”,即可开启算法节点的rod异常点检测功能
图2 基于dtempower软件平台的船舶兴波阻力回归分析,选取了gbdt、randomforest和extratrees算法建立输入输出变量的映射关系。其中rod异常点检测功能在算法节点的属性配置界面,用户需要结合“activate_remove_malform” “remove_malform_top_n”和“remove_malform_times”3个参数进行搭配使用
③ 实验分析:针对本数据集,可以直观的发现部分样本的eval_cwtwc变量量级较大,因此在使用异常点检测模块之前,使用dtempower的【变量范围】节点删除量级过大的数据(结果见图3)。而图4所示的试验结果也证明了rod在清除异常点、提高模型精度的有效性。
图3 基于dtempower软件平台进行数据过滤前后的数据分布,可以看到过滤后的数据集整体基本上已经处于一个合理的数据分布状态
图4 随着rod功能模块不断的删除数据集中的异常点,可以看到3种算法模型的r2指标(越大模型精度越高)呈现出明显的上升趋势,而其mae指标呈现明显的下降趋势。这表明rod功能模块在清除异常点、提高模型精度的优秀性能
2. 风机测点结构应力快速评估
图5 基于dtempower软件平台的风机测点结构应力快速评估建模方案,方案中选取2种常见算法进行模型的训练。dtempower提供了一站式的数据建模买球平台网址的解决方案,通过简单的节点拖拽即可搭建完整的建模流程,其中rod功能更是集成于每一个算法节点,帮助用户构建高精度的机器学习模型
③ 实验分析:实验结果如图6所示。
图6 随着rod功能模块不断的删除数据集中的异常点,可以直观的看到模型的r2指标(越大模型精度越高)呈现明显的上升趋势(左图),mape指标(越小模型精度越高)呈现出明显的下降趋势(右图)。这表明rod功能模块在清除异常点、提高模型精度的有效性
数据和特征决定了模型的上限,数据中的异常点会对模型的精度造成严重的影响。而dtempower中的rod技术直接以提高模型的精度为目标,寻找并剔除样本中的“潜在异常点”。
实际工业场景中的应用案例和对比实验,也证明了rod功能模块在挖掘工业数据集中的“潜在异常点”方面的优秀性能,可高效地辅助用户构建高精度模型。
dtempower软件平台提供的数据挖掘、特征工程和智能的异常点检测等一站式买球平台网址的解决方案,不仅可以帮助用户快速、便捷地构建精度较高的数据模型,其技术的创新应用势必会给工业数据研究者持续带来福音。