基于标记数据学习降低误报率的算法优化

发布时间：2018-04-10 15:16:33 所属栏目：大数据来源：站长网

导读：副标题#e# 无论是基于规则匹配的策略，还是基于复杂的安全分析模型，安全设备产生的告警都存在大量误报，这是一个相当普遍的问题。其中一个重要的原因是每个客户的应用场景和数据都多多少少有不同的差异，基于固定判断规则对有统计涨落的数据进行僵化的判断

简要代码如下：

此安全威胁场景相对简单，我们不需要太多的特征值和海量的数据，所以机器学习模型选择了随机森林（RandomForest），我们也尝试了其他复杂模型，得出的效果区别不大。测试结果如下：

达到我们所预期的效果，当训练数据越来越多的时候，测试数据当中的误报率从20%多降低到了10%。通过对告警数据和标签的不断自学习，可以剔除很多告警误报。前面提到，数据当中引入了9%的噪音，所以误报率不会再持续的降低。

在我们的机器学习模型当中，我们利用了4个主要的特征值：

1.srcIP，访问源IP

2.timeofday，告警产生的时间

3.visits，访问次数

4.destIP，被访问IP

下图显示了特征值在模型中的重要性：

和我们的预期也是一致的，访问源IP（srcIP）和告警发生的时间（timeofday）是区分出误报告警效果最好的特征值。

另外，由于随机森林模型以及大部分机器学习模型都不支持分类变量（categoricalvariable）的学习，所以我们把srcIP和destIP这两个特征值做了二值化处理。简要代码如下：

总结

（编辑：西安站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

2/4

首页

尾页