KDD99数据集中的要素值有误吗?

machine-learning dataset classification intrusion-detection network-security

398 观看

1回复

1 作者的声誉

KDD99数据集中,大量连接的第32个和第33个要素的值大于100。

我不明白为什么使用connection window100个连接中的a可以获得大于100的值的原因?我查阅了很多信息,但一无所获。

作者: tjhy01 的来源 发布者: 2017 年 9 月 15 日

回应 1


0

14707 作者的声誉

数据集包含每个连接的41个要素

这些功能是通过预处理TCP转储文件获得的。

为此,将TCP转储文件中的数据包信息汇总为连接。具体来说(http://kdd.ics.uci.edu/databases/kddcup99/task.html):

连接是一系列TCP数据包的开始和结束时间,在某些明确定义的时间开始和结束,在这段时间之间,数据按照某种明确定义的协议从源IP地址流向目标IP地址。

一些功能(所谓的基于时间的交通功能)是在2秒的时间窗口内计算的。

使用通过多个​​连接(在本例中为100)估算的历史窗口的其他功能(基于主机的流量功能)。

基于主机的功能对于间隔时间超过2秒的攻击很有用。

2秒和100个连接在某种程度上是任意值。

这两类功能的值没有上限(例如,在2秒间隔内与同一主机的连接数可以大于100)。

同样适用于:

32. | dst host count | count of connections having the same destination host



33. | dst host srv count | count of connections having the same
                           destination host and using the same service

问题是没有文档说明KDD特征提取的详细信息。主要参考资料是:

构建入侵检测系统特征和模型的框架 -WENKE LEE / SALVATORE J. STOLFO

从中可以明显看出使用了broids工具

使用Bro作为数据包过滤和重组引擎。我们扩展了Bro以处理ICMP数据包,并对其数据包片段检查模块进行了更改,因为它在处理包含Teardrop或Ping-of-Death攻击的数据时崩溃了。我们使用了Bro“连接完成”事件处理程序为每个连接输出摘要记录。

在Bro事件处理程序中,我们添加了检查交互式TCP连接(例如telnet,f​​tp,smtp等)的数据交换的函数。这些函数将值分配给一组“内容”功能,以指示数据内容是否暗示可疑行为。

但这还不够。

双方dst host countdst host srv count都在[0,255]范围内。

Github上的AI-IDS / kdd99_feature_extractor项目可以从原始数据中提取第32个和第33个特征(看一下stats*.cpp文件),但是:

某些功能的计算方式可能与KDD中的计算方式不完全相同

有关Stackoverflow的相关问题是:

作者: manlio 发布者: 2017 年 9 月 15 日
32x32