文章目录
论文简介
@inproceedings{holland2021new,
title={New directions in automated traffic analysis},
author={Holland, Jordan and Schmitt, Paul and Feamster, Nick and Mittal, Prateek},
booktitle={Proceedings of the 2021 ACM SIGSAC Conference on Computer and Communications Security},
pages={3366--3383},
year={2021}
}
摘要
机器学习被用于安全领域的许多网络流量分析任务,从应用识别到入侵检测。然而,最终决定模型性能的机器学习管道的各个方面——特征选择和表示、模型选择和参数调优——仍然是手工和艰苦的。本文提出了一种自动化流量分析许多方面的方法,使机器学习技术更容易应用于更广泛的流量分析任务。
我们介绍了nPrint,一个生成统一的数据包表示的工具,适用于表示学习和模型训练。我们将nPrint与自动机器学习(AutoML)集成在一起,形成了nPrintML,这是一个公共系统,在很大程度上消除了各种流量分析任务的特征提取和模型调优。我们已经在8个独立的流量分析任务上对nPrintML进行了评估,并发布了nPrint和nPrintML,以使未来的工作能够扩展这些方法。
存在的问题
- 特征工程和模型选择是一个艰苦的过程,通常需要大量的专业领域知识来设计特征
- 即使有专家领域的知识,特征探索和工程在很大程度上仍然是一个脆弱和不完美的过程,因为特征的选择和如何表示它们会极大地影响模型的准确性。这样的人工提取可能会忽略那些不是很明显或涉及复杂关系的特征(例如,特征之间的非线性关系)
- 流量模式和条件总是在变化,模型和手工制作的特征会过时
- 每一个新的网络检测或分类任务都需要重新设计系统:设计新的特征,选择合适的模型,手动调整新的参数
论文贡献
- 设计了一个标准的数据包表示,nPrint,它以固有的规范化二进制表示对每个数据包进行编码,同时保留每个数据包的底层语义。nPrint使机器学习模型能够自动发现不同分类任务提供的数据包的重要特征集合,无需手动提取。
- nPrint与AutoML(一个我们称为nPrintML的系统)的集成可以实现自动模型选择和超参数调优,从而可以使用nPrint创建完整的流量分析管道——通常不需要编写代码
论文解决上述问题的方法:
论文的任务:
1. 整体架构
2. nPrint
-
设计要求:
- 固定尺度:每种representation都必须是固定大小的——即使单个数据包或数据包头的大小不同
- 规范化:当特征被归一化时,机器学习模型通常表现得比没做归一化时更好
- 对齐:representation中的每个位置应该对应于所有包的包头的相同部分
-
构建标准数据表示
nPrint支持三种表示网络流量的方法:-
语义表示(semantic representation)
-
未对齐二进制表示(unaligned binary representation)
-
混合表示(hybrid nPrint representation)
-
3. nPrintML
nPrintML:https://github.com/nprint/nprintml
-
AutoML
4. 任务
总结
论文内容
-
学到的方法
-
论文优缺点
工具
- nPrint:https://github.com/nprint/nprint
- nPrintML:https://github.com/nprint/nprintml
数据集
见下表:
可读的引用文献
- AutoGluon-Tabular: Robust and Accurate AutoML for Structured Data
笔记参考文献
https://zhuanlan.zhihu.com/p/448215353