0
点赞
收藏
分享

微信扫一扫

python数据分析|二 IPython和JupyterNotebooks

阅读笔记:Virtual Compiler Is All You Need For Assembly Code Search

在这里插入图片描述

1. 研究背景

  • 逆向工程:逆向工程需要在庞大的二进制文件中快速定位特定功能(例如恶意行为)。传统方法依赖于经验和启发式算法,效率低下。
  • 汇编代码搜索:通过自然语言搜索汇编代码功能,能够更高效地处理二进制文件。
  • 数据集构建挑战:构建汇编代码搜索数据集困难重重,涉及复杂的编译过程,容易因编译失败而产生大量数据损失。

2. 研究动机

  • 虚拟编译器 (ViC):通过将CodeLlama模型继续预训练为虚拟编译器,使其可以虚拟编译任意源代码为汇编代码。这一方式可以扩大数据集规模,提升汇编代码搜索效果。

3. 研究贡献

  • 虚拟编译器引入:提出了虚拟编译器ViC,克服了传统编译方法中的障碍,生成了多样性强、规模大的汇编代码数据集。
  • 汇编代码搜索性能提升:构建了高质量的汇编代码数据集,模型在汇编代码搜索任务中性能提升了26%。
举报

相关推荐

0 条评论