参考文档
知识图谱技术与应用指南
知识图谱在金融领域的风控现状
图数据库选型 | 360 数科的图数据库迁移史
数据安全-数据流转安全如何守护
知识图谱及其在安全领域的应用
图计算在基础安全的落点
基础安全 – EDR
需求场景
- 还原攻击者的
入侵链路图
。在最短时间内定位入侵原因、制定应急决策 - 利用图计算连接更多数据、发掘已知、未知风险
应用方向
-
可以基于终端的行为和操作日志,构建溯源知识图谱;从而分析终端的已知和未知威胁 (进程树关联)
-
跨终端间的网络、共享 以及告警事件的关联性 图谱分析
后续 研究方向
针对多源异构数据,利用语义分析的特点,识别威胁以及对威胁进行评估
偏向于事件分析
- 从这几个方面出发:威胁主体、攻击方法、资产、隐患和防御手段。
使用基于属性图的知识图谱构建,我们需要定义好主客体的关系以及三者各自的属性;使用基于RDF的知识图谱构建,我们需要更加关注于严格的推理关系、将属性的表达用确定的关系谓语代替。
偏向于情报分析
- 对手是谁(Who):包括威胁行为体,赞助商和雇主
- 对手使用什么(What):包括他们的能力和基础设施
- 对手的行动时(When):确定行动的时间表和规律
- 对手的目的(Why):包括他们的动机和意图
- 对手的目标行业和地理区域(Where):详细说明行业,垂直行业和地理区域
- 对手如何运作(How):关注于他们的行为和规律
以上的5W1H[5]可以作为安全情报知识图谱构建时的参考
- 偏向于特定威胁分析
-一种特定的技战术组合也可以称为一种特定威胁,因为它的杀伤链也相对固定,对于这部分的知识图谱构建,可以帮助我们从整体角度观察威胁
数据安全 – 数据流转监测
需求场景
- 数据流转安全监测的运营
- 数据的传输、使用、存储全流程可视化
图谱建模
-
nginx 流量日志
- 按
http 请求流量
聚合调用方
、被调方
形成 系统调用关系图
- 按
-
全链路追踪数据
- 追踪每个
请求调用链路
- 按 应用实体维度,汇聚应用实体的关联关系
- 追踪每个
-
数据库流量审计
- 梳理 客户端IP 对
库
、表
、字段
的操作(select
、update
、insert
、delete
)
- 梳理 客户端IP 对
此外,整个分析可以整合涉敏接口
,从而实现整个数据流转过程可视化
。
应用场景
- 全局数据流转态势
- 外部关联方管理
- 数据安全事件调查
业务安全 – 异常行为团伙
需求场景
群体关系分析
- 分析一批人之间是什么关系,我们需要知道他们是通过什么东西关联起来的,是通过 共用设备、操作相同进件号 还是其他关系
风险节点预警
- 某个用户刚授信,想申请借款的时候就开始预警,这个节点可能有很大的风险,跟之前一些风险节点是有关系的
风险社区的发现
- 现在有些黑产,都是团伙作案的,需要去发现有哪些团伙具备欺诈性质
客户关系网查询
- 对于一些高危疑似用户,调查他的关系网络是怎样的,跟一些风险节点的关联是什么样的
数据建模
-
图谱设计
-
主体
: 使用能唯一标识设备ID 的 作为 主体 -
客体
: 账号、订单号、wifi、lbs、手机号 几大类 -
关系
: 重要 uri 操作接口转义为业务阶段定义
-
-
图谱更新
- 实时消费 APP 请求流量,合并更新到已经算好的关系网络中。
- 周期性的执行社区发现任务,对同一个团伙内的成员,打上特定标签
图谱应用
-
基于规则的方法论`
- 通过一些模式来找到有可能存在
风险的团体
或者子图(sub-graph)
- 实现如
强连通图
、多节点信息共享
规则等
- 通过一些模式来找到有可能存在
-
基于
概率统计
的方法- 基于
模块度
:社区内节点之间关系的密度要明显大于社区之间的关系密度(luvain) 标签传播
:核心思想在于节点之间信息的传递
- 基于
-
基于动态网络的分析
- 图谱的结构是随时间变化的,而且这些变化本身也可以跟风险有所关联
方案
- 1、实时提取 原始请求信息构建图谱 存储于nebula 中;
- 2、图谱数据使用连通图算法划分为不同的关系网络,作为图谱分析基础;
- 3、在关系网络的基础上,运用社群发现算法(Louvain、LPA)进行异常团伙检测
- 4、分别对每个团伙 记录 90天、30天、15天、7天、3天和 当天 的关系网络结构,追踪图谱的演变过程
图数据库选型
技术角度考虑点
-
开源项目,对商业应用友好
- 拥有对源代码的控制力,才能保证数据安全和服务可用性
-
支持集群模式,具备存储和计算的横向扩展能力
- 业务数据量可以达到千万以上点边总数,吞吐量可达到数万 qps,单节点部署无法满足存储需求
-
能够服务 OLTP 场景,具备毫秒级多跳查询能力
- 搜索分析场景下,为确保分析得时效性,不能接受太高的查询响应时间
-
具备批量导入数据能力
- 图谱数据一般存储在 Hive 等数据仓库中。必须有快速将数据导入到图存储的手段