Limes是一个基于度量空间的实体匹配发现框架,适合于大规模数据链接,编程语言是Java。其整体框架如下图所示:
该整体流程用文字表述为:
- 给定源数据集S,目标数据集T,阈值 θ θ θ;
- 样本选取: 从T中选取样本点E来代表T中数据,所谓样本点,也就是能代表距离空间的点。应该在距离空间上均匀分布,各个样本之间距离尽可能大。;
- 过滤: 计算 s ∈ S s∈S s∈S 与 e ∈ E e∈E e∈E 之间的距离 m ( s , e ) m(s, e) m(s,e),利用三角不等式进行过滤;
- 相似度计算: 同上;
- 序列化: 存储为用户指定格式;
参考资料:
知识图谱之知识融合
知识图谱入门 (六) 知识融合