1 用户构建知识的步骤---众包方式
编辑实体: 创建实体,将实体分到类别, 增加/修改属性/关系, 上传图片;
编辑Schema(就是XML Schema, 是W3C发布的推荐标准,指出如何形式描述XML文档的元素): 定义新类别, 定义类别属性;
Review: 验证知识准确性, 投票, 删除错误知识;
DataGame: 寻找别名, 抽取事件日期,使用Yahoo图片搜索加入图片。
2 Google: Knowledge Vault
2014年构建的大规模知识图谱
不再采用众包方式进行图谱构建,而是通过机器学习方法自动搜集网上信息,并与已有的结构化数据进行融合,构建知识图谱;
集成融合: YAGO, Freebase, 网页中的表格数据;
3 KnowltAll
华盛顿大学图灵中心的开放信息抽取项目
目标: 让机器自动阅读互联网文本内容,从大量非结构化文本中抽取的实体关系三元组;
区别于传统的文本信息抽取系统,这里要抽取的关系不是预定义的,是开放性的,但是头实体subject, 和尾实体object 是确定性的;
TextRunner和Reverb系统是KnowltALL项目中的两个代表系统;
从文本中通过识别句子的谓词抽取所有的二元关系
利用网络数据的冗余信息,对初步认定可信的信息进行评估
可以在系统中直接查询知识
4 NELL
卡内基梅隆大学基于Read the Wen 项目开发的一套“永不停歇的语言学习”
每天不间断的执行:阅读和学习
阅读三元组知识,并添加到内部知识库
学习任务目标是提升机器学习算法的性能
5 通用知识图谱 🆚 领域知识图谱
通用: 以百科知识、常识知识为主;基于结构化的百科知识;强调知识的广度;使用者是普通用户;
领域: 面向特定领域;基于行业知识库,基于行业数据构建;强调知识深度;潜在使用者是行业人员。
6 通用知识图谱+领域知识图谱
相互补充形成更完善的知识图谱
7 领域知识图谱有: IMDB, MusicBrainZ, SIDER
8 LOD(Linked Open Data)
W3C于2007年开放的互联数据项目
以RDF语义形式在Web上发布各种开放数据集,并在不同来源数据集上建立语义链接,加强数据贡献