实体映射对应关系数据在这http://storage.googleapis.com/freebase-public/fb2w.nt.gz
如何用python读Wikidata的bz2文件?https://dumps.wikimedia.org/wikidatawiki/entities/
参考https://www.quora.com/How-are-Wikidatas-JSON-database-dumps-structured
写了下面代码
import bz2
import json
f = bz2.BZ2File("/home/gt/data/latest-all.json.bz2")
line = f.readline()
line1 = f.readline()
line2 = f.readline()
l1 = line1[:len(line1)-2]
l2 = line2[:len(line2)-2]
data = json.loads(l2)
data = json.loads("["+l2+"]")
print("!")
剩下的工作只有SimpleQuestions等QA数据集的预处理了
这个数据来替换掉SimpleQuestions里的数据,感觉用fb2w.nt文件更靠谱