【发布时间】:2016-07-30 16:53:12
【问题描述】:
我正在训练一些将单词表示为向量的机器学习模型,使用 freebase 作为训练数据。由于 API 已被弃用,我正在使用原始的 freebase 转储,它现在是一个包含 31 亿个三元组的列表,包含超过 5 亿个不同的实体(主题/对象),我想减少这个数字。
我想删除所有仅表示主题名称的三元组,以便只保留包含 MID 的三元组。但是,我发现了多个可能的谓词来定义实体的“名称”。
i) common.notable_for.display_name
ii) type.object.name
iii) /rdf-schema#label
我有 3 个问题:
a) 上述谓词有什么不同吗?
b) 是否有任何额外的谓词也描述实体的名称?
c) 除了定义名称的三元组之外,该名称是否曾出现在其他三元组中,而不是 MID?
感谢您的帮助!
【问题讨论】:
标签: freebase