【问题标题】:Finding all entity names from deprecated freebase从已弃用的 freebase 中查找所有实体名称
【发布时间】:2016-07-30 16:53:12
【问题描述】:

我正在训练一些将单词表示为向量的机器学习模型,使用 freebase 作为训练数据。由于 API 已被弃用,我正在使用原始的 freebase 转储,它现在是一个包含 31 亿个三元组的列表,包含超过 5 亿个不同的实体(主题/对象),我想减少这个数字。

我想删除所有仅表示主题名称的三元组,以便只保留包含 MID 的三元组。但是,我发现了多个可能的谓词来定义实体的“名称”。

i) common.notable_for.display_name
ii) type.object.name
iii) /rdf-schema#label

我有 3 个问题:

a) 上述谓词有什么不同吗?
b) 是否有任何额外的谓词也描述实体的名称?
c) 除了定义名称的三元组之外,该名称是否曾出现在其他三元组中,而不是 MID?

感谢您的帮助!

【问题讨论】:

    标签: freebase


    【解决方案1】:

    您应该只关注type.object.name,它是包含主题名称的架构属性。

    /rdf-schema#label 是均衡器,它不是 freebase 架构的一部分。

    common.notable_for.display_name 描述是:“显着对象的本地化/性别适当的显示名称。”,它也是 CVT(复合值类型)中的一个属性,它包含不同类型的信息:“所有类型的一个话题,什么不是最“重要”的。据我所知,“拉里佩奇”是一个“企业家”。所以你不需要这个属性。专注于 TON type.object.name

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2011-07-31
      • 2012-10-03
      • 1970-01-01
      • 1970-01-01
      • 2012-09-06
      • 2014-01-14
      相关资源
      最近更新 更多