【发布时间】:2013-12-04 01:30:42
【问题描述】:
在我几年前从事的一个项目中,我正在构建一组关于来自 Freebase 的电影的数据。一个简单的 shell 脚本下载了“film.tsv”文件(来自http://download.freebase.com/datadumps/latest/browse/film/film.tsv)。然后,我使用该文件中的“id”字段为每部电影构建必要的 MQL 请求(检索我感兴趣的其他属性,例如演员、流派)。
今天查看开发人员指南后,我意识到 Freebase 已经取得了相当大的进步,而且我发现我之前使用的转储文件不再可用。我还看到转储文件格式现在是 RDF,据我所知,转储文件现在只能作为单个 22GB 存档使用。
如果可能的话,我想避免每次我想重建我的数据集时都下载一个 22G 的文件,所以是否可以再检索单个转储文件,例如喜欢 film.tsv 文件吗?
如果没有,是否有其他方法可以获取完整的电影 ID 列表?
【问题讨论】: