【发布时间】:2013-01-23 07:28:12
【问题描述】:
我正在将 imdb 导入 MySQL。可下载的纯文本 imdb 数据文件的描述表明它们包含 imdb 数据的 子集。有谁知道可下载数据(范围)的限制是什么?例如,是否有电影未包含在可下载数据中?
【问题讨论】:
标签: mysql text-extraction imdb
我正在将 imdb 导入 MySQL。可下载的纯文本 imdb 数据文件的描述表明它们包含 imdb 数据的 子集。有谁知道可下载数据(范围)的限制是什么?例如,是否有电影未包含在可下载数据中?
【问题讨论】:
标签: mysql text-extraction imdb
在纯文本数据文件中,您将找不到后来 IMDb 成为公司后添加的信息。
主要限制是您没有 imdbIDs(用于识别电影、人物、角色和公司的 ID),因此您无法轻松匹配纯文本数据文件与网站上的数据文件。
除此之外,值得注意的缺失的数据类别是:主页上的简短情节、奖项、外部评论、家长指南、概要、常见问题解答、新闻。
显然,所有的留言板、海报等都不见了。
您可以将您的数据与他们的统计数据进行一些比较:http://www.imdb.com/stats,但他们在网站上对电影进行分类的方式可能与您在文件中找到的不同,因此这不是一个简单的比较。
一个值得注意的例外,严格来说数据量,据我所知,“in development”标题不包含在文件中(而电影处于早期阶段生产时,信息仅提供给 IMDb PRO 的订阅者)。
【讨论】: