适应 IMDb 数据集的消失

Adapting to the disappearance of the IMDb datasets

所以免费提供的 IMDb datasets 将在 2017 年底消失。

据我了解,您必须:

由此产生的一些问题:

  1. 数据格式是什么样的?页面上有一个简短的例子,但是有没有人有一个实际的文件来显示标题、年份、投票等是如何格式化和链接的?
  2. 如果你不想接受这个政权,你有什么选择?某处是否有免费提供的数据集副本?还有哪些其他可免费使用的电影数据库至少涵盖了自 2017 年以来发行的所有电影和电视剧。

谈论付费专区

新文件总计约 360 兆字节的数据,因此根据我对 S3 定价的了解,除非您每月下载多次,否则您将完全在免费上限内。

数据格式是什么样的?

它们似乎是数据库表的转储。

举个例子,这里是title.basics.tsv.gz的开头:

tconst  titleType       primaryTitle    originalTitle   isAdult startYear       endYear runtimeMinutes  genres
tt0000001       short   Carmencita      Carmencita      0       1894    \N      1       Documentary,Short
tt0000002       short   Le clown et ses chiens  Le clown et ses chiens  0       1892    \N      5       Animation,Short
tt0000003       short   Pauvre Pierrot  Pauvre Pierrot  0       1892    \N      4       Animation,Comedy,Romance
tt0000004       short   Un bon bock     Un bon bock     0       1892    \N      \N      Animation,Short

可用的文件有:title.basics.tsv.gz、title.crew.tsv.gz、title.episode.tsv.gz、title.principals.tsv.gz、title.ratings.tsv.gz 和 name.basics.tsv.gz

就包含的数据而言,这些是每个文件中的字段:

name.basics.tsv.gz
nconst primaryName birthYear deathYear primaryProfession knownForTitles

title.basics.tsv.gz
tconst titleType primaryTitle originalTitle isAdult startYear endYear runtimeMinutes genres

title.crew.tsv.gz
tconst directors writers

title.episode.tsv.gz
tconst parentTconst seasonNumber episodeNumber

title.principals.tsv.gz
tconst principalCast

title.ratings.tsv.gz
tconst averageRating numVotes

关于每个文件中的行数,我们目前 (2017-080-21) 有:

name.basics.tsv.gz 8086560
title.basics.tsv.gz 4466246
title.crew.tsv.gz 4466246
title.episode.tsv.gz 2934335
title.principals.tsv.gz 3957899
title.ratings.tsv.gz 757412

如果你不想接受这个政权,你有什么选择?

恐怕不多。 但如果价格是唯一的问题,请参见上文。

我对新格式的所有发现都在 this thread on the imdbpy-devel mailing list

还有哪些其他免费可用的电影数据库

我认为最好的选择是 https://www.themoviedb.org/ and http://www.omdbapi.com/,但我对两者都不太熟悉。

我首先获取旧式文本文件并使用 IMDBpy 构建数据库,然后从这些新文件更新它。 IMDBpy 可能已经支持这个。