适应 IMDb 数据集的消失
Adapting to the disappearance of the IMDb datasets
所以免费提供的 IMDb datasets 将在 2017 年底消失。
据我了解,您必须:
- 表明您自己的身份(注册一个个人帐户以获取所有访问权限)
- 付钱(一旦免费配额用完,虽然实际价格可能很小)
- 编写代码(虽然看起来您正在下载 .gz 文件,所以可能很简单)
由此产生的一些问题:
- 数据格式是什么样的?页面上有一个简短的例子,但是有没有人有一个实际的文件来显示标题、年份、投票等是如何格式化和链接的?
- 如果你不想接受这个政权,你有什么选择?某处是否有免费提供的数据集副本?还有哪些其他可免费使用的电影数据库至少涵盖了自 2017 年以来发行的所有电影和电视剧。
谈论付费专区
新文件总计约 360 兆字节的数据,因此根据我对 S3 定价的了解,除非您每月下载多次,否则您将完全在免费上限内。
数据格式是什么样的?
它们似乎是数据库表的转储。
举个例子,这里是title.basics.tsv.gz的开头:
tconst titleType primaryTitle originalTitle isAdult startYear endYear runtimeMinutes genres
tt0000001 short Carmencita Carmencita 0 1894 \N 1 Documentary,Short
tt0000002 short Le clown et ses chiens Le clown et ses chiens 0 1892 \N 5 Animation,Short
tt0000003 short Pauvre Pierrot Pauvre Pierrot 0 1892 \N 4 Animation,Comedy,Romance
tt0000004 short Un bon bock Un bon bock 0 1892 \N \N Animation,Short
可用的文件有:title.basics.tsv.gz、title.crew.tsv.gz、title.episode.tsv.gz、title.principals.tsv.gz、title.ratings.tsv.gz 和 name.basics.tsv.gz
就包含的数据而言,这些是每个文件中的字段:
name.basics.tsv.gz
nconst primaryName birthYear deathYear primaryProfession knownForTitles
title.basics.tsv.gz
tconst titleType primaryTitle originalTitle isAdult startYear endYear runtimeMinutes genres
title.crew.tsv.gz
tconst directors writers
title.episode.tsv.gz
tconst parentTconst seasonNumber episodeNumber
title.principals.tsv.gz
tconst principalCast
title.ratings.tsv.gz
tconst averageRating numVotes
关于每个文件中的行数,我们目前 (2017-080-21) 有:
name.basics.tsv.gz 8086560
title.basics.tsv.gz 4466246
title.crew.tsv.gz 4466246
title.episode.tsv.gz 2934335
title.principals.tsv.gz 3957899
title.ratings.tsv.gz 757412
如果你不想接受这个政权,你有什么选择?
恐怕不多。
但如果价格是唯一的问题,请参见上文。
我对新格式的所有发现都在 this thread on the imdbpy-devel mailing list
还有哪些其他免费可用的电影数据库
我认为最好的选择是 https://www.themoviedb.org/ and http://www.omdbapi.com/,但我对两者都不太熟悉。
我首先获取旧式文本文件并使用 IMDBpy 构建数据库,然后从这些新文件更新它。 IMDBpy 可能已经支持这个。
所以免费提供的 IMDb datasets 将在 2017 年底消失。
据我了解,您必须:
- 表明您自己的身份(注册一个个人帐户以获取所有访问权限)
- 付钱(一旦免费配额用完,虽然实际价格可能很小)
- 编写代码(虽然看起来您正在下载 .gz 文件,所以可能很简单)
由此产生的一些问题:
- 数据格式是什么样的?页面上有一个简短的例子,但是有没有人有一个实际的文件来显示标题、年份、投票等是如何格式化和链接的?
- 如果你不想接受这个政权,你有什么选择?某处是否有免费提供的数据集副本?还有哪些其他可免费使用的电影数据库至少涵盖了自 2017 年以来发行的所有电影和电视剧。
谈论付费专区
新文件总计约 360 兆字节的数据,因此根据我对 S3 定价的了解,除非您每月下载多次,否则您将完全在免费上限内。
数据格式是什么样的?
它们似乎是数据库表的转储。
举个例子,这里是title.basics.tsv.gz的开头:
tconst titleType primaryTitle originalTitle isAdult startYear endYear runtimeMinutes genres
tt0000001 short Carmencita Carmencita 0 1894 \N 1 Documentary,Short
tt0000002 short Le clown et ses chiens Le clown et ses chiens 0 1892 \N 5 Animation,Short
tt0000003 short Pauvre Pierrot Pauvre Pierrot 0 1892 \N 4 Animation,Comedy,Romance
tt0000004 short Un bon bock Un bon bock 0 1892 \N \N Animation,Short
可用的文件有:title.basics.tsv.gz、title.crew.tsv.gz、title.episode.tsv.gz、title.principals.tsv.gz、title.ratings.tsv.gz 和 name.basics.tsv.gz
就包含的数据而言,这些是每个文件中的字段:
name.basics.tsv.gz
nconst primaryName birthYear deathYear primaryProfession knownForTitles
title.basics.tsv.gz
tconst titleType primaryTitle originalTitle isAdult startYear endYear runtimeMinutes genres
title.crew.tsv.gz
tconst directors writers
title.episode.tsv.gz
tconst parentTconst seasonNumber episodeNumber
title.principals.tsv.gz
tconst principalCast
title.ratings.tsv.gz
tconst averageRating numVotes
关于每个文件中的行数,我们目前 (2017-080-21) 有:
name.basics.tsv.gz 8086560
title.basics.tsv.gz 4466246
title.crew.tsv.gz 4466246
title.episode.tsv.gz 2934335
title.principals.tsv.gz 3957899
title.ratings.tsv.gz 757412
如果你不想接受这个政权,你有什么选择?
恐怕不多。 但如果价格是唯一的问题,请参见上文。
我对新格式的所有发现都在 this thread on the imdbpy-devel mailing list
还有哪些其他免费可用的电影数据库
我认为最好的选择是 https://www.themoviedb.org/ and http://www.omdbapi.com/,但我对两者都不太熟悉。
我首先获取旧式文本文件并使用 IMDBpy 构建数据库,然后从这些新文件更新它。 IMDBpy 可能已经支持这个。