如何分析电影片名?

How to analyze movie titles?

我想使用发行前可用的数据预测电影票房 collections,例如片名、演员、导演、工作室、评论家评级、流派等。我找到了一种方法来对其中大部分进行数值量化,但无法量化标题。标题传达了很多有用的信息,比如电影是不是sequel、标题的长度、关联的情感等等。如何从标题中定量提取这些信息?

BoW 是创建基于文本的特征的标准方法,但我不推荐它,因为电影片名很短,而且其中许多包含脱离上下文的词,命名实体..这将使你的特征向量更加稀疏。

您可以为标题的每个单词创建一个 word2vec 编码,然后将标题的均值向量作为您的特征。我最喜欢的工具:gensim or Facebook fast Text