如何根据元数据将电影多标签分类到电影节,其中元数据主要是单个单词?
How to multi-label classify movies to film festivals based on its metadata, where the metadata is predominantly individual words?
我创建了过去几年制作的各种电影的数据集,技术人员为电影工作,类型,它所代表的国家,运行时间,语言,电影赢得的相应电影节等。
数据集类似于this,它是一个excel文件。
我对根据电影的固有特征(不考虑情节)将电影多标签分类到电影节感兴趣
我认为我们需要在 numbers/vectors 中工作以对数据进行多标签分类。但是,我不知道如何对名称(专有名词)和少数单个词进行矢量化。
有没有其他方法可以执行该过程以实现使用上述数据进行多标签分类的目标?请帮我鉴定一下。谢谢。
您这里的数据集是表格数据。您需要将该表格数据矢量化,以便能够将其传递给分类模型。
表格数据通常由 :
- 连续特征(例如:imdb 评分、运行时)
- 分类特征(例如:数据集中的所有其他特征)
表格数据的矢量化只是每个特征的矢量表示的串联。
对于连续特征,您应该对值进行归一化。对于分类特征,您应该 one-hot 对其进行编码。
注意:
对于您的数据集,您有 3 "text-like" 个特征:标题、导演和作者:
- 标题:标题对于电影来说是独一无二的,所以你的模型无法从中学到任何东西,所以你应该从数据集中丢弃它。
- 导演和作家:你应该把它们当作分类变量而不是文本。如果您使用文本矢量化技术(词袋或 TF-IDF)对它们进行编码,则意味着您假设像
Pedro
这样的词具有预测能力。 Pedro Gonzalez-Rubio 和 Pedro Almodovar 之间有共同点吗?如果有,可能是他们都说西班牙语,但我宁愿将其作为一个功能添加到您的模型中(例如:language_of_director)
我创建了过去几年制作的各种电影的数据集,技术人员为电影工作,类型,它所代表的国家,运行时间,语言,电影赢得的相应电影节等。
数据集类似于this,它是一个excel文件。
我对根据电影的固有特征(不考虑情节)将电影多标签分类到电影节感兴趣
我认为我们需要在 numbers/vectors 中工作以对数据进行多标签分类。但是,我不知道如何对名称(专有名词)和少数单个词进行矢量化。
有没有其他方法可以执行该过程以实现使用上述数据进行多标签分类的目标?请帮我鉴定一下。谢谢。
您这里的数据集是表格数据。您需要将该表格数据矢量化,以便能够将其传递给分类模型。
表格数据通常由 :
- 连续特征(例如:imdb 评分、运行时)
- 分类特征(例如:数据集中的所有其他特征)
表格数据的矢量化只是每个特征的矢量表示的串联。 对于连续特征,您应该对值进行归一化。对于分类特征,您应该 one-hot 对其进行编码。
注意: 对于您的数据集,您有 3 "text-like" 个特征:标题、导演和作者:
- 标题:标题对于电影来说是独一无二的,所以你的模型无法从中学到任何东西,所以你应该从数据集中丢弃它。
- 导演和作家:你应该把它们当作分类变量而不是文本。如果您使用文本矢量化技术(词袋或 TF-IDF)对它们进行编码,则意味着您假设像
Pedro
这样的词具有预测能力。 Pedro Gonzalez-Rubio 和 Pedro Almodovar 之间有共同点吗?如果有,可能是他们都说西班牙语,但我宁愿将其作为一个功能添加到您的模型中(例如:language_of_director)