使用机器学习的作者归属

Authorship Attribution using Machine Learning

我正在处理一个实际的机器学习问题作为练习。我只是需要帮助来解决我的问题。

我有一位著名老作家的 20 本书的文字。如果属于同一作者,还有 5 本书在整个历史上一直存在争议。

我正在考虑表示这个问题的最佳方式。我正在考虑使用词袋方法来查找作者使用的最重要的词。

我应该将其视为朴素贝叶斯 (Spam/Ham) 问题,还是应该使用 KNN class化 (Author/non-author) 来检测每个问题的 class文档。还有其他方法吗?

我认为朴素贝叶斯可以给你一些见解。另一种方法是,找出将此类书籍分开的特征 ex
1. 词的复杂性,有些作者很容易理解和使用常用词,我在暗示IDF(逆文档频率)
2. 有些词在他那个时代可能还不存在,比如 "selfie" , "mobile" 等等

尝试找到很多这样的特征,也可以训练一个判别器。