什么样的神经网络架构适合预测文章的流行度?

What is suitable neural network architecture for the prediction of popularity of articles?

我是机器学习和神经网络方面的新手。目前,我正在 coursera.org 上一门关于神经网络的课程,但我并不是什么都懂。我的论文有点问题。我应该使用神经网络,但我不知道如何为我的问题选择正确的神经网络架构。

我有很多来自门户网站的数据(通常是报纸、杂志的在线版本)。有关于文章的信息,例如,名称、文章文本和文章发布。还有大量捕捉用户行为的序列数据

我的目标是预测一篇文章的受欢迎程度(读者数量或唯一用户对文章的点击次数)。我想从这些数据中生成向量,并用这些向量为我的神经网络提供数据。

我有两个问题:

1.如何创建正确的向量?

2。哪种神经网络架构最适合这个问题?

这些都是很宽泛的问题。如果您想要更准确的答案,您需要找出更小的问题。

How to create a right vector?

对于文本数据,通常使用vector space model. Best results are often obtained using tf-idf weighting

Which neural network architecture is suitable for this problem?

这个很难说。我将从具有 k 个输入神经元的网络开始(其中 k 是应用 tf-idf 后向量的大小:您可能还想进行某种特征选择以减少特征数量.一个好的特征选择方法是using the chi squared test.)

然后,通过使用单个隐藏层给出标准网络布局,其中神经元数等于输入神经元数和输出神经元数之间的平均值。那么看起来您只需要一个输出神经元来输出文章的受欢迎程度(这可以是 linear neuron or a sigmoid 神经元)。

对于隐藏层中的神经元,您还可以尝试 linear and sigmoid neurons

您还可以尝试许多其他方法:权重衰减、动量技术、多层网络、循环网络等。如果不进行大量实验,就不可能说出什么最适合您给定的问题。