我应该使用哪种机器学习模型?

What machine learning model should I use?

我目前正在为学生项目制作机器学习模型,我仍在决定应该使用哪种模型。这是我收到的简报:

全球恐怖主义数据库 (GTD) 是一个开源数据库,其中包含 1970 年至 2014 年全球恐怖事件的相关信息。部分袭击并未归因于特定的恐怖组织。 使用攻击类型、使用的武器、攻击描述等来构建一个模型,可以预测哪个组可能对事件负责。

数据框有:

我倾向于使用反向传播神经网络,因为我相信它可以处理缺失值,尽管考虑到我必须训练的时间有限,随机森林也可能是可行的。我对常见 ML 模型的各种优缺点进行了大量研究,但如有任何额外建议,我将不胜感激。

如果您尝试了几种候选方法并描述了为什么它们不够用,那么回答这个问题会更容易,但这里是一个起点...如果您无法使用计算机而有人给了你这个 table 并要求你定性地描述恐怖主义是如何运作的,你可能会很快注意到,比如说,爱尔兰共和军没有在阿富汗活动,只有 ISIS 参与了造成 1000 多人死亡的袭击(让我们规定)。这种观察类似于随机森林如何分别对分类数据和连续数据进行操作。

关键是,当您尝试定性描述此类数据背后的基本现实时,您的大脑会倾向于随机森林。 (多个分裂看起来像......好吧,1991 年之前美国没有恐怖主义,1991 年之后美国的大多数恐怖袭击都涉及 X、Y 和 Z 团体——等等)这样的必然结果是你将有关于训练有素的随机森林告诉您的内容、失败的地方以及失败的原因,还有很多话要说。

如果您使用神经网络,但不了解其工作原理的很多细节,您可能最终会盲目地进行调整,直到某些东西看起来有效,并且不知道该说些什么来说明它在各种情况下的效果如何情况或哪些特征是有用的。

为什么不使用随机森林,找出它有效和无效的地方,考虑这个结果,并对此进行迭代?