在 R 中处理 运行 NLP 时标记数据集中的多个文本列

Dealing with several text columns in a labeled data set while running NLP in R

希望你们所有人身体健康。 我是 NLP 领域的新手,我的问题可能听起来很愚蠢,所以我很抱歉 advance.I 想对一些标记的文本数据和 运行 文本挖掘预测模型执行 NLP。我有四个可用作预测变量的文本列,我的标记列是我的 class 变量。或许,下面可以让你一窥数据集

 var1    var2  var3    var4      class_var
  NA     text  text     NA          0
  text   text   NA     text         1
  text    NA    NA     text         1
  NA      NA    NA     text         0
  NA     text  text    text         1  

如图所示,有些栏目中没有文字(I put NAs)我在其他栏目中有文字。 话虽如此,我的问题是我是否应该将所有文本列合并为一个? 如果是这样,处理这个问题的适当方法是什么?

非常感谢你们的帮助。

非常感谢!

这里有太多选项,但鉴于您的数据已经分为四列,也许您可​​以先将文本替换为 1(如果存在文本)或 0(对于 NA),然后看看您的预测能力如何class_var 以简单的逻辑回归作为开始。从那里,您可以进入分词器等