在 R 中处理运行 NLP 时标记数据集中的多个文本列

Question

希望你们所有人身体健康。我是 NLP 领域的新手，我的问题可能听起来很愚蠢，所以我很抱歉 advance.I 想对一些标记的文本数据和运行文本挖掘预测模型执行 NLP。我有四个可用作预测变量的文本列，我的标记列是我的 class 变量。或许，下面可以让你一窥数据集

 var1    var2  var3    var4      class_var
  NA     text  text     NA          0
  text   text   NA     text         1
  text    NA    NA     text         1
  NA      NA    NA     text         0
  NA     text  text    text         1

如图所示，有些栏目中没有文字（I put NAs）我在其他栏目中有文字。话虽如此，我的问题是我是否应该将所有文本列合并为一个？如果是这样，处理这个问题的适当方法是什么？

非常感谢你们的帮助。

非常感谢！

Answer 1

这里有太多选项，但鉴于您的数据已经分为四列，也许您可以先将文本替换为 1（如果存在文本）或 0（对于 NA），然后看看您的预测能力如何class_var 以简单的逻辑回归作为开始。从那里，您可以进入分词器等

在 R 中处理运行 NLP 时标记数据集中的多个文本列

Dealing with several text columns in a labeled data set while running NLP in R

nlp

r

text-mining

tm

data-cleaning

在 R 中处理 运行 NLP 时标记数据集中的多个文本列

Dealing with several text columns in a labeled data set while running NLP in R

nlp

r

text-mining

tm

data-cleaning

在 R 中处理运行 NLP 时标记数据集中的多个文本列