在 R 中处理 运行 NLP 时标记数据集中的多个文本列
Dealing with several text columns in a labeled data set while running NLP in R
希望你们所有人身体健康。
我是 NLP 领域的新手,我的问题可能听起来很愚蠢,所以我很抱歉 advance.I 想对一些标记的文本数据和 运行 文本挖掘预测模型执行 NLP。我有四个可用作预测变量的文本列,我的标记列是我的 class 变量。或许,下面可以让你一窥数据集
var1 var2 var3 var4 class_var
NA text text NA 0
text text NA text 1
text NA NA text 1
NA NA NA text 0
NA text text text 1
如图所示,有些栏目中没有文字(I put NAs
)我在其他栏目中有文字。
话虽如此,我的问题是我是否应该将所有文本列合并为一个?
如果是这样,处理这个问题的适当方法是什么?
非常感谢你们的帮助。
非常感谢!
这里有太多选项,但鉴于您的数据已经分为四列,也许您可以先将文本替换为 1(如果存在文本)或 0(对于 NA),然后看看您的预测能力如何class_var 以简单的逻辑回归作为开始。从那里,您可以进入分词器等
希望你们所有人身体健康。 我是 NLP 领域的新手,我的问题可能听起来很愚蠢,所以我很抱歉 advance.I 想对一些标记的文本数据和 运行 文本挖掘预测模型执行 NLP。我有四个可用作预测变量的文本列,我的标记列是我的 class 变量。或许,下面可以让你一窥数据集
var1 var2 var3 var4 class_var
NA text text NA 0
text text NA text 1
text NA NA text 1
NA NA NA text 0
NA text text text 1
如图所示,有些栏目中没有文字(I put NAs
)我在其他栏目中有文字。
话虽如此,我的问题是我是否应该将所有文本列合并为一个?
如果是这样,处理这个问题的适当方法是什么?
非常感谢你们的帮助。
非常感谢!
这里有太多选项,但鉴于您的数据已经分为四列,也许您可以先将文本替换为 1(如果存在文本)或 0(对于 NA),然后看看您的预测能力如何class_var 以简单的逻辑回归作为开始。从那里,您可以进入分词器等