R 中的多 class class 化
Multi-class classification in R
我有特定帐户的推文,我想浏览每条推文并分类为 class 标签,如商业、音乐、体育等。
我创建训练数据的方法是为每个 class 标签分配几个关键字,例如
- “商业”的关键词可以是 - 企业家、工作、GDP……
- “音乐”的关键字可以是 - 歌曲、流派、专辑……
.CSV 训练数据文件有 2 列
1.关键词
2. class
这是正确的方法吗?
提前致谢!
看来你想做的事情类似于字典方法。将字典应用于文本语料库非常简单,但鉴于您使用的是推文,我建议您使用 Kenneth Bennoits excellent Quanteda 包。
更具体地说,您可以根据术语列表创建自定义词典(我相信是 s3 class)。
https://cran.r-project.org/web/packages/quanteda/quanteda.pdf
然后使用 applyDictionary 应用词典。您会得到一个漂亮的 table,其中包含文本和字典键,如下所示:
docs christmas opposition taxglob taxregex country
text1 1 1 1 0 0
text2 0 0 1 0 2
我有特定帐户的推文,我想浏览每条推文并分类为 class 标签,如商业、音乐、体育等。
我创建训练数据的方法是为每个 class 标签分配几个关键字,例如
- “商业”的关键词可以是 - 企业家、工作、GDP……
- “音乐”的关键字可以是 - 歌曲、流派、专辑……
.CSV 训练数据文件有 2 列 1.关键词 2. class
这是正确的方法吗?
提前致谢!
看来你想做的事情类似于字典方法。将字典应用于文本语料库非常简单,但鉴于您使用的是推文,我建议您使用 Kenneth Bennoits excellent Quanteda 包。
更具体地说,您可以根据术语列表创建自定义词典(我相信是 s3 class)。
https://cran.r-project.org/web/packages/quanteda/quanteda.pdf
然后使用 applyDictionary 应用词典。您会得到一个漂亮的 table,其中包含文本和字典键,如下所示:
docs christmas opposition taxglob taxregex country
text1 1 1 1 0 0
text2 0 0 1 0 2