在 Alteryx Designer 上创建 DTM
Creating a DTM on Alteryx Designer
我是 Alteryx 的新手,正在尝试使用它来分析非结构化数据。我有一个文本形式的描述列,我打算使用 K-Means Clustering 工具进行主题建模。为了使 K-means 处理文本,我需要将我的文本转换为文档术语矩阵 (DTM),以便它们在聚类工具中显示为连续变量。但是,我正在努力寻找一种方法将我的文本转换为 DTM。
有谁知道这样做的方法吗?我目前正在查看 R 工具,但我也不确定如何开始。希望各位高手能帮帮我!
我浏览了有关文本分析的帖子,发现大多数人都求助于 Microsoft Azure ML 文本分析宏。但是,我想避免使用宏(不限于每月有限运行以实现可扩展性),而是使用 Alteryx 中可用的工具。
在此先感谢大家!
由于 Alteryx 更像是一个图形拖放工作流,因此在这里解释起来并不简单,但是我创建了以下工作流并将实际工作流本身包含在 Alteryx 论坛 here 中。该工作流利用就职演讲中的术语频率,但应适用于任何文档集合。它只是根据各种非数字字符拆分单词并进行汇总。工作流程如下所示:
我是 Alteryx 的新手,正在尝试使用它来分析非结构化数据。我有一个文本形式的描述列,我打算使用 K-Means Clustering 工具进行主题建模。为了使 K-means 处理文本,我需要将我的文本转换为文档术语矩阵 (DTM),以便它们在聚类工具中显示为连续变量。但是,我正在努力寻找一种方法将我的文本转换为 DTM。
有谁知道这样做的方法吗?我目前正在查看 R 工具,但我也不确定如何开始。希望各位高手能帮帮我!
我浏览了有关文本分析的帖子,发现大多数人都求助于 Microsoft Azure ML 文本分析宏。但是,我想避免使用宏(不限于每月有限运行以实现可扩展性),而是使用 Alteryx 中可用的工具。
在此先感谢大家!
由于 Alteryx 更像是一个图形拖放工作流,因此在这里解释起来并不简单,但是我创建了以下工作流并将实际工作流本身包含在 Alteryx 论坛 here 中。该工作流利用就职演讲中的术语频率,但应适用于任何文档集合。它只是根据各种非数字字符拆分单词并进行汇总。工作流程如下所示: