相当于 Azure 机器学习工作室中的子集

Question

我在 Azure 机器学习 (.csv) 中有一个数据集，在同一个数据集上我构建了多个模型，我想根据不同的列对每个模型的数据进行子集化

输入：

ID col1 col2 col3
1  0    13   0
2  5    45   0
3  10   0    34
4  12   1    3

对于第一个模型，我想保留 col1 不等于 None

的所有记录

ID col1 col2 col3
2  5    45   0
3  10   0    34
4  12   1    3

与模型 2 类似

ID col1 col2 col3
1  0    13   0
2  5    45   0
4  12   1    3

希望清楚

R 中的等价物是

df[!df$col1 == "None",]

Answer 1

不是完美的解决方案，但我们可以使用名为 "Split Data"

的模块

输入

ID col1 col2 col3
1  0    13   0
2  5    45   0
3  10   0    34
4  12   1    3

预期输出

ID col1 col2 col3
2  5    45   None
3  10   None 34
4  12   1    3

解决方案：

解释：

我已经使用 "MetaData Editor" 将 'col1' 重命名为 'Labels'

模块 "Split Data" 正在使用拆分模式 'Regular Expression'

在正则表达式下，我们使用以下条件

\"Label" ^0

Answer 2

您可以使用 "Execute R Script" 模块并在其中插入您的 R 代码。

df <- maml.mapInputPort(1)
df <- df[!df$col1 == "None",] 
maml.mapOutputPort("df");

Equivalent of Subset in Azure machine learning studio