相当于 Azure 机器学习工作室中的子集
Equivalent of Subset in Azure machine learning studio
我在 Azure 机器学习 (.csv) 中有一个数据集,在同一个数据集上我构建了多个模型,我想根据不同的列对每个模型的数据进行子集化
输入:
ID col1 col2 col3
1 0 13 0
2 5 45 0
3 10 0 34
4 12 1 3
对于第一个模型,我想保留 col1 不等于 None
的所有记录
ID col1 col2 col3
2 5 45 0
3 10 0 34
4 12 1 3
与模型 2 类似
ID col1 col2 col3
1 0 13 0
2 5 45 0
4 12 1 3
希望清楚
R 中的等价物是
df[!df$col1 == "None",]
不是完美的解决方案,但我们可以使用名为 "Split Data"
的模块
输入
ID col1 col2 col3
1 0 13 0
2 5 45 0
3 10 0 34
4 12 1 3
预期输出
ID col1 col2 col3
2 5 45 None
3 10 None 34
4 12 1 3
解决方案:
解释:
我已经使用 "MetaData Editor" 将 'col1' 重命名为 'Labels'
模块 "Split Data" 正在使用拆分模式 'Regular Expression'
在正则表达式下,我们使用以下条件
\"Label" ^0
您可以使用 "Execute R Script" 模块并在其中插入您的 R 代码。
df <- maml.mapInputPort(1)
df <- df[!df$col1 == "None",]
maml.mapOutputPort("df");
我在 Azure 机器学习 (.csv) 中有一个数据集,在同一个数据集上我构建了多个模型,我想根据不同的列对每个模型的数据进行子集化
输入:
ID col1 col2 col3
1 0 13 0
2 5 45 0
3 10 0 34
4 12 1 3
对于第一个模型,我想保留 col1 不等于 None
的所有记录ID col1 col2 col3
2 5 45 0
3 10 0 34
4 12 1 3
与模型 2 类似
ID col1 col2 col3
1 0 13 0
2 5 45 0
4 12 1 3
希望清楚
R 中的等价物是
df[!df$col1 == "None",]
不是完美的解决方案,但我们可以使用名为 "Split Data"
的模块输入
ID col1 col2 col3
1 0 13 0
2 5 45 0
3 10 0 34
4 12 1 3
预期输出
ID col1 col2 col3
2 5 45 None
3 10 None 34
4 12 1 3
解决方案:
解释:
我已经使用 "MetaData Editor" 将 'col1' 重命名为 'Labels'
模块 "Split Data" 正在使用拆分模式 'Regular Expression'
在正则表达式下,我们使用以下条件
\"Label" ^0
您可以使用 "Execute R Script" 模块并在其中插入您的 R 代码。
df <- maml.mapInputPort(1)
df <- df[!df$col1 == "None",]
maml.mapOutputPort("df");