如何从 Azure ML 执行 Python 脚本步骤中的文本列中删除 HTML
How to strip HTML from a text column in Azure ML Execute Python Script step
如果我在传入的 Azure ML 数据集中有一个字符串类型的数据列,其中包含 HTML 标签搞砸了我的结果,我该如何删除这些标签?
像这样:
def azureml_main(dataframe1 = None, dataframe2 = None):
dataframe1[1] = dataframe1['text'].str.replace('<[^<]+?>', ' ', case=False)
return dataframe1,
记得在 Execute Python Script
步骤之前加上 Clean Missing Data
步骤,并更改操作以删除整行(如果适用)。这很重要,因为 Execute Python Script
步骤不能 return 空 dataframe
。在这种情况下,只有您知道您的数据。
我还要指出 Preprocessing Text
步骤允许您应用正则表达式。这是另一种可能适合您情况的选择。
如果我在传入的 Azure ML 数据集中有一个字符串类型的数据列,其中包含 HTML 标签搞砸了我的结果,我该如何删除这些标签?
像这样:
def azureml_main(dataframe1 = None, dataframe2 = None):
dataframe1[1] = dataframe1['text'].str.replace('<[^<]+?>', ' ', case=False)
return dataframe1,
记得在 Execute Python Script
步骤之前加上 Clean Missing Data
步骤,并更改操作以删除整行(如果适用)。这很重要,因为 Execute Python Script
步骤不能 return 空 dataframe
。在这种情况下,只有您知道您的数据。
我还要指出 Preprocessing Text
步骤允许您应用正则表达式。这是另一种可能适合您情况的选择。