如何从 Azure ML 执行 Python 脚本步骤中的文本列中删除 HTML

How to strip HTML from a text column in Azure ML Execute Python Script step

如果我在传入的 Azure ML 数据集中有一个字符串类型的数据列,其中包含 HTML 标签搞砸了我的结果,我该如何删除这些标签?

像这样:

def azureml_main(dataframe1 = None, dataframe2 = None):
  dataframe1[1] = dataframe1['text'].str.replace('<[^<]+?>', ' ', case=False)
  return dataframe1,

记得在 Execute Python Script 步骤之前加上 Clean Missing Data 步骤,并更改操作以删除整行(如果适用)。这很重要,因为 Execute Python Script 步骤不能 return 空 dataframe。在这种情况下,只有您知道您的数据。

我还要指出 Preprocessing Text 步骤允许您应用正则表达式。这是另一种可能适合您情况的选择。