在 KNIME 中删除一大列数据的每一行中的部分字符串
Remove part of a string in each row of a large column of data in KNIME
我晕了
在 KNIME 工作流程中,我有一列包含数千行关于大学、制药公司等的唯一地址
示例:
55 Shattuck Street Boston Massachusetts 02115 US [NAT: US RES: US] 所有指定州
我需要清理数据,这样每一行看起来都不错并且可以像这样计算:
55 Shattuck Street Boston Massachusetts 02115 US.
我的问题是我似乎无法让系统删除 US 之后的所有内容。有谁知道 KNIME 中合适的方法吗?
您应该能够使用任一 String Replacer or String Manipulation for this. The first one lets you use either a simple wildcard or a full regular expression 模式,而第二个模式使用 Java-like 语法 - 选择取决于您需要处理的输入数据有多少种不同的变化以及哪些你喜欢的语法。
如果您只需要删除方括号之间的任何文本,包括左括号之前的 space,那么您可以使用这样配置的字符串替换器:
除了 nekomatic 已经提到的节点,这些节点将完美地适用于给定的场景,Palladian 节点扩展中还有一个 user-friendly 正则表达式工具,名为 Regex Extractor,它允许您使用实时预览构建您的正则表达式,正如您可能从流行的在线正则表达式测试人员那里了解到的那样。
对于您的场景,您可以例如像这样设置一个正则表达式:
^(?<address>.*)(?:\s\[.*)
在散文中,这意味着:捕获所有字符,直到 space + 方括号并输出到名为 address
.
的列中
Palladian 扩展 here 作为 KNIME Desktop 的免费插件提供,并为 Web、文本和地理数据挖掘和分类提供各种不同的工具。
我晕了
在 KNIME 工作流程中,我有一列包含数千行关于大学、制药公司等的唯一地址
示例: 55 Shattuck Street Boston Massachusetts 02115 US [NAT: US RES: US] 所有指定州
我需要清理数据,这样每一行看起来都不错并且可以像这样计算: 55 Shattuck Street Boston Massachusetts 02115 US.
我的问题是我似乎无法让系统删除 US 之后的所有内容。有谁知道 KNIME 中合适的方法吗?
您应该能够使用任一 String Replacer or String Manipulation for this. The first one lets you use either a simple wildcard or a full regular expression 模式,而第二个模式使用 Java-like 语法 - 选择取决于您需要处理的输入数据有多少种不同的变化以及哪些你喜欢的语法。
如果您只需要删除方括号之间的任何文本,包括左括号之前的 space,那么您可以使用这样配置的字符串替换器:
除了 nekomatic 已经提到的节点,这些节点将完美地适用于给定的场景,Palladian 节点扩展中还有一个 user-friendly 正则表达式工具,名为 Regex Extractor,它允许您使用实时预览构建您的正则表达式,正如您可能从流行的在线正则表达式测试人员那里了解到的那样。
对于您的场景,您可以例如像这样设置一个正则表达式:
^(?<address>.*)(?:\s\[.*)
在散文中,这意味着:捕获所有字符,直到 space + 方括号并输出到名为 address
.
Palladian 扩展 here 作为 KNIME Desktop 的免费插件提供,并为 Web、文本和地理数据挖掘和分类提供各种不同的工具。