提取字符串之间的字符串
Extract string between strings
我正在尝试提取网站条目中包含的邮寄地址(并导出为 CSV)。该页面经过编码,将 400 多个包含地址的条目组合到一个 Web 元素中,并且无法自动抓取数据。每个条目的地址都出现在两个相同的字符串之间。
例如
“下午 4 点到晚上 9 点,12345 Main St, Seattle, WA, 带上朋友!”
您可以使用正则表达式来实现。您没有提供有关您将用于执行此操作的程序语言的任何详细信息,因此我将仅介绍正则表达式部分(然后您可以研究如何使用您喜欢的语言来执行此操作 - 几乎所有语言都提供强大的支持正则表达式)。
让我们把字符串
"4pm to 9pm, 12345 Main St, Seattle, WA, Bring friends!"
使用正则表达式提取您想要的字符串部分:
/^4pm to 9pm, ([A-Za-z0-9, ]+), Bring friends\!$/
可以根据您的需要进行调整(您只提供 1 个字符串样本,其他样本可能会影响结果)。在 regex101.com
中尝试
更新:
根据评论,您可以使用如下正则表达式:
/pm\n([A-Za-z0-9, ]+)\nInstructors/
你应该修改字符类(地址中可以出现的字符)。我已经在 regex101.com 中进行了测试,它适用于您在评论中提供的示例。
我正在尝试提取网站条目中包含的邮寄地址(并导出为 CSV)。该页面经过编码,将 400 多个包含地址的条目组合到一个 Web 元素中,并且无法自动抓取数据。每个条目的地址都出现在两个相同的字符串之间。
例如
“下午 4 点到晚上 9 点,12345 Main St, Seattle, WA, 带上朋友!”
您可以使用正则表达式来实现。您没有提供有关您将用于执行此操作的程序语言的任何详细信息,因此我将仅介绍正则表达式部分(然后您可以研究如何使用您喜欢的语言来执行此操作 - 几乎所有语言都提供强大的支持正则表达式)。
让我们把字符串
"4pm to 9pm, 12345 Main St, Seattle, WA, Bring friends!"
使用正则表达式提取您想要的字符串部分:
/^4pm to 9pm, ([A-Za-z0-9, ]+), Bring friends\!$/
可以根据您的需要进行调整(您只提供 1 个字符串样本,其他样本可能会影响结果)。在 regex101.com
中尝试更新:
根据评论,您可以使用如下正则表达式:
/pm\n([A-Za-z0-9, ]+)\nInstructors/
你应该修改字符类(地址中可以出现的字符)。我已经在 regex101.com 中进行了测试,它适用于您在评论中提供的示例。