如何从 openrefine 的单元格中删除 URL 链接?
How can I remove URL links from cells in openrefine?
如何通过 openrefine 删除文本中的所有 URL?是否有任何转换代码?我的数据有许多 URL 个链接,在文本中彼此不同。我想删除这些链接。
例如我的数据在单元格中有类似的文本
"put returns between paragraphs for linebreak add 2 spaces at end italic or bold indent code by 4 spaces backtick escapes like _so_
quote by placing > at start of line to http://foo.com/"
我只想删除单元格中的 URL 个链接。删除后应该是;
"put returns between paragraphs for linebreak add 2 spaces at end italic or bold indent code by 4 spaces backtick escapes like _so_
quote by placing > at start of line to"
这个转换应该可以解决问题:
value.replace(/(http:\/\/www\.|https:\/\/www\.|http:\/\/|https:\/\/)?[a-z0-9]+([\-\.]{1}[a-z0-9]+)*\.[a-z]{2,5}(:[0-9]{1,5})?(\/.*)?/, '')
如何通过 openrefine 删除文本中的所有 URL?是否有任何转换代码?我的数据有许多 URL 个链接,在文本中彼此不同。我想删除这些链接。
例如我的数据在单元格中有类似的文本
"put returns between paragraphs for linebreak add 2 spaces at end italic or bold indent code by 4 spaces backtick escapes like _so_
quote by placing > at start of line to http://foo.com/"
我只想删除单元格中的 URL 个链接。删除后应该是;
"put returns between paragraphs for linebreak add 2 spaces at end italic or bold indent code by 4 spaces backtick escapes like _so_
quote by placing > at start of line to"
这个转换应该可以解决问题:
value.replace(/(http:\/\/www\.|https:\/\/www\.|http:\/\/|https:\/\/)?[a-z0-9]+([\-\.]{1}[a-z0-9]+)*\.[a-z]{2,5}(:[0-9]{1,5})?(\/.*)?/, '')