从大型文档中获取 URL 列表

Get a list of URLs from large document

我正在尝试从 HTM 文件中获取 URLs“https://www.crocodiletrading.co.uk/”的列表,我还需要获取主 [=28] 之后的任何内容=] 例如 /blog/name-of-blog 等

我正在使用 Notepad++ 和 Regex 来尝试完成此操作,但我正在努力。我不太懂正则表达式。

我试过这样的事情:.*?(https\:\/\/www\.[a-zA-Z0-9\.\/\-]+)

谁能告诉我如何才能做到这一点?

我正在获取已标记为已损坏的 URL 的列表,因此我可以使用它来设置 301 重定向。

这里是HTML FILE如果有人想看的话

提前致谢。

此函数打印所有锚标记内的所有 link(href="link 到某些页面">)

const getAllLinks = () => {
    const links = document.querySelectorAll("a");
    links.forEach(link => {
        console.log(link.href);
    })
}

这是我最终做的,使用旧的 jQuery 来获取包含 crocodiletrading.co.uk

的 URL
jQuery( document ).ready( function() { 
var arr = [];
i = 0;

jQuery('a[href*="crocodiletrading.co.uk"]').each(function() {
    arr[i++] = jQuery(this).attr('href');
});

var list = '<ul class="myList"><li class="ui-menu-item" role="menuitem"><a class="ui-all" tabindex="-1">' + arr.join('</a></li><li>') + '</li></ul>';
console.log(list);
  });

试试这个代码,它可能会有帮助,

查找:^[\s\S]+?(https://www.crocodiletrading.co.uk/).*\n*(blog.*\d+).*

全部替换: