从大型文档中获取 URL 列表
Get a list of URLs from large document
我正在尝试从 HTM 文件中获取 URLs“https://www.crocodiletrading.co.uk/”的列表,我还需要获取主 [=28] 之后的任何内容=] 例如 /blog/name-of-blog 等
我正在使用 Notepad++ 和 Regex 来尝试完成此操作,但我正在努力。我不太懂正则表达式。
我试过这样的事情:.*?(https\:\/\/www\.[a-zA-Z0-9\.\/\-]+)
谁能告诉我如何才能做到这一点?
我正在获取已标记为已损坏的 URL 的列表,因此我可以使用它来设置 301 重定向。
这里是HTML FILE如果有人想看的话
提前致谢。
此函数打印所有锚标记内的所有 link(href="link 到某些页面">一个>)
const getAllLinks = () => {
const links = document.querySelectorAll("a");
links.forEach(link => {
console.log(link.href);
})
}
这是我最终做的,使用旧的 jQuery 来获取包含 crocodiletrading.co.uk
的 URL
jQuery( document ).ready( function() {
var arr = [];
i = 0;
jQuery('a[href*="crocodiletrading.co.uk"]').each(function() {
arr[i++] = jQuery(this).attr('href');
});
var list = '<ul class="myList"><li class="ui-menu-item" role="menuitem"><a class="ui-all" tabindex="-1">' + arr.join('</a></li><li>') + '</li></ul>';
console.log(list);
});
试试这个代码,它可能会有帮助,
查找:^[\s\S]+?(https://www.crocodiletrading.co.uk/).*\n*(blog.*\d+).*
全部替换:
我正在尝试从 HTM 文件中获取 URLs“https://www.crocodiletrading.co.uk/”的列表,我还需要获取主 [=28] 之后的任何内容=] 例如 /blog/name-of-blog 等
我正在使用 Notepad++ 和 Regex 来尝试完成此操作,但我正在努力。我不太懂正则表达式。
我试过这样的事情:.*?(https\:\/\/www\.[a-zA-Z0-9\.\/\-]+)
谁能告诉我如何才能做到这一点?
我正在获取已标记为已损坏的 URL 的列表,因此我可以使用它来设置 301 重定向。
这里是HTML FILE如果有人想看的话
提前致谢。
此函数打印所有锚标记内的所有 link(href="link 到某些页面">一个>)
const getAllLinks = () => {
const links = document.querySelectorAll("a");
links.forEach(link => {
console.log(link.href);
})
}
这是我最终做的,使用旧的 jQuery 来获取包含 crocodiletrading.co.uk
的 URLjQuery( document ).ready( function() {
var arr = [];
i = 0;
jQuery('a[href*="crocodiletrading.co.uk"]').each(function() {
arr[i++] = jQuery(this).attr('href');
});
var list = '<ul class="myList"><li class="ui-menu-item" role="menuitem"><a class="ui-all" tabindex="-1">' + arr.join('</a></li><li>') + '</li></ul>';
console.log(list);
});
试试这个代码,它可能会有帮助,
查找:^[\s\S]+?(https://www.crocodiletrading.co.uk/).*\n*(blog.*\d+).*
全部替换: