如何让 httrack 以原始名称而不是 index****.html 保存文件?
How do I get httrack to save files with their original names rather than index****.html?
我在此处关注 HTTrack 文档示例:http://httrack.kauler.com/help/User-defined_structure
我需要抓取的站点具有以下结构的 URL:
https://www.example.com/index.php?HelpTopics
https://www.example.com/index.php?MoreHelp
etc.
使用 HTTrack,我想下载站点并以
格式保存文件
HelpTopics.html
MoreHelp.html
etc.
我在从上面链接的文档修改的命令行上使用它:
httrack "https://www.example.com" %n%[index.php?:-:::].%t
但我仍然将所有文件保存为 index2b26.html
和 index2de7.html
等
我在 HTTrack 选项上做错了什么?这是否因为原始站点上没有文件扩展名而中断 example.com
?
我发现使用 wget
以原始名称保存文件要容易得多。这样做:
wget --mirror -p --convert-links --content-disposition --trust-server-names -P examplefolder http://www.example.com
从 link 开始,%[param:before:after:empty:notfound]
中的 param
应该是 GET 查询中的变量。由于您的 URL 没有变量,我认为默认文件名是正确的。
我在此处关注 HTTrack 文档示例:http://httrack.kauler.com/help/User-defined_structure
我需要抓取的站点具有以下结构的 URL:
https://www.example.com/index.php?HelpTopics
https://www.example.com/index.php?MoreHelp
etc.
使用 HTTrack,我想下载站点并以
格式保存文件
HelpTopics.html
MoreHelp.html
etc.
我在从上面链接的文档修改的命令行上使用它:
httrack "https://www.example.com" %n%[index.php?:-:::].%t
但我仍然将所有文件保存为 index2b26.html
和 index2de7.html
等
我在 HTTrack 选项上做错了什么?这是否因为原始站点上没有文件扩展名而中断 example.com
?
我发现使用 wget
以原始名称保存文件要容易得多。这样做:
wget --mirror -p --convert-links --content-disposition --trust-server-names -P examplefolder http://www.example.com
从 link 开始,%[param:before:after:empty:notfound]
中的 param
应该是 GET 查询中的变量。由于您的 URL 没有变量,我认为默认文件名是正确的。