如何从多个网页下载文本到文件？

Question

我正在尝试下载波兰语词典。不幸的是，existing files 包含所有变形（不确定正确的英文单词是什么）。我发现命令

lynx --dump https://sjp.pl/slownik/lp.phtml?f_vl=2&page=1 > file.txt

可以下载单个词典网页。然后我将不得不以某种方式只从文本块中提取字典条目，但至少这是一个开始。

不幸的是，我是一个 linux 菜鸟，不知道如何遍历所有 3067 页。

Answer 1

未经测试，但您应该能够使用 GNU Parallel

快速轻松地完成此操作

parallel -qk 'lynx --dump https://sjp.pl/slownik/lp.phtml?f_vl=2&page={}' ::: {1..3067} > file.txt

如果不起作用，请尝试删除单引号。如果这不起作用，请尝试在 & 前加一个反斜杠。不好意思，暂时没办法测试。

慢的方式是：

for ((i=1;i<3068;i++)) ; do
   lynx --dump ...page=$i
done > file.txt

How to download text from many webpages to file?