提取 html 以上的标题 url

Question

当我使用这个命令时

wget --quiet -O - http://www.some-site.com | egrep -e '/player/episode/[^"]*" title="[.?]*' | awk -F'"' '{print }' >> new.txt

它将 url 的列表和标题保存在这样的 txt 文件中

/player/episode/g0656bgp/the-night-manager-episode-4The Night Manager, Episode 4

我希望这样保存

The Night Manager, Episode 4
/player/episode/g0656bgp/the-night-manager-episode-4

标题在 url 上方对于每个 url 和标题

我可以使用 sed awk wget grep

谢谢

Answer 1

尝试：

wget --quiet -O - http://www.some-site.com | egrep -e '/player/episode/[^"]*" title="[.?]*' | awk -F'"' '{print "\n"}' >> new.txt

与您的原始代码相比，仅 awk 发生了变化：

因此，这成功地使标题如您所愿地位于 URL 之上。只要您的原始代码对您有效，这也应该有效。

extract html titles above url