提取 html 以上的标题 url

extract html titles above url

当我使用这个命令时

wget --quiet -O - http://www.some-site.com | egrep -e '/player/episode/[^"]*" title="[.?]*' | awk -F'"' '{print }' >> new.txt

它将 url 的列表和标题保存在这样的 txt 文件中

/player/episode/g0656bgp/the-night-manager-episode-4The Night Manager, Episode 4

我希望这样保存

The Night Manager, Episode 4
/player/episode/g0656bgp/the-night-manager-episode-4

标题在 url 上方 对于每个 url 和标题

我可以使用 sed awk wget grep

谢谢

尝试:

wget --quiet -O - http://www.some-site.com | egrep -e '/player/episode/[^"]*" title="[.?]*' | awk -F'"' '{print "\n"}' >> new.txt

与您的原始代码相比,仅 awk 发生了变化:

  • re-arranged 将字段 4 先放在字段 2 之前的字段顺序
  • 然后 "\n" 在它们之间插入一个新行

因此,这成功地使标题如您所愿地位于 URL 之上。只要您的原始代码对您有效,这也应该有效。