提取 html 以上的标题 url
extract html titles above url
当我使用这个命令时
wget --quiet -O - http://www.some-site.com | egrep -e '/player/episode/[^"]*" title="[.?]*' | awk -F'"' '{print }' >> new.txt
它将 url 的列表和标题保存在这样的 txt 文件中
/player/episode/g0656bgp/the-night-manager-episode-4The Night Manager, Episode 4
我希望这样保存
The Night Manager, Episode 4
/player/episode/g0656bgp/the-night-manager-episode-4
标题在 url 上方
对于每个 url 和标题
我可以使用 sed awk wget grep
谢谢
尝试:
wget --quiet -O - http://www.some-site.com | egrep -e '/player/episode/[^"]*" title="[.?]*' | awk -F'"' '{print "\n"}' >> new.txt
与您的原始代码相比,仅 awk
发生了变化:
- re-arranged 将字段 4 先放在字段 2 之前的字段顺序
- 然后
"\n"
在它们之间插入一个新行
因此,这成功地使标题如您所愿地位于 URL 之上。只要您的原始代码对您有效,这也应该有效。
当我使用这个命令时
wget --quiet -O - http://www.some-site.com | egrep -e '/player/episode/[^"]*" title="[.?]*' | awk -F'"' '{print }' >> new.txt
它将 url 的列表和标题保存在这样的 txt 文件中
/player/episode/g0656bgp/the-night-manager-episode-4The Night Manager, Episode 4
我希望这样保存
The Night Manager, Episode 4
/player/episode/g0656bgp/the-night-manager-episode-4
标题在 url 上方 对于每个 url 和标题
我可以使用 sed awk wget grep
谢谢
尝试:
wget --quiet -O - http://www.some-site.com | egrep -e '/player/episode/[^"]*" title="[.?]*' | awk -F'"' '{print "\n"}' >> new.txt
与您的原始代码相比,仅 awk
发生了变化:
- re-arranged 将字段 4 先放在字段 2 之前的字段顺序
- 然后
"\n"
在它们之间插入一个新行
因此,这成功地使标题如您所愿地位于 URL 之上。只要您的原始代码对您有效,这也应该有效。