URL解码与理解

URL decoding and understanding

最近开始学习网络抓取。为此,我需要关注 URLs 和那里的基本结构。我考虑了来自 Amazon 和 Priceline 的两个 URL 用于家庭作业。

URL

的一些基本概念

亚马逊URL

https://www.amazon.com/books-used-books-textbooks/b/?ie=UTF8&node=283155&ref_=nav_cs_books_788dc1d04dfe44a2b3249e7a7c245230

据我了解:

Parameters
ie=UTF8
node = 283155
ref_=nav_cs_books_788dc1d04dfe44a2b3249e7a7c245230

Key       Values
ie        UTF8
node      283155
ref_      nav_cs_books_788dc1d04dfe44a2b3249e7a7c245230

价格线URL

https://www.priceline.com/relax/in/3000005381/from/20210310/to/20210317/rooms/1?vrid=16e829a6d7ee5b5538fe51bb7e6925e8

此url是根据03/10/2021-03/17/2021在芝加哥的酒店预订。

据我了解:

key    values
from   20210310  2021 - 03 -10
to     20210317  2021 - 03 -17
rooms  1

我没有发现更多。我只是确定我错过了什么吗?那些URLS能分析的更准确些吗?

可能有用的提示是:

可以通过 GET 或 POST 发布数据。您用 URL 描述的是 GET。 POST 是当您在 url.

中看不到任何内容时

在这两种情况下,熟悉使用浏览器的开发人员控制台将有助于您探索网站的工作原理。在 Chrome 中,您可以按 F12 或右键单击任何元素,然后 select“检查元素”。这在尝试检查使用 POST 传递的数据时特别有用,因为您无法在 url 中看到它们。使用“网络”选项卡,同时点击以查看网站在后台执行的操作。

最后,看看网站吧。例如,当您浏览亚马逊时,您可能会注意到 url 看起来像 https://www.amazon.com/Avalon-Organics-Creme-Radiant-Renewal/dp/B082G172GL/?_encoding=UTF8 but if you play around with it you notice you can delete out the title and the url still works like this: https://www.amazon.com/dp/B082G172GL