URL解码与理解
URL decoding and understanding
最近开始学习网络抓取。为此,我需要关注 URLs 和那里的基本结构。我考虑了来自 Amazon 和 Priceline 的两个 URL 用于家庭作业。
URL
的一些基本概念
- 查询字符串出现在 URL 的末尾,以单个开头
问号,“?”。
- 参数以键值对的形式提供,并由
符号,“&”。
- key和value用等号分隔,“=”
- 大多数网络框架都允许我们定义“nice
寻找” URLs,它只包含 URL
路径中的参数
亚马逊URL
https://www.amazon.com/books-used-books-textbooks/b/?ie=UTF8&node=283155&ref_=nav_cs_books_788dc1d04dfe44a2b3249e7a7c245230
据我了解:
Parameters
ie=UTF8
node = 283155
ref_=nav_cs_books_788dc1d04dfe44a2b3249e7a7c245230
Key Values
ie UTF8
node 283155
ref_ nav_cs_books_788dc1d04dfe44a2b3249e7a7c245230
价格线URL
https://www.priceline.com/relax/in/3000005381/from/20210310/to/20210317/rooms/1?vrid=16e829a6d7ee5b5538fe51bb7e6925e8
此url是根据03/10/2021-03/17/2021在芝加哥的酒店预订。
据我了解:
key values
from 20210310 2021 - 03 -10
to 20210317 2021 - 03 -17
rooms 1
我没有发现更多。我只是确定我错过了什么吗?那些URLS能分析的更准确些吗?
可能有用的提示是:
可以通过 GET 或 POST 发布数据。您用 URL 描述的是 GET。 POST 是当您在 url.
中看不到任何内容时
在这两种情况下,熟悉使用浏览器的开发人员控制台将有助于您探索网站的工作原理。在 Chrome 中,您可以按 F12 或右键单击任何元素,然后 select“检查元素”。这在尝试检查使用 POST 传递的数据时特别有用,因为您无法在 url 中看到它们。使用“网络”选项卡,同时点击以查看网站在后台执行的操作。
最后,看看网站吧。例如,当您浏览亚马逊时,您可能会注意到 url 看起来像 https://www.amazon.com/Avalon-Organics-Creme-Radiant-Renewal/dp/B082G172GL/?_encoding=UTF8 but if you play around with it you notice you can delete out the title and the url still works like this: https://www.amazon.com/dp/B082G172GL
最近开始学习网络抓取。为此,我需要关注 URLs 和那里的基本结构。我考虑了来自 Amazon 和 Priceline 的两个 URL 用于家庭作业。
URL
的一些基本概念- 查询字符串出现在 URL 的末尾,以单个开头 问号,“?”。
- 参数以键值对的形式提供,并由 符号,“&”。
- key和value用等号分隔,“=”
- 大多数网络框架都允许我们定义“nice 寻找” URLs,它只包含 URL 路径中的参数
亚马逊URL
https://www.amazon.com/books-used-books-textbooks/b/?ie=UTF8&node=283155&ref_=nav_cs_books_788dc1d04dfe44a2b3249e7a7c245230
据我了解:
Parameters
ie=UTF8
node = 283155
ref_=nav_cs_books_788dc1d04dfe44a2b3249e7a7c245230
Key Values
ie UTF8
node 283155
ref_ nav_cs_books_788dc1d04dfe44a2b3249e7a7c245230
价格线URL
https://www.priceline.com/relax/in/3000005381/from/20210310/to/20210317/rooms/1?vrid=16e829a6d7ee5b5538fe51bb7e6925e8
此url是根据03/10/2021-03/17/2021在芝加哥的酒店预订。
据我了解:
key values
from 20210310 2021 - 03 -10
to 20210317 2021 - 03 -17
rooms 1
我没有发现更多。我只是确定我错过了什么吗?那些URLS能分析的更准确些吗?
可能有用的提示是:
可以通过 GET 或 POST 发布数据。您用 URL 描述的是 GET。 POST 是当您在 url.
中看不到任何内容时在这两种情况下,熟悉使用浏览器的开发人员控制台将有助于您探索网站的工作原理。在 Chrome 中,您可以按 F12 或右键单击任何元素,然后 select“检查元素”。这在尝试检查使用 POST 传递的数据时特别有用,因为您无法在 url 中看到它们。使用“网络”选项卡,同时点击以查看网站在后台执行的操作。
最后,看看网站吧。例如,当您浏览亚马逊时,您可能会注意到 url 看起来像 https://www.amazon.com/Avalon-Organics-Creme-Radiant-Renewal/dp/B082G172GL/?_encoding=UTF8 but if you play around with it you notice you can delete out the title and the url still works like this: https://www.amazon.com/dp/B082G172GL