从多个 HTML 页面中提取 <img> 元素(由 class 选择)的 src

Extract src of <img> element (selected by class) from multiple HTML pages

示例:

网站有 url https://images.com/Robots.aspx?ID=xxxx ,其中 xxxx 是 1 到 1935 之间的整数。

在每个给定的页面上可以有一个 <img class="thumbnail" src="Images\Robots\{robotname}.png">。 并非所有页面都有此元素。

我需要提取所有现有的 {robotname} 变体,然后下载图像,但我很难理解如何将元素存储在对象中(例如 Python 或 JS)。

我如何开始/我可以阅读哪些内容?

在 Python 中,您可以使用 BeautifulSoup 并提取所有 img 标签 soup.find_all("img") 并从那里操作数据

  1. 使用 AJAX 循环下载每个页面。
  2. jsdom 之类的东西解析 DOM。
  3. 使用带有 [querySelectorAll()] 的选择器。(https://developer.mozilla.org/en-US/docs/Web/API/Document/querySelectorAll) 获取每个图像元素。
  4. 在图像上使用正则表达式src-attribute 获取机器人名称。喜欢:$img.src.match(/([^\/]+).png$/i)[1].
  5. 下载AJAX的所有机器人。
  6. 将机器人名称和下载的机器人组合成具有键值对的对象。

如果您需要更多帮助或代码示例,请告诉我。