从多个 HTML 页面中提取 <img> 元素(由 class 选择)的 src
Extract src of <img> element (selected by class) from multiple HTML pages
示例:
网站有 url https://images.com/Robots.aspx?ID=xxxx ,其中 xxxx 是 1 到 1935 之间的整数。
在每个给定的页面上可以有一个 <img class="thumbnail" src="Images\Robots\{robotname}.png">
。
并非所有页面都有此元素。
我需要提取所有现有的 {robotname} 变体,然后下载图像,但我很难理解如何将元素存储在对象中(例如 Python 或 JS)。
我如何开始/我可以阅读哪些内容?
在 Python 中,您可以使用 BeautifulSoup 并提取所有 img 标签 soup.find_all("img")
并从那里操作数据
- 使用 AJAX 循环下载每个页面。
- 用 jsdom 之类的东西解析 DOM。
- 使用带有 [
querySelectorAll()
] 的选择器。(https://developer.mozilla.org/en-US/docs/Web/API/Document/querySelectorAll) 获取每个图像元素。
- 在图像上使用正则表达式src-attribute 获取机器人名称。喜欢:
$img.src.match(/([^\/]+).png$/i)[1]
.
- 下载AJAX的所有机器人。
- 将机器人名称和下载的机器人组合成具有键值对的对象。
如果您需要更多帮助或代码示例,请告诉我。
示例:
网站有 url https://images.com/Robots.aspx?ID=xxxx ,其中 xxxx 是 1 到 1935 之间的整数。
在每个给定的页面上可以有一个 <img class="thumbnail" src="Images\Robots\{robotname}.png">
。
并非所有页面都有此元素。
我需要提取所有现有的 {robotname} 变体,然后下载图像,但我很难理解如何将元素存储在对象中(例如 Python 或 JS)。
我如何开始/我可以阅读哪些内容?
在 Python 中,您可以使用 BeautifulSoup 并提取所有 img 标签 soup.find_all("img")
并从那里操作数据
- 使用 AJAX 循环下载每个页面。
- 用 jsdom 之类的东西解析 DOM。
- 使用带有 [
querySelectorAll()
] 的选择器。(https://developer.mozilla.org/en-US/docs/Web/API/Document/querySelectorAll) 获取每个图像元素。 - 在图像上使用正则表达式src-attribute 获取机器人名称。喜欢:
$img.src.match(/([^\/]+).png$/i)[1]
. - 下载AJAX的所有机器人。
- 将机器人名称和下载的机器人组合成具有键值对的对象。
如果您需要更多帮助或代码示例,请告诉我。