如何从已保存的 html 页面获取图像
How to get images from a saved html page
我的 PC 中保存了大量 HTML 页面。我已经解析了 HTML 页面并获得了图像 src。我需要将图像存储在每个 HTML 页面中的特定结构中的单独目录中。我尝试了 NET::HTTP.get 但我收到文件名太长的错误。有什么办法吗??
以下是我尝试过的方法。
方法一:
{
require 'open-uri'
def save_image(imgsrc)
File.open("images/img1","w") do |f|
asdf = open(imgsrc).read
f.write(asdf)
end
end
}
方法二:
{
require 'NET::HTTP'
def save_image(imgsrc)
File.open("images/img1","w") do |f|
asdf = Net::HTTP.get_response(URI.parse(imgsrc)
f.write(asdf)
end
end
}
imgsrc => 
您已经有了图片,您发布的那张(在 imgsrc
变量中)是
您只需要使用base64模块对其进行解码,并将结果保存到文件中即可。
为了解码您的图像,我使用了 this service。
要使用 Base64 解码,您应该使用 #strict_decode64
方法:
$ cat testb64.rb
imgsrc='/9j/4AAQS... ...oooA//2Q==' #( snipped here your long variable,
# removed "data:image/jpeg;base64,"
# from the beginning )
require 'base64'
print Base64.strict_decode64(imgsrc)
$ ruby testb64.rb >img.jpg
$ xxd -p img.jpg
ffd8ffe000104a464946....
(valid JFIF header, viewable JPEG by Gwenview and Dolphin)
这应该有效:
require 'open-uri'
require 'base64'
require 'open-uri'
def save_image(imgsrc)
File.open("images/img1", "wb") do |fo|
fo.write(Base64.decode64(open(imgsrc).read))
end
end
它将保存到文件路径 "images/img1"
,因此您需要为每个文件创建单独的路径,否则它们将覆盖每个文件。
"wb"
表示使用二进制模式打开输出文件,这避免了适合您的 OS 的行尾转换。如果没有 b
,Ruby 将查找“\r”和“\n”,并根据需要为文本文件删除或添加它们,这将损坏二进制文件。 b
避免了这一步。这记录在 IO.new
description.
中
你不能通过
imgsrc => 
作为图像的 URL,因为那不是 URL。 OpenURI 和 Net::HTTP 都期望图像有一个 URL,然后它们将请求并读取结果响应,将数据返回给您的代码。您需要对该数据进行 Base64 解码,这将在内存中产生二进制字符串,然后您可以将其写入以二进制模式打开的文件。
我的 PC 中保存了大量 HTML 页面。我已经解析了 HTML 页面并获得了图像 src。我需要将图像存储在每个 HTML 页面中的特定结构中的单独目录中。我尝试了 NET::HTTP.get 但我收到文件名太长的错误。有什么办法吗??
以下是我尝试过的方法。
方法一:
{
require 'open-uri'
def save_image(imgsrc)
File.open("images/img1","w") do |f|
asdf = open(imgsrc).read
f.write(asdf)
end
end
}
方法二:
{
require 'NET::HTTP'
def save_image(imgsrc)
File.open("images/img1","w") do |f|
asdf = Net::HTTP.get_response(URI.parse(imgsrc)
f.write(asdf)
end
end
}
imgsrc => 
您已经有了图片,您发布的那张(在 imgsrc
变量中)是
您只需要使用base64模块对其进行解码,并将结果保存到文件中即可。
为了解码您的图像,我使用了 this service。
要使用 Base64 解码,您应该使用 #strict_decode64
方法:
$ cat testb64.rb
imgsrc='/9j/4AAQS... ...oooA//2Q==' #( snipped here your long variable,
# removed "data:image/jpeg;base64,"
# from the beginning )
require 'base64'
print Base64.strict_decode64(imgsrc)
$ ruby testb64.rb >img.jpg
$ xxd -p img.jpg
ffd8ffe000104a464946....
(valid JFIF header, viewable JPEG by Gwenview and Dolphin)
这应该有效:
require 'open-uri'
require 'base64'
require 'open-uri'
def save_image(imgsrc)
File.open("images/img1", "wb") do |fo|
fo.write(Base64.decode64(open(imgsrc).read))
end
end
它将保存到文件路径 "images/img1"
,因此您需要为每个文件创建单独的路径,否则它们将覆盖每个文件。
"wb"
表示使用二进制模式打开输出文件,这避免了适合您的 OS 的行尾转换。如果没有 b
,Ruby 将查找“\r”和“\n”,并根据需要为文本文件删除或添加它们,这将损坏二进制文件。 b
避免了这一步。这记录在 IO.new
description.
你不能通过
imgsrc => 
作为图像的 URL,因为那不是 URL。 OpenURI 和 Net::HTTP 都期望图像有一个 URL,然后它们将请求并读取结果响应,将数据返回给您的代码。您需要对该数据进行 Base64 解码,这将在内存中产生二进制字符串,然后您可以将其写入以二进制模式打开的文件。