Nutch 2.3如何以HBase为后端爬取图片?
How to crawl images in Nutch 2.3 as HBase as backend?
我想从某些网站抓取图片。到目前为止,我尝试修改
正则表达式-urlfilter.txt.
我改了:
-\.(gif|GIF|jpg|JPG|png|PNG|ico|ICO|css|CSS|sit|SIT|eps|EPS|wmf|WMF|zip|ZIP|ppt|PP
T|mpg|MPG|xls|XLS|gz|GZ|rpm|RPM|tgz|TGZ|mov|MOV|exe|EXE|jpeg|JPEG|bmp|BMP|js|JS)$
收件人:
-\.(css|CSS|sit|SIT|eps|EPS|wmf|WMF|zip|ZIP|ppt|PPT|mpg|MPG|xls|XLS|gz|GZ|rpm|RPM|t
gz|TGZ|mov|MOV|exe|EXE|js|JS)$
但是没有用。令我惊讶的是,我没有找到任何关于 使用 Nutch 2.3 抓取图像的文档。参考任何现有文档确实会有很大帮助。
要使用 Nutch 获取和存储图像,您必须遵循以下步骤:
1- 添加正则表达式以不过滤图像格式,例如 jpg、jpeg、tif、gif、png 等...(您已经这样做了)
2- 实现用于解析图像的解析插件。有关 Nutch 扩展点和编写所需插件的更多信息,请访问以下链接:
http://wiki.apache.org/nutch/AboutPlugins
http://wiki.apache.org/nutch/WritingPluginExample
3- 告诉 Nutch 已实现的插件并将其用于图像文件格式:
为此,您必须执行两个不同的步骤,首先,修改 conf/parse-plugins.xml 并将您实现的插件映射到图像文件格式:
<mimeType name="image/jpeg">
<plugin id="parse-image" />
</mimeType>
<mimeType name="image/gif">
<plugin id="parse-image" />
</mimeType>
<mimeType name="image/png">
<plugin id="parse-image" />
</mimeType>
其次,将实现的插件添加到nutch-site.xml
成为Nutch运行时的运行。您必须将已实现的插件添加到 <plugin.includes>
属性.
我想从某些网站抓取图片。到目前为止,我尝试修改 正则表达式-urlfilter.txt.
我改了:
-\.(gif|GIF|jpg|JPG|png|PNG|ico|ICO|css|CSS|sit|SIT|eps|EPS|wmf|WMF|zip|ZIP|ppt|PP
T|mpg|MPG|xls|XLS|gz|GZ|rpm|RPM|tgz|TGZ|mov|MOV|exe|EXE|jpeg|JPEG|bmp|BMP|js|JS)$
收件人:
-\.(css|CSS|sit|SIT|eps|EPS|wmf|WMF|zip|ZIP|ppt|PPT|mpg|MPG|xls|XLS|gz|GZ|rpm|RPM|t
gz|TGZ|mov|MOV|exe|EXE|js|JS)$
但是没有用。令我惊讶的是,我没有找到任何关于 使用 Nutch 2.3 抓取图像的文档。参考任何现有文档确实会有很大帮助。
要使用 Nutch 获取和存储图像,您必须遵循以下步骤:
1- 添加正则表达式以不过滤图像格式,例如 jpg、jpeg、tif、gif、png 等...(您已经这样做了)
2- 实现用于解析图像的解析插件。有关 Nutch 扩展点和编写所需插件的更多信息,请访问以下链接:
http://wiki.apache.org/nutch/AboutPlugins
http://wiki.apache.org/nutch/WritingPluginExample
3- 告诉 Nutch 已实现的插件并将其用于图像文件格式:
为此,您必须执行两个不同的步骤,首先,修改 conf/parse-plugins.xml 并将您实现的插件映射到图像文件格式:
<mimeType name="image/jpeg">
<plugin id="parse-image" />
</mimeType>
<mimeType name="image/gif">
<plugin id="parse-image" />
</mimeType>
<mimeType name="image/png">
<plugin id="parse-image" />
</mimeType>
其次,将实现的插件添加到nutch-site.xml
成为Nutch运行时的运行。您必须将已实现的插件添加到 <plugin.includes>
属性.