下载一个网站的源代码

Download Source Code of a website

我想从一个网页下载 html 代码源。我可以用 HTTP Client 做到这一点吗? 在这种情况下,我必须先生成行吗? 我正在使用 Pentaho Data Integration 6,谢谢。

要从网页下载 HTML,您应该使用 HTTP Client。来自 documentation:

The HTTP client step doesn't do anything

Q: The HTTP client step doesn't do anything, how do I make it work?

A: The HTTP client step needs to be triggered. Use a Row generator step generating e.g. 1 empty row and link that with a hop to the HTTP client step.

所以你需要先有行。例如,将 Generate RowsData Grid 与您要获取的 url 一起使用。

如果您只是添加网页的 url,您希望 HTML 在 HTTP Client 中,HTML 将被放入 result