swi 序言 8.0.2:gzip 压缩的 http
swi prolog 8.0.2 : gziped http
我试图让一段打开 http 连接的代码工作。
然而,网页可以以纯文本或 gzip 格式传输。
因此,具有实用主义的代码会尝试以纯文本形式打开,如果失败并收到异常,则尝试使用 gzip 编码。
URL 是接地的唯一变量。
例如,尝试使用 URL = 'http://releases.llvm.org/6.0.0/tools/clang/docs/ClangCommandLineReference.html'。
user::catch(
(
user::http_open(URL, DataStream, []),
user::load_html(stream(DataStream), Terms, []),
user::close(DataStream)
),
_
,
(
user::open_any(URL, read, GZipDataStream, CloseIt, [encoding(gzip), string(atom)]),
/*user::http:encoding_filter(gzip, DataStream, GZipDataStream),*/
user::load_html(stream(GZipDataStream), Terms, []),
user::close_any(CloseIt)
)
)
不幸的是,catch 的恢复部分不起作用。
有什么建议吗?
目标中的 user::
前缀表明您发布的代码是 Logtalk 的片段。如果是这样,它就是在滥用 Logtalk 源代码并创建对 SWI-Prolog 自动加载机制的依赖。为了清晰和弹性,可以重写代码。这样做并修复其中的错误(必须加载 library(zlib)
才能使 http:encoding_filter/3
过滤器可用)导致以下解决方案:
:- use_module(library(http/http_open), []).
:- use_module(library(sgml), []).
:- use_module(library(iostream), []).
:- use_module(library(zlib), []).
:- object(html).
:- public(get_url/2).
% override ambiguous meta-predicate template
:- meta_predicate(sgml:load_html(*,*,*)).
get_url(URL, Terms) :-
catch(
setup_call_cleanup(
http:http_open(URL, DataStream, []),
sgml:load_html(stream(DataStream), Terms, []),
close(DataStream)
),
_,
setup_call_cleanup(
iostream:open_any(URL, read, DataStream, CloseIt, [string(atom)]),
sgml:load_html(stream(DataStream), Terms, []),
iostream:close_any(CloseIt)
)
).
:- end_object.
setup_call_cleanup/3
调用确保在出现错误时关闭打开的流。
假设上面的对象保存在 html.lgt
文件中,以下示例调用显示它适用于您发布的 URL:
?- {html}.
...
% (0 warnings)
true.
?- html::get_url('http://releases.llvm.org/6.0.0/tools/clang/docs/ClangCommandLineReference.html', Terms).
Terms = [element(html, [xmlns='http://www.w3.org/1999/xhtml'], [element(head, [], [element(meta, ['http-equiv'='Content-Type', content='text/html; charset=utf-8'], []), element(title, [], ['Clang command line argument reference — Clang 6 documentation']), element(link, [... = ...|...], []), element(link, [...|...], []), element(..., ..., ...)|...]), element(body, [role=document], [' ', element(div, [... = ...|...], [element(..., ..., ...)|...]), '\n ', element(..., ..., ...)|...])])].
我试图让一段打开 http 连接的代码工作。 然而,网页可以以纯文本或 gzip 格式传输。 因此,具有实用主义的代码会尝试以纯文本形式打开,如果失败并收到异常,则尝试使用 gzip 编码。
URL 是接地的唯一变量。 例如,尝试使用 URL = 'http://releases.llvm.org/6.0.0/tools/clang/docs/ClangCommandLineReference.html'。
user::catch(
(
user::http_open(URL, DataStream, []),
user::load_html(stream(DataStream), Terms, []),
user::close(DataStream)
),
_
,
(
user::open_any(URL, read, GZipDataStream, CloseIt, [encoding(gzip), string(atom)]),
/*user::http:encoding_filter(gzip, DataStream, GZipDataStream),*/
user::load_html(stream(GZipDataStream), Terms, []),
user::close_any(CloseIt)
)
)
不幸的是,catch 的恢复部分不起作用。
有什么建议吗?
目标中的 user::
前缀表明您发布的代码是 Logtalk 的片段。如果是这样,它就是在滥用 Logtalk 源代码并创建对 SWI-Prolog 自动加载机制的依赖。为了清晰和弹性,可以重写代码。这样做并修复其中的错误(必须加载 library(zlib)
才能使 http:encoding_filter/3
过滤器可用)导致以下解决方案:
:- use_module(library(http/http_open), []).
:- use_module(library(sgml), []).
:- use_module(library(iostream), []).
:- use_module(library(zlib), []).
:- object(html).
:- public(get_url/2).
% override ambiguous meta-predicate template
:- meta_predicate(sgml:load_html(*,*,*)).
get_url(URL, Terms) :-
catch(
setup_call_cleanup(
http:http_open(URL, DataStream, []),
sgml:load_html(stream(DataStream), Terms, []),
close(DataStream)
),
_,
setup_call_cleanup(
iostream:open_any(URL, read, DataStream, CloseIt, [string(atom)]),
sgml:load_html(stream(DataStream), Terms, []),
iostream:close_any(CloseIt)
)
).
:- end_object.
setup_call_cleanup/3
调用确保在出现错误时关闭打开的流。
假设上面的对象保存在 html.lgt
文件中,以下示例调用显示它适用于您发布的 URL:
?- {html}.
...
% (0 warnings)
true.
?- html::get_url('http://releases.llvm.org/6.0.0/tools/clang/docs/ClangCommandLineReference.html', Terms).
Terms = [element(html, [xmlns='http://www.w3.org/1999/xhtml'], [element(head, [], [element(meta, ['http-equiv'='Content-Type', content='text/html; charset=utf-8'], []), element(title, [], ['Clang command line argument reference — Clang 6 documentation']), element(link, [... = ...|...], []), element(link, [...|...], []), element(..., ..., ...)|...]), element(body, [role=document], [' ', element(div, [... = ...|...], [element(..., ..., ...)|...]), '\n ', element(..., ..., ...)|...])])].