WWW::Mechanize 提取帮助 - PERL

WWW::Mechanize Extraction Help - PERL

我正在尝试自动提取在网站上找到的文字记录。由于该网站在描述列表中对采访进行了格式化,因此可以在 dl 标签之间找到整个成绩单。下面的脚本允许我搜索站点并以纯文本格式提取文本,但实际上我正在寻找它以包含 dl 标记之间的所有内容,即 dd、dt 等。这将使我们能够为面试开发我们自己的CSS。

关于该页面需要注意的一点是,在采访期间的不同位置插入了 break 语句。我们发现一些使用配对从网页中提取信息的工具发现这是一个问题,因为它只抓取 break 语句之前的信息。如果您将我指向不同的方向,请记住一些事情。这是我目前所拥有的。

#!/usr/bin/perl -w

use strict;
use WWW::Mechanize;
use WWW::Mechanize::TreeBuilder;

my $mech = WWW::Mechanize->new();
WWW::Mechanize::TreeBuilder->meta->apply($mech);
$mech->get("http://millercenter.org/president/clinton/oralhistory/madeleine-k-albright");

# find all <dl> tags
my @list = $mech->find('dl');

foreach ( @list ) {
print $_->as_text();
}

如果有一个工具可以打印出我所拥有的东西,只是这次是 HTML,请告诉我!

您的代码没问题,只需将 as_text() 方法更改为 as_HTML() 即可显示包含 HTML 标签的内容。