使用 Perl 定位 HTML 中的单个元素,使用格式良好的 HTML 定位 Mojo::DOM
Targeting individual elements in HTML using Perl and Mojo::DOM in well-formated HTML
Perl 的相对初学者,这里是我的第一个问题,尝试以下操作:
我正在尝试从大型在线数据集 (Eur-Lex) 中检索某些信息,其中每个 HTML 文档都是格式正确的 HTML,具有常量元素。每个 HTML 文件都由其 Celex 编号标识,该编号作为参数提供给脚本(请参阅下面我的 Perl 代码)。
HTML 数据如下所示(仅显示我感兴趣的部分):
<!--
<blahblah>
< lots of stuff here, before the interesting part>
-->
<div id="PPClass_Contents" class="panel-collapse collapse in" role="tabpanel"
aria-labelledby="PP_Class">
<div class="panel-body">
<dl class="NMetadata">
<dt xmlns="http://www.w3.org/1999/xhtml">EUROVOC descriptor: </dt>
<dd xmlns="http://www.w3.org/1999/xhtml">
<ul>
<li>
<a href="./../../../search.html?type=advanced&DTS_DOM=ALL&DTS_SUBDOM=ALL_ALL&SUBDOM_INIT=ALL_ALL&DC_CODED=341&lang=en">
<span lang="en">descriptor_1</span>
</a>
</li>
<li>
<a href="./../../../search.html?type=advanced&DTS_DOM=ALL&DTS_SUBDOM=ALL_ALL&SUBDOM_INIT=ALL_ALL&DC_CODED=5158&lang=en">
<span lang="en">descriptor_2</span>
</a>
</li>
<li>
<a href="./../../../search.html?type=advanced&DTS_DOM=ALL&DTS_SUBDOM=ALL_ALL&SUBDOM_INIT=ALL_ALL&DC_CODED=7983&lang=en">
<span lang="en">descriptor_3</span>
</a>
</li>
<li>
<a href="./../../../search.html?type=advanced&DTS_DOM=ALL&DTS_SUBDOM=ALL_ALL&SUBDOM_INIT=ALL_ALL&DC_CODED=933&lang=en">
<span lang="en">descriptor_4</span>
</a>
</li>
</ul>
</dd>
<dt xmlns="http://www.w3.org/1999/xhtml">Subject matter: </dt>
<dd xmlns="http://www.w3.org/1999/xhtml">
<ul>
<li>
<a href="./../../../search.html?type=advanced&DTS_DOM=ALL&DTS_SUBDOM=ALL_ALL&SUBDOM_INIT=ALL_ALL&CT_CODED=BUDG&lang=en">
<span lang="en">Subject_1</span>
</a>
</li>
</ul>
</dd>
<dt xmlns="http://www.w3.org/1999/xhtml">Directory code: </dt>
<dd xmlns="http://www.w3.org/1999/xhtml">
<ul>
<li>01.60.20.00 <a href="./../../../search.html?type=advanced&DTS_DOM=ALL&DTS_SUBDOM=ALL_ALL&SUBDOM_INIT=ALL_ALL&CC_1_CODED=01&lang=en">
<span lang="en">Designation_level_1</span>
</a> / <a href="./../../../search.html?type=advanced&DTS_DOM=ALL&DTS_SUBDOM=ALL_ALL&SUBDOM_INIT=ALL_ALL&CC_2_CODED=0160&lang=en">
<span lang="en">Designation_level_2</span>
</a> / <a href="./../../../search.html?type=advanced&DTS_DOM=ALL&DTS_SUBDOM=ALL_ALL&SUBDOM_INIT=ALL_ALL&CC_3_CODED=016020&lang=en">
<span lang="en">Designation_level_3</span>
</a>
</li>
</ul>
</dd>
</dl>
</div>
</div>
</div>
<!--
<still more stuff here>
-->
我对"PPClass_Contents" div id中包含的信息感兴趣,它由3个元素组成:
- EUROVOC 描述符:
- 主题:
- 目录代码:
基于上述HTML,我想获取这 3 个主要元素的子元素,使用 Perl 和 Mojo,得到与此类似的结果(单行文本文件,3 组由制表符分隔,一个组内的多个子元素用竖线字符分隔,像这样:
CELEX_No "TAB" descriptor_1|descriptor_2|descriptor_3|descriptor_4|..|descriptor_n "TAB" Subject_1|..|Subject_n "TAB" Designation_level_1|Designation_level_2|Designation_level_3|..|Designation_level_n
"descriptors"、"Subjects" 和 "Designation_levels" 元素(这 3 个主要组的子元素)可以从 1 到 "n",数量不固定,并且是事先不知道。
我有以下代码,它确实打印出有趣部分的纯文本,但我需要解决 individual 元素并将它们打印到新文件中,如上所述:
#!/usr/bin/perl
# returns "Classification" 给定 CELEX 和语言的描述符
使用严格;
使用警告;
使用 Mojo::UserAgent;
如果($#ARGV ne "1"){
打印"Wrong number of arguments!\n";
打印"Syntax: clookup.pl Lang_ID celex_No.\n";
退出-1;
}
我的 $lang = $ARGV[0];
我的 $celex = $ARGV[1];
我的 $lclang = lc $lang;
# 获取 eurlex 页面
我的 $ua = Mojo::UserAgent->new;
我的 $dom = $ua->get("https://eur-lex.europa.eu/legal-content/$lang/ALL/?uri=CELEX:$celex")->res->dom;
################ 让我们提取有趣的部分:
我的 $text = $dom->at('#PPClass_Contents')->all_text;
打印“$text\n”;
编辑(添加):
您可以使用两个参数尝试我的 Perl 脚本:
lang_code("DE"、"EN"、"IT" 等)
Celex 编号(例如:E2014C0303、52015BP2212、52015BP0930(48)、52015BP0930(36)、52015BP0930(41)、E2014C0302、E2014C0301、E2014C0271=1E274=1E201)。 48=]
例如(如果您将我的脚本命名为 "clookup.pl"):
$ perl clookup.pl EN E2014C0303
那么,我如何使用 Mojo::DOM 解决上述 indiv 个相同元素(未知数量)?
或者,是否有更简单或更快的方法(使用 Perl)?
你走在正确的轨道上。首先,您需要了解 #PPClass_Contents
中的 HTML。每组事物都在一个定义列表中。由于您只关心定义文本,因此可以直接搜索 <dd>
元素。
$dom->at('#PPClass_Contents')->find('dd')
这会给你一个Mojo::Collection, which you can iterate with ->each
。我们传递一个匿名函数,非常像回调。
$dom->at('#PPClass_Contents')->find('dd')->each(sub {
$_; # this is the current element
});
每个元素都将传递给该子项,并且可以使用主题变量 $_
进行引用。里面有一个 <ul>
,每个 <li>
包含一个 <span>
元素,里面有你想要的文本。所以让我们找到那些。
$_->find('span')
我们可以在此阶段直接在您的输出中构建该列。让我们使用 ->each
的另一种形式,它将 ->find
返回的 Mojo::Collection 转换为普通的 Perl 列表。然后我们可以使用正则 map
operation to grab each <span>
's text node and join
将其转换为字符串。
join '|', map { $_->text } $_->find('span')->each
为了将所有这些结合在一起,我们在该构造之外声明了一个数组,并将 $celex
数字作为第一列粘贴在其中。
my @columns = ($celex);
$dom->at('#PPClass_Contents')->find('dd')->each(sub {
push @columns, join '|', map { $_->text } $_->find('span')->each;
});
生成最终的制表符分隔输出现在很简单。
print join "\t", @columns;
我使用 EN
作为语言和 $celex
数字 32006L0121 完成了此操作,搜索在其示例工具提示中使用了该数字。结果是这样的:
32006L0121 marketing standard|chemical product|approximation of laws|dangerous substance|scientific report|packaging|European Chemicals Agency|labelling Internal market - Principles|Approximation of laws|Technical barriers|Environment|Consumer protection Industrial policy and internal market|Internal market: approximation of laws|Dangerous substances
Perl 的相对初学者,这里是我的第一个问题,尝试以下操作:
我正在尝试从大型在线数据集 (Eur-Lex) 中检索某些信息,其中每个 HTML 文档都是格式正确的 HTML,具有常量元素。每个 HTML 文件都由其 Celex 编号标识,该编号作为参数提供给脚本(请参阅下面我的 Perl 代码)。 HTML 数据如下所示(仅显示我感兴趣的部分):
<!--
<blahblah>
< lots of stuff here, before the interesting part>
-->
<div id="PPClass_Contents" class="panel-collapse collapse in" role="tabpanel"
aria-labelledby="PP_Class">
<div class="panel-body">
<dl class="NMetadata">
<dt xmlns="http://www.w3.org/1999/xhtml">EUROVOC descriptor: </dt>
<dd xmlns="http://www.w3.org/1999/xhtml">
<ul>
<li>
<a href="./../../../search.html?type=advanced&DTS_DOM=ALL&DTS_SUBDOM=ALL_ALL&SUBDOM_INIT=ALL_ALL&DC_CODED=341&lang=en">
<span lang="en">descriptor_1</span>
</a>
</li>
<li>
<a href="./../../../search.html?type=advanced&DTS_DOM=ALL&DTS_SUBDOM=ALL_ALL&SUBDOM_INIT=ALL_ALL&DC_CODED=5158&lang=en">
<span lang="en">descriptor_2</span>
</a>
</li>
<li>
<a href="./../../../search.html?type=advanced&DTS_DOM=ALL&DTS_SUBDOM=ALL_ALL&SUBDOM_INIT=ALL_ALL&DC_CODED=7983&lang=en">
<span lang="en">descriptor_3</span>
</a>
</li>
<li>
<a href="./../../../search.html?type=advanced&DTS_DOM=ALL&DTS_SUBDOM=ALL_ALL&SUBDOM_INIT=ALL_ALL&DC_CODED=933&lang=en">
<span lang="en">descriptor_4</span>
</a>
</li>
</ul>
</dd>
<dt xmlns="http://www.w3.org/1999/xhtml">Subject matter: </dt>
<dd xmlns="http://www.w3.org/1999/xhtml">
<ul>
<li>
<a href="./../../../search.html?type=advanced&DTS_DOM=ALL&DTS_SUBDOM=ALL_ALL&SUBDOM_INIT=ALL_ALL&CT_CODED=BUDG&lang=en">
<span lang="en">Subject_1</span>
</a>
</li>
</ul>
</dd>
<dt xmlns="http://www.w3.org/1999/xhtml">Directory code: </dt>
<dd xmlns="http://www.w3.org/1999/xhtml">
<ul>
<li>01.60.20.00 <a href="./../../../search.html?type=advanced&DTS_DOM=ALL&DTS_SUBDOM=ALL_ALL&SUBDOM_INIT=ALL_ALL&CC_1_CODED=01&lang=en">
<span lang="en">Designation_level_1</span>
</a> / <a href="./../../../search.html?type=advanced&DTS_DOM=ALL&DTS_SUBDOM=ALL_ALL&SUBDOM_INIT=ALL_ALL&CC_2_CODED=0160&lang=en">
<span lang="en">Designation_level_2</span>
</a> / <a href="./../../../search.html?type=advanced&DTS_DOM=ALL&DTS_SUBDOM=ALL_ALL&SUBDOM_INIT=ALL_ALL&CC_3_CODED=016020&lang=en">
<span lang="en">Designation_level_3</span>
</a>
</li>
</ul>
</dd>
</dl>
</div>
</div>
</div>
<!--
<still more stuff here>
-->
我对"PPClass_Contents" div id中包含的信息感兴趣,它由3个元素组成:
- EUROVOC 描述符: - 主题: - 目录代码:
基于上述HTML,我想获取这 3 个主要元素的子元素,使用 Perl 和 Mojo,得到与此类似的结果(单行文本文件,3 组由制表符分隔,一个组内的多个子元素用竖线字符分隔,像这样:
CELEX_No "TAB" descriptor_1|descriptor_2|descriptor_3|descriptor_4|..|descriptor_n "TAB" Subject_1|..|Subject_n "TAB" Designation_level_1|Designation_level_2|Designation_level_3|..|Designation_level_n
"descriptors"、"Subjects" 和 "Designation_levels" 元素(这 3 个主要组的子元素)可以从 1 到 "n",数量不固定,并且是事先不知道。
我有以下代码,它确实打印出有趣部分的纯文本,但我需要解决 individual 元素并将它们打印到新文件中,如上所述:
#!/usr/bin/perl # returns "Classification" 给定 CELEX 和语言的描述符 使用严格; 使用警告; 使用 Mojo::UserAgent; 如果($#ARGV ne "1"){ 打印"Wrong number of arguments!\n"; 打印"Syntax: clookup.pl Lang_ID celex_No.\n"; 退出-1; } 我的 $lang = $ARGV[0]; 我的 $celex = $ARGV[1]; 我的 $lclang = lc $lang; # 获取 eurlex 页面 我的 $ua = Mojo::UserAgent->new; 我的 $dom = $ua->get("https://eur-lex.europa.eu/legal-content/$lang/ALL/?uri=CELEX:$celex")->res->dom; ################ 让我们提取有趣的部分: 我的 $text = $dom->at('#PPClass_Contents')->all_text; 打印“$text\n”;
编辑(添加): 您可以使用两个参数尝试我的 Perl 脚本:
lang_code("DE"、"EN"、"IT" 等)
Celex 编号(例如:E2014C0303、52015BP2212、52015BP0930(48)、52015BP0930(36)、52015BP0930(41)、E2014C0302、E2014C0301、E2014C0271=1E274=1E201)。 48=]
例如(如果您将我的脚本命名为 "clookup.pl"):
$ perl clookup.pl EN E2014C0303
那么,我如何使用 Mojo::DOM 解决上述 indiv 个相同元素(未知数量)?
或者,是否有更简单或更快的方法(使用 Perl)?
你走在正确的轨道上。首先,您需要了解 #PPClass_Contents
中的 HTML。每组事物都在一个定义列表中。由于您只关心定义文本,因此可以直接搜索 <dd>
元素。
$dom->at('#PPClass_Contents')->find('dd')
这会给你一个Mojo::Collection, which you can iterate with ->each
。我们传递一个匿名函数,非常像回调。
$dom->at('#PPClass_Contents')->find('dd')->each(sub {
$_; # this is the current element
});
每个元素都将传递给该子项,并且可以使用主题变量 $_
进行引用。里面有一个 <ul>
,每个 <li>
包含一个 <span>
元素,里面有你想要的文本。所以让我们找到那些。
$_->find('span')
我们可以在此阶段直接在您的输出中构建该列。让我们使用 ->each
的另一种形式,它将 ->find
返回的 Mojo::Collection 转换为普通的 Perl 列表。然后我们可以使用正则 map
operation to grab each <span>
's text node and join
将其转换为字符串。
join '|', map { $_->text } $_->find('span')->each
为了将所有这些结合在一起,我们在该构造之外声明了一个数组,并将 $celex
数字作为第一列粘贴在其中。
my @columns = ($celex);
$dom->at('#PPClass_Contents')->find('dd')->each(sub {
push @columns, join '|', map { $_->text } $_->find('span')->each;
});
生成最终的制表符分隔输出现在很简单。
print join "\t", @columns;
我使用 EN
作为语言和 $celex
数字 32006L0121 完成了此操作,搜索在其示例工具提示中使用了该数字。结果是这样的:
32006L0121 marketing standard|chemical product|approximation of laws|dangerous substance|scientific report|packaging|European Chemicals Agency|labelling Internal market - Principles|Approximation of laws|Technical barriers|Environment|Consumer protection Industrial policy and internal market|Internal market: approximation of laws|Dangerous substances