Mojo::DOMHTML提取
Mojo::DOM HTML extraction
我正在尝试从结构完美的网页中提取相当多的数据并努力使用 Mojo::DOM
方法。如果有人能指出正确的方向,我将不胜感激。
带有有趣数据的截断 HTML 如下:
<div class="post" data-story-id="3964117" data-visited="false">//extracting story-id
<h2 class="post_title page_title"><a href="http://example.com/story/some_url" class="to-comments">header.</a></h2>
//useless data and tags
<a href="http://example.com/story/some_url" class="b-story__show-all">
<span>useless data</span>
</a>
<div class="post_tags">
<ul>
<li class="post_tag post_tag_strawberry hidden"><a href="http://example.com/search.php?n=32&r=3"> </a></li>
<li class="post_tag"><a href="http://example.com/tag/tag1/hot">tag1</a></li>
<li class="post_tag"><a href="http://example.com/tag/tag2/hot">tag2</a></li>
<li class="post_tag"><a href="http://example.com/tag/tag1/hot">tag3</a></li>
</ul>
</div>
<div class="post_actions_box">
<div class="post_rating_box">
<ul data-story-id="3964117" data-vote="0" data-can-vote="true">
<li><span class="post_rating post_rating_up control"> </span></li>
<li><span class="post_rating_count control label">1956</span></li> //1956 - interesting value
<li><span class="post_rating post_rating_down control"> </span></li>
</ul>
</div>
<div class="post_more_box">
<ul>
<li>
<span class="post_more control"> </span>
</li>
<li>
<a class="post_comments_count label to-comments" href="http://example.com/story/some_url#comments">132 <i> </i></a>
</li>
</ul>
</div>
</div>
</div>
我现在拥有的是
use strict;
use warnings;
use Data::Dumper;
use Mojo::DOM;
my $file = "index2.html";
local( $/, *FH ) ;
open( FH, $file ) or die "sudden flaming death\n";
my $text = <FH>;
my $dom = Mojo::DOM->new;
$dom->parse($text);
my $ids = $dom->find('div.post')
->each (sub {print $_->attr('data-story-id'), "\n";});
$dom->find('a.to-comments')->each (sub {print $_->text, "\n";});
这个混乱从 src 和 header 值中提取 data-story-id
(用 href 值测试相同),但我所有其他尝试都失败了。
3964117
Header
132
"post_rating_count control label" 未提取。我可以通过搜索 a.to-comments
并返回 attr('href')
来获得第一个 href 值,但出于某种原因,它还会在带有 [=19= 的段末尾返回 link 的值]. header 值提取也是如此。
最后,我正在寻找一个具有以下字段的数据结构的数组:
- story-id(这是成功)
- href(不知何故,匹配的比需要的多。)
- header(不知何故,匹配的比需要的多。)
- 作为字符串的标签列表(不知道该怎么做)
另外,我觉得可以优化代码,让它看起来更好一点,但是我的kung-fu没那么强
正如我在评论中所说,您的 HTML 格式错误。我猜到丢失的 <div>
可能会去哪里,但我可能错了。我假设数据中的最后一个 </div>
对应于第一个 <div>
,因此整个块构成一个 post
您遇到的主要问题是试图在 Mojo::Collection
对象的 each
方法调用中执行所有操作。使用 Perl 迭代每个集合要容易得多,就像这样
use strict;
use warnings;
use Mojo::DOM;
use constant HTML_FILE => 'index2.html';
my $html = do {
open my $fh, '<', HTML_FILE or die $!;
local $/;
<$fh>;
};
my $dom = Mojo::DOM->new($html);
for my $post ( $dom->find('div.post')->each ) {
printf "Post ID: %s\n", $post->attr('data-story-id');
my $anchor = $post->at('h2.post_title > a');
printf "Post href: %s\n", $anchor->attr('href');
printf "Post header: %s\n", $anchor->text;
my @tags = $post->find('li.post_tag > a')->map('text')->each;
printf "Tags: %s\n", join ', ', @tags;
print "\n";
}
输出
Post ID: 3964117
Post href: http://example.com/story/some_url
Post header: Header
Tags: some_value, tag1, tag2, tag3
我正在尝试从结构完美的网页中提取相当多的数据并努力使用 Mojo::DOM
方法。如果有人能指出正确的方向,我将不胜感激。
带有有趣数据的截断 HTML 如下:
<div class="post" data-story-id="3964117" data-visited="false">//extracting story-id
<h2 class="post_title page_title"><a href="http://example.com/story/some_url" class="to-comments">header.</a></h2>
//useless data and tags
<a href="http://example.com/story/some_url" class="b-story__show-all">
<span>useless data</span>
</a>
<div class="post_tags">
<ul>
<li class="post_tag post_tag_strawberry hidden"><a href="http://example.com/search.php?n=32&r=3"> </a></li>
<li class="post_tag"><a href="http://example.com/tag/tag1/hot">tag1</a></li>
<li class="post_tag"><a href="http://example.com/tag/tag2/hot">tag2</a></li>
<li class="post_tag"><a href="http://example.com/tag/tag1/hot">tag3</a></li>
</ul>
</div>
<div class="post_actions_box">
<div class="post_rating_box">
<ul data-story-id="3964117" data-vote="0" data-can-vote="true">
<li><span class="post_rating post_rating_up control"> </span></li>
<li><span class="post_rating_count control label">1956</span></li> //1956 - interesting value
<li><span class="post_rating post_rating_down control"> </span></li>
</ul>
</div>
<div class="post_more_box">
<ul>
<li>
<span class="post_more control"> </span>
</li>
<li>
<a class="post_comments_count label to-comments" href="http://example.com/story/some_url#comments">132 <i> </i></a>
</li>
</ul>
</div>
</div>
</div>
我现在拥有的是
use strict;
use warnings;
use Data::Dumper;
use Mojo::DOM;
my $file = "index2.html";
local( $/, *FH ) ;
open( FH, $file ) or die "sudden flaming death\n";
my $text = <FH>;
my $dom = Mojo::DOM->new;
$dom->parse($text);
my $ids = $dom->find('div.post')
->each (sub {print $_->attr('data-story-id'), "\n";});
$dom->find('a.to-comments')->each (sub {print $_->text, "\n";});
这个混乱从 src 和 header 值中提取 data-story-id
(用 href 值测试相同),但我所有其他尝试都失败了。
3964117
Header
132
"post_rating_count control label" 未提取。我可以通过搜索 a.to-comments
并返回 attr('href')
来获得第一个 href 值,但出于某种原因,它还会在带有 [=19= 的段末尾返回 link 的值]. header 值提取也是如此。
最后,我正在寻找一个具有以下字段的数据结构的数组:
- story-id(这是成功)
- href(不知何故,匹配的比需要的多。)
- header(不知何故,匹配的比需要的多。)
- 作为字符串的标签列表(不知道该怎么做)
另外,我觉得可以优化代码,让它看起来更好一点,但是我的kung-fu没那么强
正如我在评论中所说,您的 HTML 格式错误。我猜到丢失的 <div>
可能会去哪里,但我可能错了。我假设数据中的最后一个 </div>
对应于第一个 <div>
,因此整个块构成一个 post
您遇到的主要问题是试图在 Mojo::Collection
对象的 each
方法调用中执行所有操作。使用 Perl 迭代每个集合要容易得多,就像这样
use strict;
use warnings;
use Mojo::DOM;
use constant HTML_FILE => 'index2.html';
my $html = do {
open my $fh, '<', HTML_FILE or die $!;
local $/;
<$fh>;
};
my $dom = Mojo::DOM->new($html);
for my $post ( $dom->find('div.post')->each ) {
printf "Post ID: %s\n", $post->attr('data-story-id');
my $anchor = $post->at('h2.post_title > a');
printf "Post href: %s\n", $anchor->attr('href');
printf "Post header: %s\n", $anchor->text;
my @tags = $post->find('li.post_tag > a')->map('text')->each;
printf "Tags: %s\n", join ', ', @tags;
print "\n";
}
输出
Post ID: 3964117
Post href: http://example.com/story/some_url
Post header: Header
Tags: some_value, tag1, tag2, tag3