正在用格式化文本解析 HTML
Parsing HTML with formatted text
我正在使用 DOMDocument 解析 HTML 网页。
这是我的代码:
$doc = new DOMDocument();
$doc->strictErrorChecking = false;
$input = file_get_contents($url); //Url passato come parametro
$doc->loadHTML( $input );
$xpath = new DOMXpath($doc);
$article = $xpath->query('//div[@class="entry-container fix"]');
在 $article 中,我将所有文本都放在 "entry-container fix" Div 中。
但是网页中的这段文字是有格式的。
简单举例:
<div>
<p> Text <strong> Strong text </strong> </p>
</div>
在我的代码中,我丢失了所有粗体、意大利字符、所有段落等等...
有没有办法获取所有格式化的文本?
为什么不使用保存HTML函数来提取HTML(这里是link:http://php.net/manual/fr/domdocument.savehtml.php)。它看起来像这样:
$sFormated = $doc->saveHTML($article->item(0));
我正在使用 DOMDocument 解析 HTML 网页。
这是我的代码:
$doc = new DOMDocument();
$doc->strictErrorChecking = false;
$input = file_get_contents($url); //Url passato come parametro
$doc->loadHTML( $input );
$xpath = new DOMXpath($doc);
$article = $xpath->query('//div[@class="entry-container fix"]');
在 $article 中,我将所有文本都放在 "entry-container fix" Div 中。
但是网页中的这段文字是有格式的。 简单举例:
<div>
<p> Text <strong> Strong text </strong> </p>
</div>
在我的代码中,我丢失了所有粗体、意大利字符、所有段落等等... 有没有办法获取所有格式化的文本?
为什么不使用保存HTML函数来提取HTML(这里是link:http://php.net/manual/fr/domdocument.savehtml.php)。它看起来像这样:
$sFormated = $doc->saveHTML($article->item(0));