php - 如何从 url 获取元标记

php - how to get meta tags from url

我想从 url 获取元标记。如果有数据属性值,则无法正常提取。如何更改正则表达式?

HTML代码

1. <meta property="og:title" content="111">
2. <meta data-one="true" property="og:description" content="222">
3. <meta data-two="true" property="og:image" content="333">
4. <meta data-three="true" data-another="true" property="og:url" content="444">

PHP代码

preg_match_all('~<\s*meta\s*property="(og:[^"]+)"\s*content="([^"]*)~i', $html, $matches);

结果

Array(
  [0] => og:title
)

希望结果

Array(
  [0] => og:title,
  [1] => og:description,
  [2] => og:image,
  [3] => og:url
)

问题出在第二个和第三个 \s* 上,它们表示要匹配零个或多个空格。但是,在第二种情况下,您想要匹配 \b.*\b、单词边界(meta 的结尾),然后是任何内容,然后是新的单词边界(property 的开头)。对于第三种情况,需要 \s.*\b 因为 " 不是单词边界,所以你的固定正则表达式是:

preg_match_all('~<\s*meta\b.*\bproperty="(og:[^"]+)"\s.*\bcontent="([^"]*)~i', $html, $matches);

参见 the example here