从 url 列表中提取链接

Question

我正在尝试从文本文件中的一组列表或 url 中提取所有 link，并将提取的 link 保存在另一个文本文件中。我正在尝试使用下面的脚本，它原本是用来提取电子邮件的：

我更改了电子邮件提取部分

          // preg_match_all('/([\w+\.]*\w+@[\w+\.]*\w+[\w+\-\w+]*\.\w+)/is', $sPageContent, $aResults);

像这样提取 links:

          preg_match_all("/a[\s]+[^>]*?href[\s]?=[\s\"\']+(.*?)[\"\']+.*?>([^<]+|.*?)?<\/a>/is", $sPageContent, $aResults);

完整代码如下：

class getEmails 

{
    const EMAIL_STORAGE_FILE = 'links.txt';

     public function __construct($sFilePath)
     {
         $aUrls = $this->getUrls($sFilePath);

         foreach($aUrls as $sUrl) {
             $rPage = $this->getContents($sUrl);
             $this->getAndSaveEmails($rPage);
         }
         $this->removeDuplicate();
     }

     protected function getAndSaveEmails($sPageContent)
     {
          // preg_match_all('/([\w+\.]*\w+@[\w+\.]*\w+[\w+\-\w+]*\.\w+)/is', $sPageContent, $aResults);
          
          preg_match_all("/a[\s]+[^>]*?href[\s]?=[\s\"\']+(.*?)[\"\']+.*?>([^<]+|.*?)?<\/a>/is", $sPageContent, $aResults);

         foreach($aResults[1] as $sCurrentEmail) {
             file_put_contents(self::EMAIL_STORAGE_FILE, $sCurrentEmail . "\r\n", FILE_APPEND);
         }
     }

     protected function getContents($sUrl)
     {
         if (function_exists('curl_init')) {
            $rCh = curl_init();
            curl_setopt($rCh, CURLOPT_URL, $sUrl);
            curl_setopt($rCh, CURLOPT_HEADER, 0);
            curl_setopt($rCh, CURLOPT_RETURNTRANSFER, 1);
            curl_setopt($rCh, CURLOPT_FOLLOWLOCATION, 1);
            $mResult = curl_exec($rCh);
            curl_close($rCh);
            unset($rCh);
            return $mResult;
        } else {
            return file_get_contents($sUrl);
        }
     }

     protected function getUrls($sFilePath)
     {
         return file($sFilePath);
     }

     protected function removeDuplicate()
     {
         $aEmails = file(self::EMAIL_STORAGE_FILE);
         $aEmails = array_unique($aEmails);
         file_put_contents(self::EMAIL_STORAGE_FILE, implode('', $aEmails));
     }
}

new getEmails('sitemap_index.txt');

我遇到的问题是它应该从 url 列表中获取所有 link，但它只扫描了第一个 link 而忽略了其余的。我有 30 个 link 想从中提取，我怎样才能使上面的代码工作？

Answer 1

您必须在 url 处使用 trim()。
尝试在您的代码中添加 trim

     foreach($aUrls as $sUrl) {

         $sUrl=trim($sUrl); //this

         $rPage = $this->getContents($sUrl);
         $this->getAndSaveEmails($rPage);
     }

从 url 列表中提取链接

Extract links from a list of urls

php

curl

hyperlink

web-scraping

scrape