从模式中获取特定节点的值 html

Question

我想从我的 html 页面中获取所有带有模式的名字。

见下文：

  <li >
    <span class="industry-rank">1</span>
      <span class="line">
      <span class="info">
        <a class="img-link" href="/nike/14e00e3f0bb79e4500c88440a6451b8f6cbaec5e">
          <span class="img"
                style="background-image: url(https://instagramimages-a.akamaihd.net/profiles/profile_13460080_75sq_1366391176.jpg)">
          </span>
        </a>
        <span class="name">
          <a href="/nike/14e00e3f0bb79e4500c88440a6451b8f6cbaec5e">Nike</a>
        </span>
      </span>
    </span>
  </li>
 <li >
    <span class="industry-rank">1</span>
      <span class="line">
      <span class="info">
        <a class="img-link" href="/nike/14e00e3f0bb79e4500c88440a6451b8f6cbaec5e">
          <span class="img"
                style="background-image: url(https://instagramimages-a.akamaihd.net/profiles/profile_13460080_75sq_1366391176.jpg)">
          </span>
        </a>
        <span class="name">
          <a href="/nike/14e00e3f0bb79e4500c88440a6451b8f6cbaec5e">Roger</a>
        </span>
      </span>
    </span>
  </li>

HTML 页面有 url 重复。我只想获取所有名称，例如 "nike" 或 "roger".

我应该怎么做才能得到它？

我试过用curl调用url，但是调用之后我应该做什么？

Answer 1

你使用 cURL 是正确的。通过 URL 创建 GET 请求后，在 Github 上找到一个库来帮助 HTML 解析。

这是一个 link 的库，可以执行上述所有操作：https://github.com/mahadazad/page-scraper

从模式中获取特定节点的值 html

Getting value of spefic node from pattern html

html

url

curl