如何使用 html 内容的 scrapy

Question

我用剧作家写了一段代码returnshtml内容。我的问题是是否有一种方法可以调用 scrapy 来读取此 html 内容或 scrapy 仅从 url 读取？

我会很感激你的任何回答。

谢谢！

Answer 1

我建议将返回的 HTML 内容写到一个文件中，然后使用它来抓取本地文件：

import scrapy
import os

LOCAL_FILENAME = 'example.html'
LOCAL_FOLDER = 'html_files'
BASE_DIR = os.path.dirname(os.path.dirname(os.path.abspath(__file__)))


class ExampleSpider(scrapy.Spider):
    name = "example"
    start_urls = [
        f"file://{BASE_DIR}/{LOCAL_FOLDER}/{LOCAL_FILENAME}"
    ]

如何使用 html 内容的 scrapy

How to use scrapy with html content

python

scrapy

playwright