在 html 和文本中获取整个 Playwright 页面

Get entire Playwright page in html and Text

我在 nodejs 中使用 playwright,在获取页面文本或 Html 时遇到一些问题。我只想将 url 作为字符串获取,例如:<html><div class="123"><a>link</a>something</div><div>somethingelse</div></hmtl>

const browser = await playwright.chromium.launch({
    headless: true,
});

const page = await browser.newPage();
await page.goto(url);

我尝试使用 const pageText = page.$('div').innerText;const pageText2 = await page.$$eval('div', el => el.innerText); 但是两者都不起作用,只是给我未定义。

对于页面的完整 html,这是您需要的:const html = await page.content()

要获取 div 的内部文本,这应该有效:const pageText = await page.innerText('div')

参见: