使用 pyautogui 移动到活动屏幕上的搜索文本

Move to searched text on active screen with pyautogui

我正在尝试制作一个程序来搜索网页上的文本,然后在找到后将鼠标光标放在突出显示的文本上。这可能使用 pyautogui 吗?如果是这样,如何。如果没有,还有其他替代方法吗?

示例代码如下:

import webbrowser
import pyautogui


var = 'Filtered Questions'
webbrowser.open('https://stackexchange.com/')
time.sleep(2)

pyautogui.hotkey('ctrl', 'f')
pyautogui.typewrite(var)
#code to place mouse cursor to the occurrence of var

我宁愿不使用 pyautogui.moveTo() 或 pyautogui.moveRel(),因为我在网站上搜索的文本不是静态的。当网页加载时,搜索文本的位置会发生变化。任何帮助将不胜感激。

我在研究这个话题时偶然发现了这个问题。基本上答案是否定的。 "要点:

1) Pyautogui 有使用图像搜索的选项。例如,您可以使用它来截取您想要查找的所有文本并保存为单独的文本文件,然后使用它来动态搜索它并根据需要移动鼠标 there/click/do。但是,正如docs中所解释的,每次搜索需要1-2秒,这是相当不切实际的。

2) 在某些情况下,但并非总是如此,在网站上使用 ctrl+f 并搜索文本会滚动,因此结果位于页面的中间(垂直)。然而,这依赖于关于要搜索的文本在哪里的一些重大影响。如果它在页面顶部,你显然无法使用该方法,就像它在底部一样。

如果您尝试自动点击并让 link 具有可区分的名称,我的建议是解析源代码并人为地点击 link。否则你最好使用像 blue prism 这样的自动化套件。

pyautogui 用于控制鼠标和键盘以及自动化其他 GUI 应用程序。如果您需要在网页上查找文本,您可能会寻找用于抓取网页的更好选项。例如:Selenium

是的,你可以这样做,但你还需要 Tesseract(和 Python-module pytesseract)进行文本识别和 PIL 进行屏幕截图。

然后执行以下步骤:

  1. 打开页面
  2. 打开并执行搜索(使用 pyautogui 的 ctrl+f)- 视图变为第一个结果
  3. 截图(带PIL)
  4. 将图像转换为文本和数据(使用 Tesseract)并找到文本和位置
  5. 使用pyautogui移动鼠标点击

这是获取图像和相关数据所需的代码:

import time
from PIL import ImageGrab  # screenshot

import pytesseract
from pytesseract import Output
pytesseract.pytesseract.tesseract_cmd = (r"C:\...\AppData\Local\Programs\Tesseract-OCR\tesseract") # needed for Windows as OS

screen =  ImageGrab.grab()  # screenshot
cap = screen.convert('L')   # make grayscale

data=pytesseract.image_to_boxes(cap,output_type=Output.DICT)

print(data)

data 中,您可以找到移动鼠标并单击文本所需的所有必需信息。

这种方法的缺点是消耗资源的 OCR 部分,在较慢的机器上需要几秒钟。

当您使用 Chrome 或 Chromium 作为浏览器时,有一种仅使用 pyautogui 的更简单、更稳定的方法:

  1. 使用 pyautogui 执行 Crtl + F

  2. 在搜索结果上执行 Ctrl + Enter 到 'click' / 打开与结果相关的 link

对于其他浏览器,您必须澄清是否也存在键盘快捷键。