网页抓取 - Python - Selenium + BeautifulSoup
WebScrapping - Python - Selenium + BeautifullSoup
我正在尝试构建一个网络抓取工具来获取用户个人资料信息,例如 name, location, experience, skills and languages
我面临的问题是:
在每个 li
标签中包含我正在寻找的文本
当我想获取有关 Experience
的信息时,每个配置文件的部分 ID 都会发生变化,如果我尝试使用不同的 标签,例如 div 给我带来了我不需要的其他领域的信息。
其他事情,正如您在图片上看到的那样,它显示 'div' id = 'experience',但由于此标签不嵌套任何 parent 标签,我无法使用它来提取数据。
我建议这样做:soup.findAll('div')
用于查找所有 div,然后拆分输出,这样您就可以获得所需的 ID ;D
我正在尝试构建一个网络抓取工具来获取用户个人资料信息,例如 name, location, experience, skills and languages
我面临的问题是:
在每个 li
标签中包含我正在寻找的文本
当我想获取有关 Experience
的信息时,每个配置文件的部分 ID 都会发生变化,如果我尝试使用不同的 标签,例如 div 给我带来了我不需要的其他领域的信息。
其他事情,正如您在图片上看到的那样,它显示 'div' id = 'experience',但由于此标签不嵌套任何 parent 标签,我无法使用它来提取数据。
我建议这样做:soup.findAll('div')
用于查找所有 div,然后拆分输出,这样您就可以获得所需的 ID ;D