从没有 class 和 id 的网站解析文本

Question

我可以解析站点，如果它缺少 class 和 id。 xpath 也不起作用，或者我做错了什么。我想获取有关游戏的信息 - 系统要求、数据和其他信息。我该怎么做才能使输出看起来像描述中的那样？

我的完整代码 - https://github.com/FreedomEssence/Torrent-Ighruha_Parser/blob/master/__init__.py

Answer 1

您可以使用 css 选择器 #dle-content > div:nth-child(3) 定位该元素。

divtext = soup.select('#dle-content > div:nth-child(3)')[0].text

输出-

'\nДата обновления: 2019Жанр: Action, Tank, 3D, Online-onlyРазработчик: Wargaming.netИздательство в России: Wargaming.netТип издания: ЛицензияЯзык интерфейса: РусскийЯзык озвучки: РусскийТаблетка: Не требуетсяСистемные требования:Операционная система:  XP / Vista / 7 / 8 / 10Процессор: Pentium 4 2,4 GHzОперативная память: 4 ГбВидеокарта: 512 Mb - 1024 Mb / nVIDIA / ATI Radeon®Звуковая карта: Звуковое устройство DirectX® 9.0сСвободное место на жестком диске: 16 Гб\n \n\n   \n\n\n'

从没有 class 和 id 的网站解析文本

Parse text from website without class and id

python

parsing

lxml

beautifulsoup