从没有 class 和 id 的网站解析文本
Parse text from website without class and id
我可以解析站点,如果它缺少 class 和 id。 xpath 也不起作用,或者我做错了什么。
我想获取有关游戏的信息 - 系统要求、数据和其他信息。我该怎么做才能使输出看起来像描述中的那样?
我的完整代码 - https://github.com/FreedomEssence/Torrent-Ighruha_Parser/blob/master/__init__.py
您可以使用 css 选择器 #dle-content > div:nth-child(3)
定位该元素。
divtext = soup.select('#dle-content > div:nth-child(3)')[0].text
输出-
'\nДата обновления: 2019Жанр: Action, Tank, 3D, Online-onlyРазработчик: Wargaming.netИздательство в России: Wargaming.netТип издания: ЛицензияЯзык интерфейса: РусскийЯзык озвучки: РусскийТаблетка: Не требуетсяСистемные требования:Операционная система: XP / Vista / 7 / 8 / 10Процессор: Pentium 4 2,4 GHzОперативная память: 4 ГбВидеокарта: 512 Mb - 1024 Mb / nVIDIA / ATI Radeon®Звуковая карта: Звуковое устройство DirectX® 9.0сСвободное место на жестком диске: 16 Гб\n \n\n \n\n\n'
我可以解析站点,如果它缺少 class 和 id。 xpath 也不起作用,或者我做错了什么。
我想获取有关游戏的信息 - 系统要求、数据和其他信息。我该怎么做才能使输出看起来像描述中的那样?
我的完整代码 - https://github.com/FreedomEssence/Torrent-Ighruha_Parser/blob/master/__init__.py
您可以使用 css 选择器 #dle-content > div:nth-child(3)
定位该元素。
divtext = soup.select('#dle-content > div:nth-child(3)')[0].text
输出-
'\nДата обновления: 2019Жанр: Action, Tank, 3D, Online-onlyРазработчик: Wargaming.netИздательство в России: Wargaming.netТип издания: ЛицензияЯзык интерфейса: РусскийЯзык озвучки: РусскийТаблетка: Не требуетсяСистемные требования:Операционная система: XP / Vista / 7 / 8 / 10Процессор: Pentium 4 2,4 GHzОперативная память: 4 ГбВидеокарта: 512 Mb - 1024 Mb / nVIDIA / ATI Radeon®Звуковая карта: Звуковое устройство DirectX® 9.0сСвободное место на жестком диске: 16 Гб\n \n\n \n\n\n'