如何检索 table,从中排除一些标签
how to retrieve table, excluding some tags from it
我正在尝试使用 css 选择器从 html table(main_table) 抓取数据。问题是,当我尝试获取所有行 (tr) 时,我从 inner_table 中获取了额外的行,它位于 main_table 内,但我不知道如何排除 inner_table.
我尝试 css 选择器作为
response.css('.main_table-id:not([class^="inner_table"])').extract()
和
response.css("table[id='main_table_id']:not([class*='inner_table'])").extract()
但不排除
<table id ="main_table_id" class="main_table_class">
<tbody>
<tr block-id="123" class="main_tr_class">
<td class="td_class">
<div class="inner_table_div">
<table class="inner_table">
</table>
</div>
</td>
</tr>
</tbody>
</table>
我想从 main_table 中抓取所有数据,并排除内部 table。我被告知我正在将我的选择器应用于父节点,但我不知道如何编辑我的 css.
使用>
到select只有直接子节点
response.css('#main_table_id > tr')
或
response.css('#main_table_id > tbody > tr')
我正在尝试使用 css 选择器从 html table(main_table) 抓取数据。问题是,当我尝试获取所有行 (tr) 时,我从 inner_table 中获取了额外的行,它位于 main_table 内,但我不知道如何排除 inner_table.
我尝试 css 选择器作为
response.css('.main_table-id:not([class^="inner_table"])').extract()
和
response.css("table[id='main_table_id']:not([class*='inner_table'])").extract()
但不排除
<table id ="main_table_id" class="main_table_class">
<tbody>
<tr block-id="123" class="main_tr_class">
<td class="td_class">
<div class="inner_table_div">
<table class="inner_table">
</table>
</div>
</td>
</tr>
</tbody>
</table>
我想从 main_table 中抓取所有数据,并排除内部 table。我被告知我正在将我的选择器应用于父节点,但我不知道如何编辑我的 css.
使用>
到select只有直接子节点
response.css('#main_table_id > tr')
或
response.css('#main_table_id > tbody > tr')