Scraper - 如何保存和存储表情符号
Scraper - How to save and store emoji
我目前在 python 3.x 和 ubuntu 环境下使用 https://scrapy.org/ 的 Scraper,
我想以某种方式在论坛中获得用户评论,其中包含文本和表情符号。
想知道我们如何将这些表情符号保存到一个数组中,以便我可以在 cvs 或 json 中看到它?
谢谢
可能是HTML结构造成的。如果子元素中提供了表情符号,您可以在 xpath
表达式中使用 string()
函数。
response.xpath('string(.//xpath/to/comment)')
如果能至少提供一下页面的HTML就好了
如果表情符号和文本包含在父元素中,假设 div 带有评论 class,如下所示。
<div class="comment">
<div class="description">This is a comment.</div>
<span>:-)</span>
</div>
那么您可以使用以下 XPath 或 CSS 选择器。
response.css('.comment ::text').extract()
或
response.xpath('.//div[@class="comment"]//text()').extract()
我目前在 python 3.x 和 ubuntu 环境下使用 https://scrapy.org/ 的 Scraper, 我想以某种方式在论坛中获得用户评论,其中包含文本和表情符号。
想知道我们如何将这些表情符号保存到一个数组中,以便我可以在 cvs 或 json 中看到它?
谢谢
可能是HTML结构造成的。如果子元素中提供了表情符号,您可以在 xpath
表达式中使用 string()
函数。
response.xpath('string(.//xpath/to/comment)')
如果能至少提供一下页面的HTML就好了
如果表情符号和文本包含在父元素中,假设 div 带有评论 class,如下所示。
<div class="comment">
<div class="description">This is a comment.</div>
<span>:-)</span>
</div>
那么您可以使用以下 XPath 或 CSS 选择器。
response.css('.comment ::text').extract()
或
response.xpath('.//div[@class="comment"]//text()').extract()