google-groups rss feed 的描述被截断
google-groups rss feed has truncated description
我正在尝试分析我是 运行 的 google 论坛的情绪。为了获取论坛内容,我知道了两种方法: 1. 使用 selenium 从 google-groups 进行网页抓取,但这种方法不可靠并且 google 经常更改 class 名称。 2. 使用 RSS 提要。
第二种方法似乎是一个不错的选择,但问题是 RSS 提要描述被截断了。有没有办法在不截断的情况下获得完整的描述?或者有没有其他方法可以获取 public google 组的内容?
对于那些面临类似问题的人 - 抓取 google 组内容,我遇到了一个 python pkg,由 "Matěj Cepl" 编写,名为 gg_scraper 0.10.0 下载google 将内容分组到 MBOX 文件中。后来我将这些MBOX文件转换成JSON格式的文件供我使用。
我正在尝试分析我是 运行 的 google 论坛的情绪。为了获取论坛内容,我知道了两种方法: 1. 使用 selenium 从 google-groups 进行网页抓取,但这种方法不可靠并且 google 经常更改 class 名称。 2. 使用 RSS 提要。
第二种方法似乎是一个不错的选择,但问题是 RSS 提要描述被截断了。有没有办法在不截断的情况下获得完整的描述?或者有没有其他方法可以获取 public google 组的内容?
对于那些面临类似问题的人 - 抓取 google 组内容,我遇到了一个 python pkg,由 "Matěj Cepl" 编写,名为 gg_scraper 0.10.0 下载google 将内容分组到 MBOX 文件中。后来我将这些MBOX文件转换成JSON格式的文件供我使用。