使用 RSS 提要获取 public google 组主题标题

Getting public google group topic titles using RSS feed

我正在尝试从 RSS 提要中获取 public google 组中所有主题的标题。我正在尝试获取所有主题标题。它几乎有 8000 个主题。我正在使用以下代码使用 feedparser.

阅读提要
import feedparser
url = 'https://groups.google.com/forum/feed/caffe-users/topics/rss_v2_0.xml?num=50'
feed = feedparser.parse(url)
for entry in feed['entries']:
    content = entry['title']
    print(content)

我注意到,当我使用 num = 50 时,我获得了所有 50 个标题。但是当我将 num = 50 更改为 num = 8000 甚至 num = 500 时,我只看到 15 个标题?输出如下:

15
"Invalid integer constant expression" Error during Installation
Can't complete make pycaffe (Python.h not found)
Kernels not compiling with Vienna-CL for openCL Intel build on Centos 7
"import caffe" failed
Frozen training model -  Reading dangerously large protocol message ?
Specifying the solver file parameters
Intel MKL FATAL ERROR: Cannot load mkl_intel_thread.dll.
Making the network shorter, adding dropout and augmenting the dataset produce overfitting, why?
Fwd: [Scala.js] Fwd: Us congress hearing of maan alsaan Money laundry قضية الكونغجرس لغسيل الأموال للمليادير معن الصانع
Feature maps from network for multiple images all the same
How to interpret the result of Ristretto?
how do I train DB with 3~10 features per image ?
Recompile with -fPIC
scaling the pixels  in deployment.prototxt in [0,1]
hi im installing caffe and i have this error

知道为什么会这样吗?当 num = 50 时我得到 50 个标题,但是为什么当我增加 num 的值时获取的标题减少到固定数字 15? 任何帮助或建议将不胜感激。谢谢。 使用库 gggd 我面临以下问题:

atan-115b-02:src mislam$ ./gggd.py -l -C cookies.txt caffe-users Please log in to your Google groups account (navigate the form fields with up and down arrows, submit form with Enter) and then exit the browser (using the 'q' key). Press Enter to continue.

Alert!: This client does not contain support for HTTPS URLs.

lynx: Can't access startfile https://www.google.com/a/UniversalLogin?continue=https://groups.google.com/forum/&service=groups2&hd=default gggd.py: ValueError("invalid literal for int() with base 10: 'client'",) for help use --help

要下载此 Google 组中的所有消息,您需要使用除 RSS 以外的其他界面。 Google 组 RSS 界面最多只会发送 50 条最新消息。没有分页或日期支持,因此您无法使用 RSS 界面获取群组中的所有消息。

解决方案

Get Google Groups Data 是一个 Python2 项目,它抓取指定的 Google 组并下载其所有消息。在我的 Mac 上安装 lynx 后,我能够抓取源代码中指示的 caffe-users 论坛。

截图如下。祝你好运。