【问题标题】:Getting public google group topic titles using RSS feed使用 RSS 提要获取公共 google 组主题标题
【发布时间】:2018-02-18 00:28:54
【问题描述】:

我正在尝试从RSS 提要获取公共 google 组中所有主题的标题。我正在尝试获取所有主题标题。它几乎有8000 主题。我正在使用以下代码使用feedparser 读取提要。

import feedparser
url = 'https://groups.google.com/forum/feed/caffe-users/topics/rss_v2_0.xml?num=50'
feed = feedparser.parse(url)
for entry in feed['entries']:
    content = entry['title']
    print(content)

我注意到当我使用num = 50 时,我得到了所有 50 个标题。但是当我将num = 50 更改为num = 8000 甚至num = 500 时,我只看到15 个标题?输出如下:

15
"Invalid integer constant expression" Error during Installation
Can't complete make pycaffe (Python.h not found)
Kernels not compiling with Vienna-CL for openCL Intel build on Centos 7
"import caffe" failed
Frozen training model -  Reading dangerously large protocol message ?
Specifying the solver file parameters
Intel MKL FATAL ERROR: Cannot load mkl_intel_thread.dll.
Making the network shorter, adding dropout and augmenting the dataset produce overfitting, why?
Fwd: [Scala.js] Fwd: Us congress hearing of maan alsaan Money laundry قضية الكونغجرس لغسيل الأموال للمليادير معن الصانع
Feature maps from network for multiple images all the same
How to interpret the result of Ristretto?
how do I train DB with 3~10 features per image ?
Recompile with -fPIC
scaling the pixels  in deployment.prototxt in [0,1]
hi im installing caffe and i have this error

知道为什么会这样吗? num = 50 时我得到 50 个标题,但是当我增加 num 的值时,为什么获取的标题会减少到固定数字 15? 任何帮助或建议将不胜感激。谢谢。 使用库gggd 我面临以下问题:

atan-115b-02:src mislam$ ./gggd.py -l -C cookies.txt caffe-users 请登录您的 Google 群组帐户(浏览表单字段 使用向上和向下箭头,使用 Enter 提交表单),然后退出 浏览器(使用“q”键)。按 Enter 继续。

警告!:此客户端不支持 HTTPS URL。

lynx:无法访问启动文件 https://www.google.com/a/UniversalLogin?continue=https://groups.google.com/forum/&service=groups2&hd=default gggd.py:ValueError(“int()的无效文字,底数为10: '客户'”,) 寻求帮助使用 --help

【问题讨论】:

    标签: python rss-reader feedparser google-groups google-groups-api


    【解决方案1】:

    要下载此 Google 网上论坛中的所有消息,您需要使用 RSS 以外的其他界面。 Google Groups RSS 界面最多只能发送50 的最新消息。不支持分页和日期,因此无法使用 RSS 接口获取群组中的所有消息。

    解决方案

    Get Google Groups Data 是一个 Python2 项目,它抓取指定的 Google 群组并下载其所有消息。在我的 Mac 上安装 lynx 后,我能够抓取源代码中指出的 caffe-users 论坛。

    截图如下。祝你好运。

    【讨论】:

    • 我已经用你的建议所面临的问题更新了我的问题。你能明白为什么会这样吗?谢谢
    • @MdJohirulIslam 我认为 caffe-users 是一个公共团体?如果是这样,您应该能够跳过 cookie 并运行 ./src/gggd.py -v caffe-users
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2016-12-16
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多