Newspaper3k returns 0 篇文章来自 archive.org waybackmachine 页面，而实时页面按预期工作

Question

当尝试在 archive.org 的存档页面 url 上使用 python 图书馆 newspaper3 时，它无法获取任何文章。但是，当在同一个实时页面 url 上使用它时，它工作正常。请看下面：

import newspaper

len(newspaper.build('https://bbc.co.uk/news').articles)
>> 111

len(newspaper.build('https://web.archive.org/web/http://www.bbc.co.uk/news').articles)
>>> 0

即使使用特殊的 id hack，returns 原始修改后的页面也不起作用：

len(newspaper.build('https://web.archive.org/web/20171219030622id_/http://www.bbc.co.uk/news').articles)
    >>> 0

非常感谢任何帮助，谢谢！

Answer 1

我没有发现任何迹象表明该库适用于 archive.org，或者它适用于 archive.org。

两个 [1][2] 来源列表均未提及 archive.org 或 web.archive.org。

我下载了整个 repository 来搜索源代码，它也没有提到任何一个 Internet Archive 域。

据我所知 this file，articles 属性基于 RSS/ATOM 供稿。我不认为 Internet Archive 会存档那些，即使它会存档，因为它们会 link 回到网站的实时版本，需要对库本身进行一些更改才能使它们与 Internet Archive 一起使用.

You've already opened an issue，您指定它根本不起作用（即使在单篇文章上——这可能是其他地方的问题，例如在节点评分算法中它用来决定哪些节点包含article) 所以如果你不想深入库源代码并自己修复它，你能做的就是等待。

Newspaper3k returns 0 篇文章来自 archive.org waybackmachine 页面，而实时页面按预期工作

Newspaper3k returns 0 articles from archive.org waybackmachine pages whereas the live page works as expected

python

python-newspaper