newsletter3k,我是不是做错了什么,作者功能没有在新闻文章中选择作者

newsletter3k, am I did something wrong, author function did not pick up author in news article

这是关于newspaper3k Library. I have this list of URL for news. the ">>> article.authors" did not pick up authors sometimes. An example is here:authors missing

的作者功能

Newspaper3k 使用 PythonBeautiful Soup 提取项目,例如来自新闻网站的作者姓名。 Newspaper3k 查询的 tags 已在 Newspaper3k 源代码中预定义。 Newspaper3k 尽最大努力从新闻网站上的这些标准 标签 中提取内容。

BUT 并非所有新闻来源的结构都相同,因此 Newspaper3k 会遗漏某些内容,因为标签(例如,作者)将是 HTML 结构中的不同位置。

例如 Newspaper3k 在这些 tags:

中查找作者姓名

VALS = ['author', 'byline', 'dc.creator', 'byl']

标签dc.creator总是位于新闻源的META标签部分。如果您的新闻来源有不同的作者标签,​​例如洛杉矶时报使用的 article.author、,那么您必须像这样查询该标签:

article_meta_data = article.meta_data
article_author = {value for (key, value) in article_meta_data['article'].items() if key == 'author'}

我在 newspaper3K overview document, which I have shared on my Github page.

中介绍了很多这些收获问题