如何从维基百科下载埃及阿拉伯语文章

How to download Egyptian Arabic articles from Wikipedia

我是一名研究员,我需要下载维基百科中的许多(或全部)埃及方言页面?

我对此完全陌生。请帮忙

您正在搜索维基百科数据库转储。 Database Dumps Page, and an HTML version of the site is usually available in the HTML static Dumps.

中报告了有关此转储的信息

正如您正确指出的那样,埃及阿拉伯语(ISO 639-3 中的 arz)语言在静态 HTML 存储库中不可用,但数据库在 following official mirror (as reported in Database Dump Page) as SQL database. The schema for the database should be compatible with the common Wikipedia schema, which is described here.

我建议您仔细 read this page,它提供了有关数据库本身初始化以供本地使用的附加信息,还建议 永远不要在 public 上使用网络爬虫维基百科网站。相同的页面包含一些脚本来解析和查询数据库。

还有一个选择。您可以尝试使用 dbpedia.org 等资源,它为 arz 语言声明了一些转储,并且可以直接使用 sql 查询进行查询。

祝您下载愉快!