是否有大量人类文本的资源?

Is there a resource of lots of human text?

我刚刚编写了一个基于学习数据进行对话的马尔可夫链。我想要一个包含大量在线文本数据的资源,但似乎找不到任何资源(维基百科等大多数网站都有很多垃圾,而不是纯文本文件)。

有没有网站有很多适合测试马尔可夫链的文本文件?

你试过 NLTK 文本语料库吗?

如果您只是担心从维基百科中删除标签,使用他们为您删除标签的这样的来源怎么样?

http://kopiwiki.dsd.sztaki.hu/

gutenberg.org 可能有一些资源适合您。例如,这是文本文件形式的一堆 Moby Dick。

http://www.gutenberg.org/files/2701/2701.txt

考虑 Enron 电子邮件数据集:https://www.cs.cmu.edu/~./enron/

它也托管在亚马逊 AWS 上:https://aws.amazon.com/datasets/enron-email-data/