是否有大量人类文本的资源?
Is there a resource of lots of human text?
我刚刚编写了一个基于学习数据进行对话的马尔可夫链。我想要一个包含大量在线文本数据的资源,但似乎找不到任何资源(维基百科等大多数网站都有很多垃圾,而不是纯文本文件)。
有没有网站有很多适合测试马尔可夫链的文本文件?
你试过 NLTK 文本语料库吗?
如果您只是担心从维基百科中删除标签,使用他们为您删除标签的这样的来源怎么样?
gutenberg.org 可能有一些资源适合您。例如,这是文本文件形式的一堆 Moby Dick。
考虑 Enron 电子邮件数据集:https://www.cs.cmu.edu/~./enron/
它也托管在亚马逊 AWS 上:https://aws.amazon.com/datasets/enron-email-data/
我刚刚编写了一个基于学习数据进行对话的马尔可夫链。我想要一个包含大量在线文本数据的资源,但似乎找不到任何资源(维基百科等大多数网站都有很多垃圾,而不是纯文本文件)。
有没有网站有很多适合测试马尔可夫链的文本文件?
你试过 NLTK 文本语料库吗?
如果您只是担心从维基百科中删除标签,使用他们为您删除标签的这样的来源怎么样?
gutenberg.org 可能有一些资源适合您。例如,这是文本文件形式的一堆 Moby Dick。
考虑 Enron 电子邮件数据集:https://www.cs.cmu.edu/~./enron/
它也托管在亚马逊 AWS 上:https://aws.amazon.com/datasets/enron-email-data/