仅检索带有 selftext reddit praw 的条目
Retrieving only entries with selftext reddit praw
我正在下载 Reddit 中排名前 100 的帖子。然而,许多是外部链接、jpg 文件或其他类型的非文本内容。因此我得到一个主要由空单元组成的列表。我想知道是否有办法只检索那些包含 selftext
的条目。这是我的代码:
进口json
导入 nltk
重新进口
导入 pandas
appended_data = []
subreddit = reddit.subreddit('bitcoin')
top_python = subreddit.hot(limit=100) entries
for submission in top_python:
if not submission.stickied:
appended_data.append(submission.selftext)
str_list = list(filter(None, appended_data))
有一个内置标志用于检查某些内容是否为文本 post,is_self
。您的代码的更新版本看起来有点像这样:
import json
import nltk
import re
import pandas
appended_data = []
subreddit = reddit.subreddit('bitcoin')
top_python = subreddit.hot(limit=100) entries
for submission in top_python:
if not submission.stickied and submission.is_self:
appended_data.append(submission.selftext)
str_list = list(filter(None, appended_data))
如果您有任何其他问题,请随时 post 发表评论并提问!
我正在下载 Reddit 中排名前 100 的帖子。然而,许多是外部链接、jpg 文件或其他类型的非文本内容。因此我得到一个主要由空单元组成的列表。我想知道是否有办法只检索那些包含 selftext
的条目。这是我的代码:
进口json 导入 nltk 重新进口 导入 pandas
appended_data = []
subreddit = reddit.subreddit('bitcoin')
top_python = subreddit.hot(limit=100) entries
for submission in top_python:
if not submission.stickied:
appended_data.append(submission.selftext)
str_list = list(filter(None, appended_data))
有一个内置标志用于检查某些内容是否为文本 post,is_self
。您的代码的更新版本看起来有点像这样:
import json
import nltk
import re
import pandas
appended_data = []
subreddit = reddit.subreddit('bitcoin')
top_python = subreddit.hot(limit=100) entries
for submission in top_python:
if not submission.stickied and submission.is_self:
appended_data.append(submission.selftext)
str_list = list(filter(None, appended_data))
如果您有任何其他问题,请随时 post 发表评论并提问!