为什么 Rtweet 的 parse_stream() 函数返回 NULL 对象？

Question

我有一系列 .json 文件，每个文件包含从 500 到 10,000 条推文（每条 3-40 MB）中捕获的数据。我正在尝试使用 rtweet 的 parse_stream() 函数将这些文件读入 R 并将推文数据存储在数据 table 中。我尝试了以下方法：

tweets <- parse_stream(path = "india1_2019090713.json")

没有错误消息，命令创建了一个 tweets 对象，但它是空的 (NULL)。我用其他 .json 文件试过这个，结果是一样的。有没有人遇到过这个 behaviour/is 有什么明显的我做错了吗？对于 rtweet 新手的任何建议，我将不胜感激！

我正在使用 rtweet 版本 0.6.9。

非常感谢！

Answer 1

作为更新和部分答案：我在最初的问题上没有取得进展，但我使用 jsonlite 包取得了更大的成功，它能够充分读取包含 Tweet 数据的大型复杂 .json 文件。

library(jsonlite)

我使用了 fromJSON() 函数，详见 here。我发现我需要编辑原始 .json 文件以匹配所需的结构，以方括号 ([ ]) 开始和结束文件，并在每条推文末尾的每个换行符前添加一个逗号。那么：

tweetsdf <- fromJSON("india1_2019090713.json", simplifyDataFrame = TRUE, flatten = TRUE)

simplifyDataFrame 确保内容保存为数据框，每条推文一行，flatten 折叠大部分嵌套 Tweet attributes 以分隔每个子值的列，而不是而不是生成充满笨拙列表结构的列。

Why is Rtweet's parse_stream() function returning a NULL object?