R:在云端自动抓取和存储 Twitter 数据
R: Automate scraping & storage of Twitter data on the cloud
我是一名 R 用户,从事的项目涉及从 Twitter 数据中获取见解(更具体地说,使用 rtweet
包抓取 Twitter 数据,并对这些数据进行一系列分析)。此外,为了可视化目的,我基于这些数据构建了一个闪亮的应用程序。
我需要进一步输入的地方
今天,我抓取的 Twitter 数据本地存储在我的笔记本电脑上。但是我想以不同的方式做到这一点。理想情况下,我希望能够实现以下目标 -
1) 数据是使用 rtweet
包从 Twitter 中抓取的,并直接存储在云平台(例如 AWS 或 Microsoft Azure)上。
2) 我想为这个抓取过程定义一个周期(例如:每两天一次)。我想通过一些调度工具来实现这个。
3) 最后,我希望我的 Shiny 应用程序(托管在 shinyapps.io 上)能够与这个云平台通信并检索存储在其中的推文以供分析。
我在 Internet 上搜索了解决方案,但还没有找到任何直接的方法。
如果有人有这方面的经验,我们将不胜感激。
您在 AWS 创建账户。
然后创建 s3 存储桶
在您想要复制的 hwrre 虚拟服务器或机器上,安装 aws cli(用于与 aws resiurces 交互的客户端)
然后,您运行复制命令和文件正在被复制到云端。
同理,您使用 cli 检索文件
我是一名 R 用户,从事的项目涉及从 Twitter 数据中获取见解(更具体地说,使用 rtweet
包抓取 Twitter 数据,并对这些数据进行一系列分析)。此外,为了可视化目的,我基于这些数据构建了一个闪亮的应用程序。
我需要进一步输入的地方
今天,我抓取的 Twitter 数据本地存储在我的笔记本电脑上。但是我想以不同的方式做到这一点。理想情况下,我希望能够实现以下目标 -
1) 数据是使用 rtweet
包从 Twitter 中抓取的,并直接存储在云平台(例如 AWS 或 Microsoft Azure)上。
2) 我想为这个抓取过程定义一个周期(例如:每两天一次)。我想通过一些调度工具来实现这个。
3) 最后,我希望我的 Shiny 应用程序(托管在 shinyapps.io 上)能够与这个云平台通信并检索存储在其中的推文以供分析。
我在 Internet 上搜索了解决方案,但还没有找到任何直接的方法。
如果有人有这方面的经验,我们将不胜感激。
您在 AWS 创建账户。 然后创建 s3 存储桶 在您想要复制的 hwrre 虚拟服务器或机器上,安装 aws cli(用于与 aws resiurces 交互的客户端)
然后,您运行复制命令和文件正在被复制到云端。
同理,您使用 cli 检索文件