import.io如何将爬取到的数据实时写入文件
How can import.io write crawled data to a file in real time
我目前在 import.io 中设置了一个抓取工具,它抓取了大量的页面(数万个)。这个爬虫完成后,我试图查看数据,结果发现它已经全部丢失了,我认为这是因为数据量太大。有没有办法设置我的爬虫,以便它在收集数据时将数据实时写入我硬盘上的文件?
可以,在开始抓取之前,链接区域下方有一个选项
1 - Save Stream 是您选择文件名和保存位置的地方,还要确保将 .csv 或 .json 添加到文件名
2 -流类型 您从下拉列表中选择输出类型。
我目前在 import.io 中设置了一个抓取工具,它抓取了大量的页面(数万个)。这个爬虫完成后,我试图查看数据,结果发现它已经全部丢失了,我认为这是因为数据量太大。有没有办法设置我的爬虫,以便它在收集数据时将数据实时写入我硬盘上的文件?
可以,在开始抓取之前,链接区域下方有一个选项
1 - Save Stream 是您选择文件名和保存位置的地方,还要确保将 .csv 或 .json 添加到文件名
2 -流类型 您从下拉列表中选择输出类型。