Yelp 数据文件类型

Yelp data file type

我试图从 Yelp 数据集挑战网站 (https://www.yelp.com/dataset_challenge) 打开文件。我已经成功做到了,但是,我无法打开文件,因为它没有扩展名。它大约是 4 GB。我认为它可能是一个 JSON 文件,因为当我四处搜索时,过去它是。但是,我不知道如何打开它或将其转换为 CSV。我想对这些数据使用 Python 进行一些分析。谁能帮我?谢谢。

Yelp 数据集示例的 github 项目有一些示例,其中之一是 "json_to_csv_converter",它应该可以帮助您完成您的要求。

Yelp's Academic Dataset Examples

如果有帮助请告诉我!

我遇到了同样的问题。事实证明 tar(没有扩展名的文件)内的文件也是一个 tar 文件 - 所以下载基本上是 tar 文件内的一个 tar 文件.解压原文件后,添加 tar 扩展名,然后解压。提取后,您将拥有数据集的所有不同 json 文件。

很抱歉回答老问题,但问题仍然存在)它肯定不是 tar 里面的 tar,而是没有 gz 扩展名的 tar.gz。可能后端函数有错误)

若要以正常方式打开,只需将文件 yelp_dataset.tar 重命名为 yelp_dataset。tar.gz

但如果你愿意,你可以不这样做。 python3 下面的代码对我来说很好用:

import tarfile

with tarfile.open('yelp_dataset.tar', 'r:gz') as tar:
    print([f.name for f in tar.getmembers()])

结果是:

['.',
 './yelp_academic_dataset_user.json',
 './yelp_academic_dataset_tip.json',
 './yelp_academic_dataset_checkin.json',
 './Dataset_User_Agreement.pdf',
 './yelp_academic_dataset_business.json',
 './yelp_academic_dataset_review.json']