从外部 FTP 服务器读取 > 1GB GZipped CSV 文件

Reading > 1GB GZipped CSV files from external FTP server

在我的 Laravel 应用程序的计划任务中,我正在读取几个大的 gzip 压缩 CSV 文件,在外部 FTP 服务器上大小从 80mb 到 4gb 不等,其中包含我存储在数据库中的产品基于产品属性。

我遍历了要导入的产品提要列表,但每次都会出现致命错误 returned:'Allowed memory size of 536870912 bytes exhausted'。我可以将 fgetcsv 函数的长度参数从 1000 提高到 100000,这解决了较小文件(< 500mb)的问题,但对于较大的文件,它将 return 致命错误。

有没有一种解决方案可以让我下载或解压缩 .csv.gz 文件,读取行(按批次或逐行读取)并将产品插入我的数据库而无需 运行内存不足?

$feeds = [
    "feed_baby-mother-child.csv.gz",
    "feed_computer-games.csv.gz",
    "feed_general-books.csv.gz",
    "feed_toys.csv.gz",
];

foreach ($feeds as $feed) {
    $importedProducts = array();
    $importedFeedProducts = 0;

    $csvfile = 'compress.zlib://ftp://' . config('app.ftp_username') . ':' . config('app.ftp_password') . '@' . config('app.ftp_host') . '/' . $feed;

    if (($handle = fopen($csvfile, "r")) !== FALSE) {
        $row = 1;
        $header = fgetcsv($handle, 1, "|");
                
        while (($data = fgetcsv($handle, 1000, "|")) !== FALSE) {
            if($row == 1 || array(null) !== $data){ $row++; continue; }
                    
            $product = array_combine($header, $data);
            $importedProducts[] = $product;
        }

        fclose($handle);
    } else {
        echo 'Failed to open: ' . $feed . PHP_EOL;
        continue;
    }
    
    // start inserting products into the database below here
}

问题可能不是 gzip 文件本身, 当然可以下载,然后处理,这样还是会出现同样的问题。

因为您正在将所有产品加载到一个数组(内存)中

$importedProducts[] = $product;

您可以将这一行注释掉,看看它是否阻止了您的内存限制。

通常我会创建一个像这样的方法 addProduct($product) 来处理内存安全。

然后您可以在进行批量插入之前从那里决定产品的最大数量。为了达到最佳速度..我通常使用 1000 到 5000 行之间的东西。

例如

class ProductBatchInserter
{
    private $maxRecords = 1000;
    private $records = [];
    
    function addProduct($record) {
        $this->records[] = $record;
        if (count($this->records) >= $this->maxRecords) {
           EloquentModel::insert($this->records);
           $this->records = [];
        }
    }
}

但是我通常不会将它实现为单个 class,但在我的项目中,我曾经将它们集成为可用于任何 eloquent 模型的 BulkInsertable 特征。

但这应该给你一个方向,如何避免内存限制。

或者,更简单,但速度要慢得多,只需插入您现在将其分配给数组的行。 但这会给您的数据库带来可笑的负载,而且速度会非常慢。

如果 GZIP 流是瓶颈

正如我所料,这不是问题所在,但如果是,那么您可以使用 gzopen()

https://www.php.net/manual/en/function.gzopen.php

并将 gzopen 句柄嵌套为 fgetcsv 的句柄。

但我希望您正在使用的流处理程序已经以相同的方式为您执行此操作..

如果不是,我的意思是:

$input = gzopen('input.csv.gz', 'r'); 


while (($row = fgetcsv($input)) !== false) {
 // do something memory safe, like suggested above
}

如果你无论如何都需要下载它,有很多方法可以做到这一点,但要确保你使用内存安全的东西,比如 fopen / fgets ,或者 guzzle 流,不要尝试使用像 file_get_contents() 将其加载到内存中