使用 Azure 数据工厂从 Azure Data Lake 主题中提取第一个最后修改日期
Extract the very first last modified date from Azure Data Lake topic using Azure Data factory
Azure 数据工厂中是否有任何方法可以从 Azure 数据湖中获取最早的最后修改日期。文件名可以是任何东西。我需要在数据湖主题中上传的第一个文件的最后修改日期。
例如:
+----------+------------------+
| Filename | LastModifiedDate |
+----------+------------------+
| File1 | 2021-10-01 |
| File2 | 2021-10-02 |
| File1 | 2021-10-03 |
+----------+------------------+
预期产出:2021-10-01
如有任何帮助,我们将不胜感激。
问候,
桑迪普
您可以使用 Get-Metadata Activity
浏览数据湖中的每个文件夹,就像在 MSFT Forum 上的这个已归档问题中所做的那样。
根据文件夹和文件的数量,这是一种检索数据湖中任何文件的最早日期的蛮力方法。
我发现使用 PowerShell 更容易;
$storageAccount = 'storageAccountName';
$resourceGroupName = 'resourceGroupName';
$storageAccountKey = (Get-AzStorageAccountKey -ResourceGroupName $resourceGroupName -Name $storageAccount | Select-Object -Property Value -First 1).Value
$context = New-AzStorageContext -StorageAccountName $storageAccount -StorageAccountKey $storageAccountKey
$allblobs = Get-AzStorageBlob -Container $containername -Context $context
$allblobs | Sort-Object -Property LastModified | Select-Object -Property Name,LastModified -First 1
此 PowerShell 脚本 returns 具有最早 LastModified 值的文件的名称和 LastModified 日期时间。但是,运行 直接使用 ADF 的 PowerShell 脚本并不是那么简单。这里是 an article by Bob Blackburn 如何实现这一点。
Azure 数据工厂中是否有任何方法可以从 Azure 数据湖中获取最早的最后修改日期。文件名可以是任何东西。我需要在数据湖主题中上传的第一个文件的最后修改日期。
例如:
+----------+------------------+
| Filename | LastModifiedDate |
+----------+------------------+
| File1 | 2021-10-01 |
| File2 | 2021-10-02 |
| File1 | 2021-10-03 |
+----------+------------------+
预期产出:2021-10-01
如有任何帮助,我们将不胜感激。 问候, 桑迪普
您可以使用 Get-Metadata Activity
浏览数据湖中的每个文件夹,就像在 MSFT Forum 上的这个已归档问题中所做的那样。
根据文件夹和文件的数量,这是一种检索数据湖中任何文件的最早日期的蛮力方法。
我发现使用 PowerShell 更容易;
$storageAccount = 'storageAccountName';
$resourceGroupName = 'resourceGroupName';
$storageAccountKey = (Get-AzStorageAccountKey -ResourceGroupName $resourceGroupName -Name $storageAccount | Select-Object -Property Value -First 1).Value
$context = New-AzStorageContext -StorageAccountName $storageAccount -StorageAccountKey $storageAccountKey
$allblobs = Get-AzStorageBlob -Container $containername -Context $context
$allblobs | Sort-Object -Property LastModified | Select-Object -Property Name,LastModified -First 1
此 PowerShell 脚本 returns 具有最早 LastModified 值的文件的名称和 LastModified 日期时间。但是,运行 直接使用 ADF 的 PowerShell 脚本并不是那么简单。这里是 an article by Bob Blackburn 如何实现这一点。