使用 Azure 数据工厂从 Azure Data Lake 主题中提取第一个最后修改日期

Extract the very first last modified date from Azure Data Lake topic using Azure Data factory

Azure 数据工厂中是否有任何方法可以从 Azure 数据湖中获取最早的最后修改日期。文件名可以是任何东西。我需要在数据湖主题中上传的第一个文件的最后修改日期。

例如:

+----------+------------------+
| Filename | LastModifiedDate |
+----------+------------------+
| File1    | 2021-10-01       |
| File2    | 2021-10-02       |
| File1    | 2021-10-03       |
+----------+------------------+

预期产出:2021-10-01

如有任何帮助,我们将不胜感激。 问候, 桑迪普

您可以使用 Get-Metadata Activity 浏览数据湖中的每个文件夹,就像在 MSFT Forum 上的这个已归档问题中所做的那样。

根据文件夹和文件的数量,这是一种检索数据湖中任何文件的最早日期的蛮力方法。

我发现使用 PowerShell 更容易;

$storageAccount = 'storageAccountName';
$resourceGroupName = 'resourceGroupName';
$storageAccountKey = (Get-AzStorageAccountKey -ResourceGroupName $resourceGroupName -Name $storageAccount | Select-Object -Property Value -First 1).Value
$context = New-AzStorageContext -StorageAccountName $storageAccount -StorageAccountKey $storageAccountKey
$allblobs = Get-AzStorageBlob -Container $containername -Context $context 
$allblobs | Sort-Object -Property LastModified | Select-Object -Property Name,LastModified -First 1

此 PowerShell 脚本 returns 具有最早 LastModified 值的文件的名称和 LastModified 日期时间。但是,运行 直接使用 ADF 的 PowerShell 脚本并不是那么简单。这里是 an article by Bob Blackburn 如何实现这一点。