从 Azure Blob 获取最新修改的文件
Getting the latest file modified from Azure Blob
假设我每天在我的 blob 存储中生成几个 json
文件。我想要做的是在我的任何目录中修改最新的文件。所以我的 blob 中会有这样的东西:
2016/01/02/test.json
2016/01/02/test2.json
2016/02/03/test.json
我想得到2016/02/03/test.json
。因此,一种方法是获取文件的完整路径并进行正则表达式检查以查找创建的最新目录,但如果我在每个目录中有多个 josn
文件,这将不起作用。有没有类似File.GetLastWriteTime
的东西可以得到最新修改的文件?
我正在使用这些代码来获取所有文件 btw:
public static CloudBlobContainer GetBlobContainer(string accountName, string accountKey, string containerName)
{
CloudStorageAccount storageAccount = new CloudStorageAccount(new StorageCredentials(accountName, accountKey), true);
// blob client
CloudBlobClient blobClient = storageAccount.CreateCloudBlobClient();
// container
CloudBlobContainer blobContainer = blobClient.GetContainerReference(containerName);
return blobContainer;
}
public static IEnumerable<IListBlobItem> GetBlobItems(CloudBlobContainer container)
{
IEnumerable<IListBlobItem> items = container.ListBlobs(useFlatBlobListing: true);
return items;
}
public static List<string> GetAllBlobFiles(IEnumerable<IListBlobItem> blobs)
{
var listOfFileNames = new List<string>();
foreach (var blob in blobs)
{
var blobFileName = blob.Uri.Segments.Last();
listOfFileNames.Add(blobFileName);
}
return listOfFileNames;
}
每个 IListBlobItem 都将是 CloudBlockBlob、CloudPageBlob 或 CloudBlobDirectory。
转换为块或页面 blob 或它们的共享基 class CloudBlob
后(最好使用 as
关键字并检查是否为空),您可以访问修改日期通过 blockBlob.Properties.LastModified
.
请注意,您的实现将对容器中的所有 blob 执行 O(n) 扫描,如果有数十万个文件,这可能需要一段时间。但是,目前没有办法更有效地查询 blob 存储(除非您滥用文件命名并以新日期按字母顺序排在第一位的方式对日期进行编码)。实际上,如果您需要更好的查询性能,我建议保留一个数据库 table 方便,它将所有文件列表表示为行,其中包含用于搜索的索引 DateModified 列和带有 blob 路径的列以便于访问文件。
使用Azure Web Jobs SDK。 SDK 具有监控 new/updated BLOB 的选项。
如 Yar 所说,您可以使用单个 blob 对象的 LastModified
属性。这是一个代码片段,展示了如何做到这一点,一旦您引用了正确的容器:
var latestBlob = container.ListBlobs()
.OfType<CloudBlockBlob>()
.OrderByDescending(m => m.Properties.LastModified)
.ToList()
.First();
注意:blob 类型可能不是 <CloudBlockBlob>
。如有必要,请务必进行更改。
如有问题使用blockBlob.Container.Properties.LastModified
//connection string
string storageAccount_connectionString = "**NOTE: CONNECTION STRING**";
// Retrieve storage account from connection string.
CloudStorageAccount storageAccount = CloudStorageAccount.Parse(storageAccount_connectionString);
// Create the blob client.
CloudBlobClient blobClient = storageAccount.CreateCloudBlobClient();
// Retrieve reference to a previously created container.
CloudBlobContainer container = blobClient.GetContainerReference("**NOTE:NAME OF CONTAINER**");
//The specified container does not exist
try
{
//root directory
CloudBlobDirectory dira = container.GetDirectoryReference(string.Empty);
//true for all sub directories else false
var rootDirFolders = dira.ListBlobsSegmentedAsync(true, BlobListingDetails.Metadata, null, null, null, null).Result;
foreach (var blob in rootDirFolders.Results)
{
if (blob is CloudBlockBlob blockBlob)
{
var time = blockBlob.Properties.LastModified;
Console.WriteLine("Data", time);
}
}
}
catch (Exception e)
{
// Block of code to handle errors
Console.WriteLine("Error", e);
}
使用Microsoft.Azure.Storage.Blob你可以得到如下:
using System;
using System.Collections.Generic;
using System.IO;
using System.Threading.Tasks;
using Microsoft.Azure.Storage;
using Microsoft.Azure.Storage.Blob;
namespace ListLastModificationOnBlob
{
class Program
{
static void Main(string[] args)
{
MainAsync().Wait();
}
static async Task MainAsync()
{
string storageAccount_connectionString = @"Your connection string";
// Retrieve storage account from connection string.
CloudStorageAccount storageAccount = CloudStorageAccount.Parse(storageAccount_connectionString);
// Create the blob client.
CloudBlobClient blobClient = storageAccount.CreateCloudBlobClient();
var containers = await ListContainersAsync(blobClient);
foreach (var container in containers)
{
Console.WriteLine(container.Name);
try
{
//root directory
CloudBlobDirectory dira = container.GetDirectoryReference(string.Empty);
//true for all sub directories else false
var rootDirFolders = dira.ListBlobsSegmentedAsync(true, BlobListingDetails.Metadata, null, null, null, null).Result;
using (var w = new StreamWriter($"{container.Name}.csv"))
{
foreach (var blob in rootDirFolders.Results)
{
if (blob is CloudBlob blockBlob)
{
var time = blockBlob.Properties.LastModified;
var created = blockBlob.Properties.Created;
var line = $"{blockBlob.Name},{created},{time}";
await w.WriteLineAsync(line);
await w.FlushAsync();
}
}
}
}
catch (Exception e)
{
// Block of code to handle errors
Console.WriteLine("Error", e);
}
}
}
private static async Task<IEnumerable<CloudBlobContainer>> ListContainersAsync(CloudBlobClient cloudBlobClient)
{
BlobContinuationToken continuationToken = null;
var containers = new List<CloudBlobContainer>();
do
{
ContainerResultSegment response = await cloudBlobClient.ListContainersSegmentedAsync(continuationToken);
continuationToken = response.ContinuationToken;
containers.AddRange(response.Results);
} while (continuationToken != null);
return containers;
}
}
}
给定存储帐户的以上代码:
- 获取帐户中的所有容器
- 以所有 blob 为容器
- 在 csv 文件中使用 blob 名称保存
Created
和 LastModified
(命名类似于容器)
以前的答案对于新的 V12 Nuget 包已经过时了。我使用以下指南帮助从版本 9 升级到版本 12
https://elcamino.cloud/articles/2020-03-30-azure-storage-blobs-net-sdk-v12-upgrade-guide-and-tips.html
新的nuget包是Azure.Storage.Blobs,我用的是12.8.4版本
以下代码将获取您的最后修改日期。您也可以编写此代码的异步版本。
using Microsoft.WindowsAzure.Storage;
using Microsoft.WindowsAzure.Storage.Blob;
using Azure.Storage.Blobs;
using Azure.Storage.Sas;
using Azure.Storage.Blobs.Specialized;
DateTimeOffset? GetLastModified()
{
BlobServiceClient blobServiceClient = new BlobServiceClient("connectionstring")
BlobContainerClient blobContainerClient = blobServiceClient.GetBlobContainerClient("blobname");
BlobClient blobClient = blobContainerClient.GetBlobClient("file.txt");
if (blobClient == null || !blobClient.Exists()) return null;
DateTimeOffset lastModified = blobClient.GetProperties().Value.LastModified;
return lastModified;
}
假设我每天在我的 blob 存储中生成几个 json
文件。我想要做的是在我的任何目录中修改最新的文件。所以我的 blob 中会有这样的东西:
2016/01/02/test.json
2016/01/02/test2.json
2016/02/03/test.json
我想得到2016/02/03/test.json
。因此,一种方法是获取文件的完整路径并进行正则表达式检查以查找创建的最新目录,但如果我在每个目录中有多个 josn
文件,这将不起作用。有没有类似File.GetLastWriteTime
的东西可以得到最新修改的文件?
我正在使用这些代码来获取所有文件 btw:
public static CloudBlobContainer GetBlobContainer(string accountName, string accountKey, string containerName)
{
CloudStorageAccount storageAccount = new CloudStorageAccount(new StorageCredentials(accountName, accountKey), true);
// blob client
CloudBlobClient blobClient = storageAccount.CreateCloudBlobClient();
// container
CloudBlobContainer blobContainer = blobClient.GetContainerReference(containerName);
return blobContainer;
}
public static IEnumerable<IListBlobItem> GetBlobItems(CloudBlobContainer container)
{
IEnumerable<IListBlobItem> items = container.ListBlobs(useFlatBlobListing: true);
return items;
}
public static List<string> GetAllBlobFiles(IEnumerable<IListBlobItem> blobs)
{
var listOfFileNames = new List<string>();
foreach (var blob in blobs)
{
var blobFileName = blob.Uri.Segments.Last();
listOfFileNames.Add(blobFileName);
}
return listOfFileNames;
}
每个 IListBlobItem 都将是 CloudBlockBlob、CloudPageBlob 或 CloudBlobDirectory。
转换为块或页面 blob 或它们的共享基 class CloudBlob
后(最好使用 as
关键字并检查是否为空),您可以访问修改日期通过 blockBlob.Properties.LastModified
.
请注意,您的实现将对容器中的所有 blob 执行 O(n) 扫描,如果有数十万个文件,这可能需要一段时间。但是,目前没有办法更有效地查询 blob 存储(除非您滥用文件命名并以新日期按字母顺序排在第一位的方式对日期进行编码)。实际上,如果您需要更好的查询性能,我建议保留一个数据库 table 方便,它将所有文件列表表示为行,其中包含用于搜索的索引 DateModified 列和带有 blob 路径的列以便于访问文件。
使用Azure Web Jobs SDK。 SDK 具有监控 new/updated BLOB 的选项。
如 Yar 所说,您可以使用单个 blob 对象的 LastModified
属性。这是一个代码片段,展示了如何做到这一点,一旦您引用了正确的容器:
var latestBlob = container.ListBlobs()
.OfType<CloudBlockBlob>()
.OrderByDescending(m => m.Properties.LastModified)
.ToList()
.First();
注意:blob 类型可能不是 <CloudBlockBlob>
。如有必要,请务必进行更改。
如有问题使用blockBlob.Container.Properties.LastModified
//connection string
string storageAccount_connectionString = "**NOTE: CONNECTION STRING**";
// Retrieve storage account from connection string.
CloudStorageAccount storageAccount = CloudStorageAccount.Parse(storageAccount_connectionString);
// Create the blob client.
CloudBlobClient blobClient = storageAccount.CreateCloudBlobClient();
// Retrieve reference to a previously created container.
CloudBlobContainer container = blobClient.GetContainerReference("**NOTE:NAME OF CONTAINER**");
//The specified container does not exist
try
{
//root directory
CloudBlobDirectory dira = container.GetDirectoryReference(string.Empty);
//true for all sub directories else false
var rootDirFolders = dira.ListBlobsSegmentedAsync(true, BlobListingDetails.Metadata, null, null, null, null).Result;
foreach (var blob in rootDirFolders.Results)
{
if (blob is CloudBlockBlob blockBlob)
{
var time = blockBlob.Properties.LastModified;
Console.WriteLine("Data", time);
}
}
}
catch (Exception e)
{
// Block of code to handle errors
Console.WriteLine("Error", e);
}
使用Microsoft.Azure.Storage.Blob你可以得到如下:
using System;
using System.Collections.Generic;
using System.IO;
using System.Threading.Tasks;
using Microsoft.Azure.Storage;
using Microsoft.Azure.Storage.Blob;
namespace ListLastModificationOnBlob
{
class Program
{
static void Main(string[] args)
{
MainAsync().Wait();
}
static async Task MainAsync()
{
string storageAccount_connectionString = @"Your connection string";
// Retrieve storage account from connection string.
CloudStorageAccount storageAccount = CloudStorageAccount.Parse(storageAccount_connectionString);
// Create the blob client.
CloudBlobClient blobClient = storageAccount.CreateCloudBlobClient();
var containers = await ListContainersAsync(blobClient);
foreach (var container in containers)
{
Console.WriteLine(container.Name);
try
{
//root directory
CloudBlobDirectory dira = container.GetDirectoryReference(string.Empty);
//true for all sub directories else false
var rootDirFolders = dira.ListBlobsSegmentedAsync(true, BlobListingDetails.Metadata, null, null, null, null).Result;
using (var w = new StreamWriter($"{container.Name}.csv"))
{
foreach (var blob in rootDirFolders.Results)
{
if (blob is CloudBlob blockBlob)
{
var time = blockBlob.Properties.LastModified;
var created = blockBlob.Properties.Created;
var line = $"{blockBlob.Name},{created},{time}";
await w.WriteLineAsync(line);
await w.FlushAsync();
}
}
}
}
catch (Exception e)
{
// Block of code to handle errors
Console.WriteLine("Error", e);
}
}
}
private static async Task<IEnumerable<CloudBlobContainer>> ListContainersAsync(CloudBlobClient cloudBlobClient)
{
BlobContinuationToken continuationToken = null;
var containers = new List<CloudBlobContainer>();
do
{
ContainerResultSegment response = await cloudBlobClient.ListContainersSegmentedAsync(continuationToken);
continuationToken = response.ContinuationToken;
containers.AddRange(response.Results);
} while (continuationToken != null);
return containers;
}
}
}
给定存储帐户的以上代码:
- 获取帐户中的所有容器
- 以所有 blob 为容器
- 在 csv 文件中使用 blob 名称保存
Created
和LastModified
(命名类似于容器)
以前的答案对于新的 V12 Nuget 包已经过时了。我使用以下指南帮助从版本 9 升级到版本 12 https://elcamino.cloud/articles/2020-03-30-azure-storage-blobs-net-sdk-v12-upgrade-guide-and-tips.html
新的nuget包是Azure.Storage.Blobs,我用的是12.8.4版本
以下代码将获取您的最后修改日期。您也可以编写此代码的异步版本。
using Microsoft.WindowsAzure.Storage;
using Microsoft.WindowsAzure.Storage.Blob;
using Azure.Storage.Blobs;
using Azure.Storage.Sas;
using Azure.Storage.Blobs.Specialized;
DateTimeOffset? GetLastModified()
{
BlobServiceClient blobServiceClient = new BlobServiceClient("connectionstring")
BlobContainerClient blobContainerClient = blobServiceClient.GetBlobContainerClient("blobname");
BlobClient blobClient = blobContainerClient.GetBlobClient("file.txt");
if (blobClient == null || !blobClient.Exists()) return null;
DateTimeOffset lastModified = blobClient.GetProperties().Value.LastModified;
return lastModified;
}