Azure 数据湖中的元数据
Meta data in Azure data lake
我用 C# 编写了一个 Azure 函数,它递归地遍历数据湖并生成一个包含数据湖中所有文件和文件夹的元数据(文件名、路径、大小修改日期等)的文件。
这需要相当长的时间,因为我们有很多文件和素材。所以我想知道是否有我们可以直接从中提取这些数据的元数据存储?我想到了 SQL 服务器中的 sys 表之类的东西。
提前致谢!
即将发布的有关文件信息的一些功能将为您提供一些文件系统元数据属性。但是您仍然需要自己枚举文件夹层次结构。
例如:
@data =
EXTRACT
vehicle_id int
, entry_id long
, event_date DateTime
, latitude float
, longitude float
, speed int
, direction string
, trip_id int?
, uri = FILE.URI()
, modified_date = FILE.MODIFIED()
, created_date = FILE.CREATED()
, file_sz = FILE.LENGTH()
FROM "/Samples/Data/AmbulanceData/vehicle{*}"
USING Extractors.Csv();
OUTPUT @data
TO "/output/releasenotes/winter2018/fileprops.csv"
USING Outputters.Csv(outputHeader : true);
我建议您在 http://aka.ms/adlfeedback 提交文件系统 meta-data 目录视图(例如 usql.files
和 usql.filesystem
)的请求,以增加我们的元数据目录视图.
我用 C# 编写了一个 Azure 函数,它递归地遍历数据湖并生成一个包含数据湖中所有文件和文件夹的元数据(文件名、路径、大小修改日期等)的文件。
这需要相当长的时间,因为我们有很多文件和素材。所以我想知道是否有我们可以直接从中提取这些数据的元数据存储?我想到了 SQL 服务器中的 sys 表之类的东西。
提前致谢!
即将发布的有关文件信息的一些功能将为您提供一些文件系统元数据属性。但是您仍然需要自己枚举文件夹层次结构。
例如:
@data =
EXTRACT
vehicle_id int
, entry_id long
, event_date DateTime
, latitude float
, longitude float
, speed int
, direction string
, trip_id int?
, uri = FILE.URI()
, modified_date = FILE.MODIFIED()
, created_date = FILE.CREATED()
, file_sz = FILE.LENGTH()
FROM "/Samples/Data/AmbulanceData/vehicle{*}"
USING Extractors.Csv();
OUTPUT @data
TO "/output/releasenotes/winter2018/fileprops.csv"
USING Outputters.Csv(outputHeader : true);
我建议您在 http://aka.ms/adlfeedback 提交文件系统 meta-data 目录视图(例如 usql.files
和 usql.filesystem
)的请求,以增加我们的元数据目录视图.