Azure Purview - 扫描文件类型
Azure Purview - Scan file types
我们正在扫描 Azure 数据湖(第 2 代)。在扫描结果中,我们得到了一些我们不想出现在资产登记册中的文件——例如,如下所示的配置文件 (.wmk)。是否有办法隐藏某种类型的所有文件?我查看了扫描规则,看看自定义规则是否有效,文件类型 (.wmk) 未列为扫描目标,但它确实出现在资产登记册中。
类似地适用于数据湖文件夹,我们只想看到资源集而不是资产中的文件夹。
有没有办法让它们不显示在资产中?
扫描前,您可以通过选择列表中的适当项目,将扫描范围 扫描到特定文件夹或子文件夹。注册和扫描数据源后,数据映射会提取有关数据源结构(分层命名空间)的信息。此信息用于构建数据发现的浏览体验。
Note:
- All future assets under a certain parent will be automatically selected if the parent is fully or partially checked
- After a successful scan, there may be delay before newly scanned assets appear in the browse experience. This delay may take up to a
few hours.
在目录中搜索资产时,运算符可以用于编写搜索查询。
具体来说,您可以使用全部大写的布尔运算符 NOT 来指定资产不能包含的内容作为子句右侧的关键字,或者使用 '*' 匹配一对多字符的通配符,这样您的查询就不会 return 具有 (.wmk) 属性的资产。
Example: Expense NOT wmk NOT *.wmk
(运算符可以根据需要在单个查询中组合多次。)
资源集的概念:
- 资源集是目录中的单个 object,代表一个
存储大量资产。
- 解决将大量数据资产映射到
单个逻辑资源,Azure Purview 使用资源集。
- Azure Purview 在扫描时自动检测资源集。这个
该功能查看通过扫描和获取的所有数据
将其与一组 定义的模式 进行比较。然后它从一个切换
全扫描到样本扫描。
- 在样本扫描中,它只打开它认为的文件的一个子集
在资源集中。对于它打开的每个文件,它使用它的
架构并运行其分类器。
- Azure Purview 然后在打开的资源中找到最新的资源
资源并在
目录中整个资源集的条目。 存储聚合
有关组成资源的分区资源的信息
设置。
要自定义或覆盖 Azure Purview 如何检测哪些资产被分组为资源集以及它们在目录中的显示方式,您可以定义模式管理中心规则
创建资源集模式规则:
- 前往管理中心。 Select 菜单中的模式规则
在资源集标题下。 Select + new 创建新规则
设置。
- 输入您的资源集模式规则的范围。 (文件夹路径)
- 适当更新字段,主要是您的情况,合格
名称和不分组为资源集
Note: After a pattern rule is created, all new scans will apply the
rule during ingestion. Existing assets in the data catalog will be
updated via a background process which can take up to a few hours.
E示例:不要将 .wmk 文件分组到资源集中s
输入文件:
https://myazureblob.blob.core.windows.net/bar/raw/Expense-7/01-01-2020/22:33:22-001.xls
https://myazureblob.blob.core.windows.net/bar/raw/Expense-8/01-01-2020/22:33:22-002.wmk
模式规则
Scope: https://myazureblob.blob.core.windows.net/bar/
Display name: Expense-{{Fileid}}
Qualified Name: raw/Filename-{{Fileid:int}}/{{:date}}/{{:time}}-{{:int}}.wmk
Resource Set: false
输出单个资产
Asset 1
Display name: Expense-7
Qualified Name: https://myazureblob.blob.core.windows.net/bar/raw/Expense-7/01-01-2020/22:33:22-001.xls
此外,如果您觉得这没有帮助,您可以分享您的 Feedback 以便产品团队研究这个想法。 ✌
我们正在扫描 Azure 数据湖(第 2 代)。在扫描结果中,我们得到了一些我们不想出现在资产登记册中的文件——例如,如下所示的配置文件 (.wmk)。是否有办法隐藏某种类型的所有文件?我查看了扫描规则,看看自定义规则是否有效,文件类型 (.wmk) 未列为扫描目标,但它确实出现在资产登记册中。
类似地适用于数据湖文件夹,我们只想看到资源集而不是资产中的文件夹。
有没有办法让它们不显示在资产中?
扫描前,您可以通过选择列表中的适当项目,将扫描范围 扫描到特定文件夹或子文件夹。注册和扫描数据源后,数据映射会提取有关数据源结构(分层命名空间)的信息。此信息用于构建数据发现的浏览体验。
Note:
- All future assets under a certain parent will be automatically selected if the parent is fully or partially checked
- After a successful scan, there may be delay before newly scanned assets appear in the browse experience. This delay may take up to a few hours.
在目录中搜索资产时,运算符可以用于编写搜索查询。
具体来说,您可以使用全部大写的布尔运算符 NOT 来指定资产不能包含的内容作为子句右侧的关键字,或者使用 '*' 匹配一对多字符的通配符,这样您的查询就不会 return 具有 (.wmk) 属性的资产。
Example: Expense NOT wmk NOT *.wmk
(运算符可以根据需要在单个查询中组合多次。)
资源集的概念:
- 资源集是目录中的单个 object,代表一个 存储大量资产。
- 解决将大量数据资产映射到 单个逻辑资源,Azure Purview 使用资源集。
- Azure Purview 在扫描时自动检测资源集。这个 该功能查看通过扫描和获取的所有数据 将其与一组 定义的模式 进行比较。然后它从一个切换 全扫描到样本扫描。
- 在样本扫描中,它只打开它认为的文件的一个子集 在资源集中。对于它打开的每个文件,它使用它的 架构并运行其分类器。
- Azure Purview 然后在打开的资源中找到最新的资源 资源并在 目录中整个资源集的条目。 存储聚合 有关组成资源的分区资源的信息 设置。
要自定义或覆盖 Azure Purview 如何检测哪些资产被分组为资源集以及它们在目录中的显示方式,您可以定义模式管理中心规则
创建资源集模式规则:
- 前往管理中心。 Select 菜单中的模式规则 在资源集标题下。 Select + new 创建新规则 设置。
- 输入您的资源集模式规则的范围。 (文件夹路径)
- 适当更新字段,主要是您的情况,合格 名称和不分组为资源集
Note: After a pattern rule is created, all new scans will apply the rule during ingestion. Existing assets in the data catalog will be updated via a background process which can take up to a few hours.
E示例:不要将 .wmk 文件分组到资源集中s
输入文件:
https://myazureblob.blob.core.windows.net/bar/raw/Expense-7/01-01-2020/22:33:22-001.xls
https://myazureblob.blob.core.windows.net/bar/raw/Expense-8/01-01-2020/22:33:22-002.wmk
模式规则
Scope: https://myazureblob.blob.core.windows.net/bar/
Display name: Expense-{{Fileid}}
Qualified Name: raw/Filename-{{Fileid:int}}/{{:date}}/{{:time}}-{{:int}}.wmk
Resource Set: false
输出单个资产
Asset 1
Display name: Expense-7
Qualified Name: https://myazureblob.blob.core.windows.net/bar/raw/Expense-7/01-01-2020/22:33:22-001.xls
此外,如果您觉得这没有帮助,您可以分享您的 Feedback 以便产品团队研究这个想法。 ✌