我能有任何关于 Azure Data Lake Internals 的书籍吗?
Can i have any books about Azure Data Lake Internals?
我不想将 ADL 和 ADLA 用作黑匣子。我需要了解齿轮如何在引擎盖下旋转以有效地使用它。
我在哪里可以找到描述内部结构的信息:
- 如何处理 U-SQL 查询
- 并行是如何工作的
- 低级别的 ADL 中存储是如何组织的
- DB 的存储在低级别的 ADL 中是如何组织的(是行存储还是列存储)
- 如何组织分区
- 等等
有很多描述 RDBMS 引擎内部结构的书籍和白皮书。 ADL/ADLA 是否存在?
有很多人在 Azure 工作。您能否发布任何 drafts/whitepappers 以按原样使用(非正式地)。
这是一个相当宽泛的问题。我假设您已经开始使用有关 ADLA 和 U-SQL 的现有文档?
https://docs.microsoft.com/en-us/azure/data-lake-analytics/
https://msdn.microsoft.com/library/azure/mt591959
ADLA 于 2016 年 11 月正式发布,与 SQL 服务器于 1987 年相比 - 这是一个非常完美的比较。
也许我们可以从您的具体问题开始?
我们提供的演示文稿中提供了其中一些信息。例如,您可以在我的幻灯片共享帐户中找到其中一些演示文稿:http://www.slideshare.net/MichaelRys.
回答您上面的一些问题:
U-SQL table 的当前聚簇索引版本存储在您的目录文件夹中,结构为所谓的结构化流文件。这些是高度可压缩的横向扩展文件,使用面向行的结构以及独立的元数据和统计信息(可以创建更详细的统计信息)。 table 构造提供了 2 级分区:可寻址分区和内部分配方案(HASH、RANGE 等)。两者都有助于并行化,尽管分配方案更多是为了性能,而分区更多是为了数据生命周期管理。它们没有限制,尽管最佳点是每个分发桶 1GB 到 4GB。
1个AU基本上就是1个容器。 ADLS 在架构上不是 HDFS,但提供 WebHDFS API 以实现兼容性。
我不想将 ADL 和 ADLA 用作黑匣子。我需要了解齿轮如何在引擎盖下旋转以有效地使用它。
我在哪里可以找到描述内部结构的信息:
- 如何处理 U-SQL 查询
- 并行是如何工作的
- 低级别的 ADL 中存储是如何组织的
- DB 的存储在低级别的 ADL 中是如何组织的(是行存储还是列存储)
- 如何组织分区
- 等等
有很多描述 RDBMS 引擎内部结构的书籍和白皮书。 ADL/ADLA 是否存在?
有很多人在 Azure 工作。您能否发布任何 drafts/whitepappers 以按原样使用(非正式地)。
这是一个相当宽泛的问题。我假设您已经开始使用有关 ADLA 和 U-SQL 的现有文档? https://docs.microsoft.com/en-us/azure/data-lake-analytics/ https://msdn.microsoft.com/library/azure/mt591959
ADLA 于 2016 年 11 月正式发布,与 SQL 服务器于 1987 年相比 - 这是一个非常完美的比较。
也许我们可以从您的具体问题开始?
我们提供的演示文稿中提供了其中一些信息。例如,您可以在我的幻灯片共享帐户中找到其中一些演示文稿:http://www.slideshare.net/MichaelRys.
回答您上面的一些问题:
U-SQL table 的当前聚簇索引版本存储在您的目录文件夹中,结构为所谓的结构化流文件。这些是高度可压缩的横向扩展文件,使用面向行的结构以及独立的元数据和统计信息(可以创建更详细的统计信息)。 table 构造提供了 2 级分区:可寻址分区和内部分配方案(HASH、RANGE 等)。两者都有助于并行化,尽管分配方案更多是为了性能,而分区更多是为了数据生命周期管理。它们没有限制,尽管最佳点是每个分发桶 1GB 到 4GB。
1个AU基本上就是1个容器。 ADLS 在架构上不是 HDFS,但提供 WebHDFS API 以实现兼容性。