Apache Pig - 如何为我的 python UDF 维护分布式查找 table 以供访问?
Apache Pig - How to maintain a distributed look-up table for my python UDF to access?
在我的 Pig 脚本中,有一个中间步骤,我想将生成的服务器主机名映射到应用程序名称。我有一个使用此映射从数据库创建的文本文件(~10k 条记录)。但我不确定如何将此文本文件分发到猪中并在运行时访问它们。请帮助..!!
这是使用 Pig 的 fragment-replicate join 算法的完美用例。您可以将查找 table 作为 Pig 关系加载,并将其与您的实际数据相结合。
A = LOAD 'data1' USING ... AS ...;
B = LOAD 'lookuptable' USING ... AS ...;
C = JOIN A BY join_key, B BY join_key USING 'replicated';
请注意,您要加载到内存中的 table 应该位于连接的右侧,如上所示。
在我的 Pig 脚本中,有一个中间步骤,我想将生成的服务器主机名映射到应用程序名称。我有一个使用此映射从数据库创建的文本文件(~10k 条记录)。但我不确定如何将此文本文件分发到猪中并在运行时访问它们。请帮助..!!
这是使用 Pig 的 fragment-replicate join 算法的完美用例。您可以将查找 table 作为 Pig 关系加载,并将其与您的实际数据相结合。
A = LOAD 'data1' USING ... AS ...;
B = LOAD 'lookuptable' USING ... AS ...;
C = JOIN A BY join_key, B BY join_key USING 'replicated';
请注意,您要加载到内存中的 table 应该位于连接的右侧,如上所示。