Apache Pig - 如何为我的 python UDF 维护分布式查找 table 以供访问？

Apache Pig - How to maintain a distributed look-up table for my python UDF to access?

在我的 Pig 脚本中，有一个中间步骤，我想将生成的服务器主机名映射到应用程序名称。我有一个使用此映射从数据库创建的文本文件（~10k 条记录）。但我不确定如何将此文本文件分发到猪中并在运行时访问它们。请帮助..!!

这是使用 Pig 的 fragment-replicate join 算法的完美用例。您可以将查找 table 作为 Pig 关系加载，并将其与您的实际数据相结合。

A = LOAD 'data1' USING ... AS ...;
B = LOAD 'lookuptable' USING ... AS ...;
C = JOIN A BY join_key, B BY join_key USING 'replicated';

请注意，您要加载到内存中的 table 应该位于连接的右侧，如上所示。