Pig 分布式缓存

Pig Distributed cache

getShipFilesgetCacheFilesEvalFunc class 中有什么区别?

假设此方法中指定的任何文件都可用于分布式缓存中的exec方法

getCacheFiles() 允许 UDF 指定要放置在分布式缓存中的 hdfs 文件列表。

getShipFiles() 允许 UDF 指定要放置在分布式缓存中的本地文件列表。

因此 getShipFiles 从本地文件中获取文件,而 Cache 从 HDFS 中获取文件。