Pig 分布式缓存
Pig Distributed cache
getShipFiles
和 getCacheFiles
在 EvalFunc
class 中有什么区别?
假设此方法中指定的任何文件都可用于分布式缓存中的exec
方法
getCacheFiles()
允许 UDF 指定要放置在分布式缓存中的 hdfs 文件列表。
getShipFiles()
允许 UDF 指定要放置在分布式缓存中的本地文件列表。
因此 getShipFiles 从本地文件中获取文件,而 Cache 从 HDFS 中获取文件。
getShipFiles
和 getCacheFiles
在 EvalFunc
class 中有什么区别?
假设此方法中指定的任何文件都可用于分布式缓存中的exec
方法
getCacheFiles() 允许 UDF 指定要放置在分布式缓存中的 hdfs 文件列表。
getShipFiles() 允许 UDF 指定要放置在分布式缓存中的本地文件列表。
因此 getShipFiles 从本地文件中获取文件,而 Cache 从 HDFS 中获取文件。