猪变量存储

Pig variable storage

Pig 使用变量来存储数据。

当我将HDFS 中的数据加载到pig 中的变量时。数据暂时存放在哪里?

当我们将数据加载到变量中时,后台究竟发生了什么?

亲切的帮助

Pig 懒惰地评估大多数表达式。在大多数情况下,它会检查语法错误等。例如,

a = load 'hdfs://I/Dont/Exist'

不会抛出错误,除非您使用 STOREDUMP 或其他导致 a

评估的内容

类似地,如果文件存在并且您将其加载到关系并对其执行转换,该文件通常会被假脱机到 /tmp 文件夹,然后执行转换。如果您查看在 grunt 上执行 运行 命令时出现的消息,您会注意到文件路径以 file:///tmp/xxxxxx_201706171047235 开头。这些是存储中间数据的文件。