terasort 的工作原理

Question

我尝试使用 hadoop terasort，它与 teragen 和 teravalid 配合使用效果很好。然后我想知道 terasort 是如何工作的。我认为 terasort 的工作方式类似于 linux 中的 sort 命令。所以我制作了一个如下所示的文本文件：

I have a pen.
my name is ~
I went to my lab yesterday
...

然后运行 terasort 但返回错误 "read past eof"。

我看到了"part-m-00000"是teragen生成的，但是看不懂。

请告诉我 terasort 是如何工作的。

Answer 1

EOF 表示文件在读取 1 tera 字节（随机分布的）数据之前已被完全消耗

因此它在尝试对任何内容进行排序之前退出

Answer 2

Terasort 不需要太字节的输入数据，但它假定数据采用 Teragen 生成的格式。更具体地说：

How terasort works