sqoop是否将临时数据溢出到磁盘

Question

据我了解，sqoop 会在不同的数据节点上启动几个映射器，从而与 RDBMS 建立 jdbc 连接。建立连接后，数据将传输到 HDFS。

只是想了解一下，sqoop mapper 会将数据临时溢出到磁盘（数据节点）上吗？我知道溢出发生在 MapReduce 中，但不确定 sqoop 作业。

Answer 1

似乎 sqoop-import 运行s 在映射器上并且不会溢出 。 sqoop-merge 运行s on map-reduce 并确实溢出。您可以在 sqoop import 运行.

期间在 Job tracker 上查看它

看看这部分sqoop import log，它没有溢出，抓取并写入hdfs:

INFO [main] ... mapreduce.db.DataDrivenDBRecordReader: Using query:  SELECT...
[main] mapreduce.db.DBRecordReader: Executing query:  SELECT...
INFO [main] org.apache.hadoop.mapreduce.lib.output.FileOutputCommitter: File Output Committer Algorithm version is 1
INFO [main] org.apache.hadoop.mapreduce.lib.output.FileOutputCommitter: FileOutputCommitter skip cleanup _temporary folders under output directory:false, ignore cleanup failures: false
INFO [main] org.apache.hadoop.io.compress.CodecPool: Got brand-new compressor [.snappy]
INFO [Thread-16] ...mapreduce.AutoProgressMapper: Auto-progress thread is finished. keepGoing=false
INFO [main] org.apache.hadoop.mapred.Task: Task:attempt_1489705733959_2462784_m_000000_0 is done. And is in the process of committing
INFO [main] org.apache.hadoop.mapreduce.lib.output.FileOutputCommitter: Saved output of task 'attempt_1489705733959_2462784_m_000000_0' to hdfs://

看看这个 sqoop-merge 日志（跳过了一些行），它溢出到磁盘上（注意日志中的 Spilling map output）：

    INFO [main] org.apache.hadoop.mapred.MapTask: Processing split: hdfs://bla-bla/part-m-00000:0+48322717
    ...
    INFO [main] org.apache.hadoop.mapreduce.lib.output.FileOutputCommitter: FileOutputCommitter skip cleanup _temporary folders under output directory:false, ignore cleanup failures: false
    ...
    INFO [main] org.apache.hadoop.mapred.MapTask: mapreduce.task.io.sort.mb: 1024
    INFO [main] org.apache.hadoop.mapred.MapTask: soft limit at 751619264
    INFO [main] org.apache.hadoop.mapred.MapTask: bufstart = 0; bufvoid = 1073741824
    INFO [main] org.apache.hadoop.mapred.MapTask: kvstart = 268435452; length = 67108864
    INFO [main] org.apache.hadoop.mapred.MapTask: Map output collector class = org.apache.hadoop.mapred.MapTask$**MapOutputBuffer**
    INFO [main] com.pepperdata.supervisor.agent.resource.r: Datanode bla-bla is LOCAL.
    INFO [main] org.apache.hadoop.io.compress.CodecPool: Got brand-new decompressor [.snappy]
    ...
    INFO [main] org.apache.hadoop.mapred.MapTask: **Starting flush of map output**
    INFO [main] org.apache.hadoop.mapred.MapTask: **Spilling map output**
    INFO [main] org.apache.hadoop.mapred.MapTask: **bufstart** = 0; **bufend** = 184775274; bufvoid = 1073741824
    INFO [main] org.apache.hadoop.mapred.MapTask: kvstart = 268435452(1073741808); kvend = 267347800(1069391200); length = 1087653/67108864
    INFO [main] org.apache.hadoop.io.compress.CodecPool: Got brand-new compressor [.snappy]
[main] org.apache.hadoop.mapred.MapTask: Finished spill 0
    ...Task:attempt_1489705733959_2479291_m_000000_0 is done. And is in the process of committing

sqoop是否将临时数据溢出到磁盘

Does sqoop spill temporary data to disk

hadoop

hdfs

sqoop