如何在调试模式下运行配置单元
how to run hive in debug mode
我从cloudera网站上拿了例子来编写一个自定义的SerDe来解析文件
http://blog.cloudera.com/blog/2012/12/how-to-use-a-serde-in-apache-hive/
这似乎是一个很好的例子,但是当我使用自定义 serde
创建 table
ADD JAR <path-to-hive-serdes-jar>;
CREATE EXTERNAL TABLE tweets (
id BIGINT,
created_at STRING,
source STRING,
favorited BOOLEAN,
retweeted_status STRUCT<
text:STRING,
user:STRUCT<screen_name:STRING,name:STRING>,
retweet_count:INT>,
entities STRUCT<
urls:ARRAY<STRUCT<expanded_url:STRING>>,
user_mentions:ARRAY<STRUCT<screen_name:STRING,name:STRING>>,
hashtags:ARRAY<STRUCT<text:STRING>>>,
text STRING,
user STRUCT<
screen_name:STRING,
name:STRING,
friends_count:INT,
followers_count:INT,
statuses_count:INT,
verified:BOOLEAN,
utc_offset:INT,
time_zone:STRING>,
in_reply_to_screen_name STRING
)
PARTITIONED BY (datehour INT)
ROW FORMAT SERDE 'com.cloudera.hive.serde.JSONSerDe'
LOCATION '/user/flume/tweets';
它执行得非常好,但是当我这样做时
select * from tweets;
我什么也没得到,所以我想知道我是否可以在调试模式下运行配置单元以查看它在哪里失败
Hive代码可以debugged.Thislink可能对你有帮助:https://cwiki.apache.org/confluence/display/Hive/DeveloperGuide#DeveloperGuide-DebuggingHiveCode
您最好通过将记录器模式切换为 DEBUG 来启动配置单元 shell,如下所示,我希望您能从中找到有用的东西。
hive --hiveconf hive.root.logger=DEBUG,console
设置 hive --hiveconf hive.root.logger=DEBUG,console
可能并不总是有效,因为公司特定的设置。
我最终在主目录中创建了一个 hive-log4j.properties
文件,设置如下:
log4j.rootCategory=DEBUG,console
log4j.appender.console=org.apache.log4j.ConsoleAppender
log4j.appender.console.target=System.err
log4j.appender.console.layout=org.apache.log4j.PatternLayout
log4j.appender.console.layout.ConversionPattern=%d{yy/MM/dd HH:mm:ss} %p %c{1}: %m%n
并使用 CLASSPATH=$HOME hive
启动配置单元 shell,这会在类路径前面添加具有 hive-log4j.properties
的主目录,因此会被拾取。
我从cloudera网站上拿了例子来编写一个自定义的SerDe来解析文件
http://blog.cloudera.com/blog/2012/12/how-to-use-a-serde-in-apache-hive/
这似乎是一个很好的例子,但是当我使用自定义 serde
创建 tableADD JAR <path-to-hive-serdes-jar>;
CREATE EXTERNAL TABLE tweets (
id BIGINT,
created_at STRING,
source STRING,
favorited BOOLEAN,
retweeted_status STRUCT<
text:STRING,
user:STRUCT<screen_name:STRING,name:STRING>,
retweet_count:INT>,
entities STRUCT<
urls:ARRAY<STRUCT<expanded_url:STRING>>,
user_mentions:ARRAY<STRUCT<screen_name:STRING,name:STRING>>,
hashtags:ARRAY<STRUCT<text:STRING>>>,
text STRING,
user STRUCT<
screen_name:STRING,
name:STRING,
friends_count:INT,
followers_count:INT,
statuses_count:INT,
verified:BOOLEAN,
utc_offset:INT,
time_zone:STRING>,
in_reply_to_screen_name STRING
)
PARTITIONED BY (datehour INT)
ROW FORMAT SERDE 'com.cloudera.hive.serde.JSONSerDe'
LOCATION '/user/flume/tweets';
它执行得非常好,但是当我这样做时
select * from tweets;
我什么也没得到,所以我想知道我是否可以在调试模式下运行配置单元以查看它在哪里失败
Hive代码可以debugged.Thislink可能对你有帮助:https://cwiki.apache.org/confluence/display/Hive/DeveloperGuide#DeveloperGuide-DebuggingHiveCode
您最好通过将记录器模式切换为 DEBUG 来启动配置单元 shell,如下所示,我希望您能从中找到有用的东西。
hive --hiveconf hive.root.logger=DEBUG,console
设置 hive --hiveconf hive.root.logger=DEBUG,console
可能并不总是有效,因为公司特定的设置。
我最终在主目录中创建了一个 hive-log4j.properties
文件,设置如下:
log4j.rootCategory=DEBUG,console
log4j.appender.console=org.apache.log4j.ConsoleAppender
log4j.appender.console.target=System.err
log4j.appender.console.layout=org.apache.log4j.PatternLayout
log4j.appender.console.layout.ConversionPattern=%d{yy/MM/dd HH:mm:ss} %p %c{1}: %m%n
并使用 CLASSPATH=$HOME hive
启动配置单元 shell,这会在类路径前面添加具有 hive-log4j.properties
的主目录,因此会被拾取。