通过 gcloud dataproc 读取张量文件

Question

你好，我应该如何修改我的代码才能正确读取数据集 2？

 %%writefile read_rdd.py 
def read_RDD(argv):
  parser = argparse.ArgumentParser() # get a parser object
  parser.add_argument('--test_set', metavar='test_set', type =ParallelMapDataset) 
  args = parser.parse_args(argv) # read the value
  args.test_set.take(3) 
  for i in args.test_set:
    print(i)

并执行

test_set = dataset2     #dataset2 cannot be inserted
!gcloud dataproc jobs submit pyspark --cluster $CLUSTER --region $REGION \
    ./read_rdd.py \
    --  --test_set $test_set 

                                                                                                                                  aditional information

类型（数据集2）=tensorflow.python.data.ops.dataset_ops

我尝试将 type =ParallelMapDataset 更改为 type=argparse.FileType('r') 但它也不起作用

目前我无法提交工作我正在安装

/bin/bash: -c: 第 0 行：意外标记附近的语法错误 (' /bin/bash: -c: line 0:gcloud dataproc 作业提交 pyspark --cluster bigdatapart2-cluster --region us-central1 ./read_rdd.py -- --test_set '

Answer 1

请注意，您通过 gcloud dataproc jobs submit pyspark 传递的参数已转换为标准命令行。尝试用引号将参数括起来：

test_set = dataset2     #dataset2 cannot be inserted
!gcloud dataproc jobs submit pyspark --cluster $CLUSTER --region $REGION \
    ./read_rdd.py \
    --  --test_set "$test_set"

通过 gcloud dataproc 读取张量文件

read tensor file via gcloud dataproc

argparse

rdd

pyspark

google-cloud-dataproc

tensorflow