huggingface-transformers:训练 BERT 并使用不同的注意力对其进行评估
huggingface-transformers: Train BERT and evaluate it using different attentions
这是一个澄清问题。我正在尝试使用标准注意力训练 BERT provided by huggingface,并使用不同的注意力定义进行评估。
我想的操作是在以下命令中将bert-base-uncased
更改为我训练模型(使用标准注意力)的路径,并在安装下运行 --do_eval
我定制的注意力版本。
export GLUE_DIR=/path/to/glue
export TASK_NAME=MRPC
python ./examples/run_glue.py \
--model_name_or_path bert-base-uncased \
--task_name $TASK_NAME \
--do_eval \
--data_dir $GLUE_DIR/$TASK_NAME \
--max_seq_length 128 \
--per_gpu_eval_batch_size=8 \
--per_gpu_train_batch_size=8 \
--learning_rate 2e-5 \
--num_train_epochs 3.0 \
--output_dir /tmp/$TASK_NAME/
然而,我得到了意想不到的结果。所以我想确保我使用了正确的命令。谁能证实或纠正我?
已编辑:版本为 2.8.0。
是的。经@cronoik 确认,这是正确的操作。
这是一个澄清问题。我正在尝试使用标准注意力训练 BERT provided by huggingface,并使用不同的注意力定义进行评估。
我想的操作是在以下命令中将bert-base-uncased
更改为我训练模型(使用标准注意力)的路径,并在安装下运行 --do_eval
我定制的注意力版本。
export GLUE_DIR=/path/to/glue
export TASK_NAME=MRPC
python ./examples/run_glue.py \
--model_name_or_path bert-base-uncased \
--task_name $TASK_NAME \
--do_eval \
--data_dir $GLUE_DIR/$TASK_NAME \
--max_seq_length 128 \
--per_gpu_eval_batch_size=8 \
--per_gpu_train_batch_size=8 \
--learning_rate 2e-5 \
--num_train_epochs 3.0 \
--output_dir /tmp/$TASK_NAME/
然而,我得到了意想不到的结果。所以我想确保我使用了正确的命令。谁能证实或纠正我?
已编辑:版本为 2.8.0。
是的。经@cronoik 确认,这是正确的操作。