huggingface-transformers:训练 BERT 并使用不同的注意力对其进行评估

huggingface-transformers: Train BERT and evaluate it using different attentions

这是一个澄清问题。我正在尝试使用标准注意力训练 BERT provided by huggingface,并使用不同的注意力定义进行评估。

我想的操作是在以下命令中将bert-base-uncased更改为我训练模型(使用标准注意力)的路径,并在安装下运行 --do_eval我定制的注意力版本。

export GLUE_DIR=/path/to/glue
export TASK_NAME=MRPC

python ./examples/run_glue.py \
    --model_name_or_path bert-base-uncased \
    --task_name $TASK_NAME \
    --do_eval \
    --data_dir $GLUE_DIR/$TASK_NAME \
    --max_seq_length 128 \
    --per_gpu_eval_batch_size=8   \
    --per_gpu_train_batch_size=8   \
    --learning_rate 2e-5 \
    --num_train_epochs 3.0 \
    --output_dir /tmp/$TASK_NAME/

然而,我得到了意想不到的结果。所以我想确保我使用了正确的命令。谁能证实或纠正我?

已编辑:版本为 2.8.0。

是的。经@cronoik 确认,这是正确的操作。