huggingface-transformers：训练 BERT 并使用不同的注意力对其进行评估

Question

这是一个澄清问题。我正在尝试使用标准注意力训练 BERT provided by huggingface，并使用不同的注意力定义进行评估。

我想的操作是在以下命令中将bert-base-uncased更改为我训练模型（使用标准注意力）的路径，并在安装下运行 --do_eval我定制的注意力版本。

export GLUE_DIR=/path/to/glue
export TASK_NAME=MRPC

python ./examples/run_glue.py \
    --model_name_or_path bert-base-uncased \
    --task_name $TASK_NAME \
    --do_eval \
    --data_dir $GLUE_DIR/$TASK_NAME \
    --max_seq_length 128 \
    --per_gpu_eval_batch_size=8   \
    --per_gpu_train_batch_size=8   \
    --learning_rate 2e-5 \
    --num_train_epochs 3.0 \
    --output_dir /tmp/$TASK_NAME/

然而，我得到了意想不到的结果。所以我想确保我使用了正确的命令。谁能证实或纠正我？

已编辑：版本为 2.8.0。

Answer 1

是的。经@cronoik 确认，这是正确的操作。

huggingface-transformers：训练 BERT 并使用不同的注意力对其进行评估

huggingface-transformers: Train BERT and evaluate it using different attentions

transformer

huggingface-transformers