在医疗数据集上微调 Bert
Fine Tuning Bert on Medical Dataset
我想使用 Bert 等语言模型来获取描述医疗状况的特定文本的特征向量。
由于大多数预训练模型和标记器都不知道文本中的许多单词,我想知道完成此任务需要哪些步骤?
使用预训练模型似乎对我有益,因为描述医疗状况的数据集非常小。
是的,这个问题太笼统了,不适合放在 Stack Overflow 上,但我会尝试提供一些有用的建议。
尝试寻找任何现有的 medical
预训练模型。
否则,微调 BERT/RoBERTa 在您的域或您正在处理的任何下游任务(classification/Question 回答),以便它捕获您的未知医学术语语料库.
截至目前,这里有两个基于 BERT 的预训练医学模型。根据粗略的数字,它们可能比单独使用 BERT 的性能提高 4-5%,具体取决于任务:
BioBERT 存储库提供用于微调 BioBERT 的代码,BioBERT 是一种生物医学语言表示模型,专为生物医学命名实体识别、关系提取等生物医学文本挖掘任务而设计, 问答等
BlueBERT 存储库提供 BlueBERT 的代码和模型,在 PubMed 摘要和临床笔记 (MIMIC-III) 上进行了预训练。
我想使用 Bert 等语言模型来获取描述医疗状况的特定文本的特征向量。
由于大多数预训练模型和标记器都不知道文本中的许多单词,我想知道完成此任务需要哪些步骤?
使用预训练模型似乎对我有益,因为描述医疗状况的数据集非常小。
是的,这个问题太笼统了,不适合放在 Stack Overflow 上,但我会尝试提供一些有用的建议。
尝试寻找任何现有的
medical
预训练模型。否则,微调 BERT/RoBERTa 在您的域或您正在处理的任何下游任务(classification/Question 回答),以便它捕获您的未知医学术语语料库.
截至目前,这里有两个基于 BERT 的预训练医学模型。根据粗略的数字,它们可能比单独使用 BERT 的性能提高 4-5%,具体取决于任务:
BioBERT 存储库提供用于微调 BioBERT 的代码,BioBERT 是一种生物医学语言表示模型,专为生物医学命名实体识别、关系提取等生物医学文本挖掘任务而设计, 问答等
BlueBERT 存储库提供 BlueBERT 的代码和模型,在 PubMed 摘要和临床笔记 (MIMIC-III) 上进行了预训练。