AutoML NL - 基于 ICD10-CM 的训练模型 - 所需的文本量

AutoML NL - Training model based on ICD10-CM - Amount of text required

我们目前正在为我们的医疗公司集成 ICD10-CM,用于患者诊断。 ICD10-CM 是一种用于诊断的编码系统。

我尝试以描述代码对的形式导入 ICD10-CM 数据,但很明显,它不起作用,因为 AutoML 需要该代码(标签)的更多文本。我在 Kaggle 上找到了一个数据集,但它只包含 ICD10 网站的 hrefs。我确实发现该网站包含多个与可用于训练我们所需模型的代码相关的文本和描述。

Kaggle 数据集: https://www.kaggle.com/shamssam/icd10datacom

来自 ICD10data.com 的页面示例: https://www.icd10data.com/ICD10CM/Codes/A00-B99/A15-A19/A17-/A17.0

最值得注意的领域是: - 近似同义词 - 临床信息 - 诊断指数

如果我根据这些页面中的句子制作数据集并将它们分配给它们的代码(标签),是否足以用于 AutoML 数据集训练?因为每个标签最终将有 2 个或更多文本,而不是只有一个,但与 demos/tutorials.

中的代码不同,每个代码肯定仍然少于 100 个

据我所知here,疾病代码具有树状结构,例如,所有 L00-L99 代码都指代 "Diseases of the skin and subcutaneous tissue"。同时L00-L08代码参考"Infections of the skin and subcutaneous tissue",依此类推

我的意思是,问题不是 90000 个不同独立标签的 90000 个示例,而是一个决策树(您根据先前的决策做出多个决策:第一步是选择大约 15 个中最重要的一个一般类别最适合,然后选择子类别等)

从这个意义上说,autoML 可能不是最好的产品,因为您无法实施考虑到所有这些因素的专门设计的决策树模型。

另一种使用 autoML 的方法是分别为每个决策进行训练,然后组合不同的模型。这对于决策的第一层很容易工作,但会成倍地耗时(为了能够更准确地预测而训练的模型数量随着准确度水平呈指数增长,准确我的意思是确认它是 L00-L08代替 L00-L99).

我希望这可以帮助您更好地理解问题以及可以提供的不同方法!