来自用于分类的连续测量的特征
Features from consecutive measurements for classification
我目前正在从事一个小型机器学习项目。
该任务处理数千名患者的医疗数据。对于每位患者,每隔一小时对同一组生命体征进行 12 次测量。
这些测量必须注意在患者进入医院后立即进行,但可以从一些偏差开始。但病人总共要在医院停留24小时,所以他们不能迟于入院后11小时后开始。
现在的任务是为每位患者预测是否none,在剩余的住院期间将进行 10 项可能的测试中的一项或多项,并预测其中一些的未来平均值剩余时间的生命体征。
我有一个训练集,其中包含我应该预测的标签。
我的问题主要是关于如何处理这些特征,我想过把一个病人的测量结果变成一个长向量,然后用它作为分类器的训练样本。
但是,我不太确定应该如何将每次测量的时间信息包含到特征中(我什至应该考虑时间吗?)。
如果我没理解错的话,你想将每次测量的时间信息包含到特征中。我想到的一种方法是制作一个长度为 24 的空向量,因为病人要在医院呆 24 小时。那么你可以使用one-hot representation,例如,如果测量是在他停留的第12、15和20个小时进行的,那么你的时间特征向量将在第12、15和20个位置为1,其他所有为零。您可以将此时间向量附加到其他特征,并为每个长度为 length = length(other vector) + length(time vector) 的患者制作一个向量。或者您可以使用不同的方法来组合这些功能。
如果您认为这种方法对您有意义,请告诉我。谢谢。
我目前正在从事一个小型机器学习项目。 该任务处理数千名患者的医疗数据。对于每位患者,每隔一小时对同一组生命体征进行 12 次测量。 这些测量必须注意在患者进入医院后立即进行,但可以从一些偏差开始。但病人总共要在医院停留24小时,所以他们不能迟于入院后11小时后开始。
现在的任务是为每位患者预测是否none,在剩余的住院期间将进行 10 项可能的测试中的一项或多项,并预测其中一些的未来平均值剩余时间的生命体征。 我有一个训练集,其中包含我应该预测的标签。
我的问题主要是关于如何处理这些特征,我想过把一个病人的测量结果变成一个长向量,然后用它作为分类器的训练样本。 但是,我不太确定应该如何将每次测量的时间信息包含到特征中(我什至应该考虑时间吗?)。
如果我没理解错的话,你想将每次测量的时间信息包含到特征中。我想到的一种方法是制作一个长度为 24 的空向量,因为病人要在医院呆 24 小时。那么你可以使用one-hot representation,例如,如果测量是在他停留的第12、15和20个小时进行的,那么你的时间特征向量将在第12、15和20个位置为1,其他所有为零。您可以将此时间向量附加到其他特征,并为每个长度为 length = length(other vector) + length(time vector) 的患者制作一个向量。或者您可以使用不同的方法来组合这些功能。
如果您认为这种方法对您有意义,请告诉我。谢谢。