个人项目的最佳数据分析 techniques/models
Best data analytic techniques/models for personal project
我不太确定该如何表达,如果格式有误,我深表歉意,但我正在努力打下基础,以便自己解决这个问题。
我正在尝试为 "Hip Surgery Patients" 的一组数据开发预测算法,如下所示:
Readmission Time | Symptom Code | Symptom Note | Related
6 | 2334 | swelling in hip | Yes
12 | 1324 | anxiety | Maybe
8 | 2334 | swelling in hip | Yes
30 | 1111 | Headaches | No
3 | 7934 | easily bruising | Yes
对于上下文,医生可以确定给定的 "Symptom Code" 是否与 X 天前发生的 "Hip Replacement Surgery" 相关。我的数据集中有大约 200 个条目符合这种格式,我的目标是能够匹配给定集合中的结果以及预测 "Related" 列中的新结果(具有预测结果的确定性统计数据)基于新的输入。例如给定:
Input: 20 | 2334 | swelling in hip
Output: Yes (90% confidence)
我对数据分析和机器学习还很陌生,所以我真的很想获得一些要查找的东西或从哪里开始我的研究的指示。我想有一个最佳的 function/model 可以最好地处理这个问题,但正如我所说,我对这个话题还很陌生,所以我不知道从哪里开始。因为我有一个相对较小的数据集,所以我正在寻找一种如果可能的话不容易过度训练的技术
我非常感谢任何关于从哪里开始的帮助和指示。
根据您的数据片段,它看起来像是一个多类分类问题(3 类是是、可能或否)。
您的列(旁白 related
)将是您的特征,可以简化为数字表示。例如:
对于症状注释功能,您可以有一个如下所示的映射:
Swelling in hip = 1
Anxiety = 2
Swelling = 3
Easily Bruised = 4
显然,如果您在此列中有一定数量的症状,那么这很有效。机器学习算法通常使用数字,因此您的特征将从原始数据中提取为数字形式。完成后,您可以将数据输入分类算法。朴素贝叶斯算法是一个很好的起点。
Scikit learn(如果你可以使用 python)有一个关于 3 类分类任务的很好的介绍性示例,其中所有特征都是数字。它试图根据萼片长度、萼片宽度、花瓣长度和花瓣宽度对不同类型的鸢尾花进行分类。
完整的教程可以在这里找到:Supervised learning: predicting an output variable from high-dimensional observations
获取额外数据是否可行?如果是的话,我会建议你得到更多。 200 个实例非常小,可能无法正确表示特征 space。此外,将数据拆分为 training and test set further reducing the quantity used while training. You can also opt for a K-Folds Cross validation.
会很有用
总结:导航到该 scikit-learn 页面,尝试花卉分类示例。一旦你熟悉了环境;您的数据将需要一些清理和特征提取。您需要回答诸如 Readmission Time
和 Symptom Code
的含义之类的问题?这些值是否超过指定范围并具有 special
内部含义,或者它们只是像 id 一样分配的随机数。
I would recommend transcribing your data into ARFF format and then use this with Weka. Weka 是一个包含许多机器学习算法的程序,您可以尝试它,它还有一个非常简单的用户界面,非常适合初学者!找到运行良好的算法后,您可以保存经过训练的模型并使用它来预测新实例!
我不太确定该如何表达,如果格式有误,我深表歉意,但我正在努力打下基础,以便自己解决这个问题。
我正在尝试为 "Hip Surgery Patients" 的一组数据开发预测算法,如下所示:
Readmission Time | Symptom Code | Symptom Note | Related
6 | 2334 | swelling in hip | Yes
12 | 1324 | anxiety | Maybe
8 | 2334 | swelling in hip | Yes
30 | 1111 | Headaches | No
3 | 7934 | easily bruising | Yes
对于上下文,医生可以确定给定的 "Symptom Code" 是否与 X 天前发生的 "Hip Replacement Surgery" 相关。我的数据集中有大约 200 个条目符合这种格式,我的目标是能够匹配给定集合中的结果以及预测 "Related" 列中的新结果(具有预测结果的确定性统计数据)基于新的输入。例如给定:
Input: 20 | 2334 | swelling in hip
Output: Yes (90% confidence)
我对数据分析和机器学习还很陌生,所以我真的很想获得一些要查找的东西或从哪里开始我的研究的指示。我想有一个最佳的 function/model 可以最好地处理这个问题,但正如我所说,我对这个话题还很陌生,所以我不知道从哪里开始。因为我有一个相对较小的数据集,所以我正在寻找一种如果可能的话不容易过度训练的技术
我非常感谢任何关于从哪里开始的帮助和指示。
根据您的数据片段,它看起来像是一个多类分类问题(3 类是是、可能或否)。
您的列(旁白 related
)将是您的特征,可以简化为数字表示。例如:
对于症状注释功能,您可以有一个如下所示的映射:
Swelling in hip = 1
Anxiety = 2
Swelling = 3
Easily Bruised = 4
显然,如果您在此列中有一定数量的症状,那么这很有效。机器学习算法通常使用数字,因此您的特征将从原始数据中提取为数字形式。完成后,您可以将数据输入分类算法。朴素贝叶斯算法是一个很好的起点。
Scikit learn(如果你可以使用 python)有一个关于 3 类分类任务的很好的介绍性示例,其中所有特征都是数字。它试图根据萼片长度、萼片宽度、花瓣长度和花瓣宽度对不同类型的鸢尾花进行分类。
完整的教程可以在这里找到:Supervised learning: predicting an output variable from high-dimensional observations
获取额外数据是否可行?如果是的话,我会建议你得到更多。 200 个实例非常小,可能无法正确表示特征 space。此外,将数据拆分为 training and test set further reducing the quantity used while training. You can also opt for a K-Folds Cross validation.
会很有用总结:导航到该 scikit-learn 页面,尝试花卉分类示例。一旦你熟悉了环境;您的数据将需要一些清理和特征提取。您需要回答诸如 Readmission Time
和 Symptom Code
的含义之类的问题?这些值是否超过指定范围并具有 special
内部含义,或者它们只是像 id 一样分配的随机数。
I would recommend transcribing your data into ARFF format and then use this with Weka. Weka 是一个包含许多机器学习算法的程序,您可以尝试它,它还有一个非常简单的用户界面,非常适合初学者!找到运行良好的算法后,您可以保存经过训练的模型并使用它来预测新实例!