为预测分析预处理匿名数据的步骤是什么?
What are the steps of preprocessing anonymized data for predictive analysis?
假设我们有一个大型的匿名数据集。数据集由一定数量的变量和观察值组成。关于数据,我们所能了解的只是一种类型(数字、字符、日期等)的变量。我们可以通过手动查看数据来做到这一点。
为进一步分析预处理数据集的最佳实践步骤是什么?
举个例子,让这个数据集只有一个table,这样我们就不需要检查table之间的任何关系。
This link 给出了目前实践中的完整验证集。不过,首先要说的是:
- 只要有可能,使用您喜欢的编程语言 methods/constructors,以您可以尽可能快速、尽可能轻松地解析数据的方式编写数据;
- 您可以验证是否所有数据类型都正确匹配——比如 int 字段不包含字符串数据等;
- 您可以验证您的值是否在可接受的范围内;
- 检查不可为空的字段是否有空值;
- 检查日期是否在预期范围内;
- 检查数据是否遵循正确的 set-membership 约束条件;
- 如果您有类似 phone 数字的模式跟踪数据,请确保它们采用 (XXX) XXX-XXXX 设计,如果您喜欢这样的话;
- 是正确精度级别的邮政编码(在美国,您可能有 5 或 9 位数的精度);
- 如果您的数据是时间序列的,它是否完整(即您有所有日期的值)?
- 是否有不需要的重复?
希望这足以让您入门...
假设我们有一个大型的匿名数据集。数据集由一定数量的变量和观察值组成。关于数据,我们所能了解的只是一种类型(数字、字符、日期等)的变量。我们可以通过手动查看数据来做到这一点。 为进一步分析预处理数据集的最佳实践步骤是什么?
举个例子,让这个数据集只有一个table,这样我们就不需要检查table之间的任何关系。
This link 给出了目前实践中的完整验证集。不过,首先要说的是:
- 只要有可能,使用您喜欢的编程语言 methods/constructors,以您可以尽可能快速、尽可能轻松地解析数据的方式编写数据;
- 您可以验证是否所有数据类型都正确匹配——比如 int 字段不包含字符串数据等;
- 您可以验证您的值是否在可接受的范围内;
- 检查不可为空的字段是否有空值;
- 检查日期是否在预期范围内;
- 检查数据是否遵循正确的 set-membership 约束条件;
- 如果您有类似 phone 数字的模式跟踪数据,请确保它们采用 (XXX) XXX-XXXX 设计,如果您喜欢这样的话;
- 是正确精度级别的邮政编码(在美国,您可能有 5 或 9 位数的精度);
- 如果您的数据是时间序列的,它是否完整(即您有所有日期的值)?
- 是否有不需要的重复?
希望这足以让您入门...