数据验证和数据清理有什么区别,它们之间有什么联系和相似之处?

What is the difference between data validation and data cleaning, And what arethe connections and similarities between them?

我正在学习数据科学。我查看了其他参考资料以获得明确的答案。但是没有成功。谁能给我解释一下。

数据清理 可能包括删除印刷错误或根据已知的 运行 下限实体批准和纠正值。一些数据清理安排将通过与批准的数据集交叉检查来清理数据。

数据验证可能很严格。

示例:提交任何表单时,用户在名称字段中输入特殊字符。像 K@v!ndu。你只想在数据库中存储字符串。 因此,您使用的是在存储名称之前删除特殊字符的函数。所以在 db 中,名称将保存为 Kvndu。这个去除特殊字符的过程就是数据清理.

并且如果您实现了一些功能来检查名称字段应该只有字符串值。为此,您将对名称字段应用一些验证。此过程称为 数据验证

例如,我使用了名称字段,数据验证可以成为数据清理的一部分。就像您删除了特殊字符并使用数字验证一样。 这两个过程只允许在您的数据库中保存字符串。