Rapidminer - 拆分值类型错误的行

Rapidminer - Spliting rows that has values in wrong type

我在一个 txt 文件中有一个 8 百万行的数据集,该文件采用制表符分隔格式,不带引号。 14 列中有 5 列的日期值采用 dd.MM.yyyy 格式。

问题 1 我正在尝试导入文件。在 "Format your colums" 步骤中,如果我选择该列的类型为 "date",它会出错并且列中的所有单元格都变成“?”

所以我选择了"polynomial",打算稍后将属性类型转换为日期。

问题2(真题) 我导入了数据并放置了 "nominal to date" 运算符。当我 运行 我在第 14.899 行出错:

Cannot parse date: Unparseable date: "0"

我找到了那一行,我发现列分隔错误。先前单元格中的字符串中有一个制表符。所以值向右移动了一个单元格。而且这一行并不是唯一移动的行。

我想拆分具有特定属性错误数据类型值的行。所以我无法手动更正它们。

我如何在 Rapidminer 中做到这一点?

或解决这些问题的任何其他想法?

您的输入文件似乎已损坏。

显然,最好的解决方案是修复生成数据的过程。 Espace 或替换制表符并以明确的格式(例如 ISO 日期格式)格式化日期。

假设您无法确定日期,您可能应该自己编写一个 robust 解析器 program。像 rapidminer 这样的通用解析器无法解决所有问题。

所以您很可能需要在此下拉菜单中调整日期格式:

老实说,我通常只是作为多项式导入,然后在我的过程中转换为日期。它更容易且可重现。