Pentaho - CSV 输入不理解特殊字符 [Windows 到 Linux]

Pentaho - CSV Input not understanding special character [Windows to Linux]

我对 Pentaho 数据集成进行了转换,我做的第一件事是使用 "CSV Input" 映射我的平面文件。

我在 windows 上从来没有遇到过问题,但现在我正在改变我的服务器,勺子将转到 运行 一个 linux 服务器,现在我'我遇到特殊字符问题。

我注意到的第一件事是我的表正在更新,因为系统将名称理解为与我数据库中的字符串不同的字符串。

检查问题,我还注意到,如果我转到 "CSV Input" -> 预览,它会向我显示存在上述问题的数据预览:

Special characters are not showing.

它应该在哪里:

Diretoria de Suporte à Decisão e Aplicação

我使用命令检查了我的文件 charset/codification,它显示:

$ file -bi foo.csv
text/plain; charset=iso-8859-1

如果我在 vi 上打开 foo.csv,它会理解特殊字符。

知道问题出在哪里或我应该尝试什么吗?

我没有使用此编码的任何数据文件,因此您必须进行一些试验,但有一些步骤旨在处理这些问题。

首先,CSV Input 步骤有一个字段允许您 select 源文件的编码。 Text File Input 步骤有一个 "Format" (意思是行终止符)和 "Encoding" select 或在 "Content" 选项卡下。

在 Transforms 中,Change file encoding 步骤位于 Utility 选项卡下。此步骤旨在复制许多文件,同时更改其编码;这就是为什么它处于转换状态。

在 Jobs 中,文件管理选项卡下有 Convert file between Windows and Unix 步骤,但这似乎只处理行终止符。

无论哪种方式,如果 CSV/Text 文件输入步骤不符合您的需要,您必须在读入之前将文件复制到新的编码。这可能是最容易尝试的首先使用文件输入步骤处理它。