Dataprep - 重音符号和特殊字符

Dataprep - accents and special characters

如何解决数据准备中的重音/特殊字符问题?我需要显示此信息。

非常感谢您的关注。

DataPrep 具有内置配方,可让您删除或更改特殊字符。例如,您可以使用 Remove accents in text or you can also replace non recognised characters for another character with Replace text or patterns.

将重音字母更改为无重音字母

以下是更改特殊字符或重音字母的步骤。

  1. Create your flow.
  2. Add/import 你的数据
  3. 根据 documentation,单击“添加食谱”。在您的情况下,您可以执行以下一项或两项操作:

首先,如果您有带重音的单词,请转至 搜索转换 > Select 删除文本中的重音。然后,select列,里面有重音字。它将替换 non-accented 的重音词。您的数据会显示给您,以便您检查转换。

其次,如果您有无法识别的字符,请转到 搜索转换 > 替换文本或模式> Select 你要转换数据的列 >Find 中写 letter/symbol 单引号之间 > 替换为 写将被放置的字母 。最后,预览您的数据以查看转换。

更新: 我能够将包含上述字符的 .csv 文件加载到 DataPrep。以下是我的步骤和示例数据:

我使用的 .csv 文件包含以下内容:

Test
Non rec. char É
Non rec. char ç
Accented word não

在 DataPrep UI 主页中,单击 导入数据(右上角)Google 云存储(屏幕左侧)。然后,找到 select 你的文件 (测试只导入一个文件而不是参数化)并单击添加(+)符号.在这一步,你已经可以看到字符了,在我的例子中,我可以正常看到它们。最后,单击 Import&Wrangle 并可视化您的数据。使用上面的数据,我能够正确地看到字符,没有任何问题。