这些神秘人物是什么

What are these mystery characters

这可能不是编程问题,但我在 Google 上找不到任何答案。

我现在有一些文本挖掘任务和数据清理。 我经常遇到一些不可读格式的神秘字符。

这些字符是:&#x003b2&#x00025等等。

所有这些都以特定模式开头,因此我相信它们代表了一些Excel无法读取的编码。

有什么办法可以转换吗?我需要知道这些字符的确切含义,以便知道我是否应该删除它们。

它们看起来像格式化的十六进制值(如果您使用的是字符,则可能是 unicode)。 您可能知道它们是 0x003B20x00025,或者许多其他方式。

这些可能是以十六进制格式写成 HTML 实体的 Unicode 字符。

  • &#x003b2就是"GREEK SMALL LETTER BETA"(β).
  • &#x00025是"PERCENT SIGN"(%)。