将 HTML 个实体转换为 Python 个表情符号
Convert HTML Entity to Python Emoji
假设我有以下 HTML 表情符号实体:'😄 ;'
请注意,4 和 ; 之间实际上没有 space。它就在那里,所以它不会显示为笑脸
表情符号的 Python 形式为:u"\U0001f604"
如何将所有 HTML 表情符号实体转换为它们的 Python 形式?
到目前为止我尝试过的事情:
- 编码为 utf-8
- 使用 HTML 解析器对文本进行转义,然后进行转换
- 使用正则表达式(无法获得适用于所有 HTML 表情符号实体的内容——不像将 与 \U000 交换那样简单,因为这仅适用于某些实体)
HTMLParser.unescape
就是这样做的:
In [3]: HTMLParser.HTMLParser().unescape( '😄' )
Out[3]: u'\U0001f604'
假设我有以下 HTML 表情符号实体:'😄 ;'
请注意,4 和 ; 之间实际上没有 space。它就在那里,所以它不会显示为笑脸
表情符号的 Python 形式为:u"\U0001f604"
如何将所有 HTML 表情符号实体转换为它们的 Python 形式?
到目前为止我尝试过的事情:
- 编码为 utf-8
- 使用 HTML 解析器对文本进行转义,然后进行转换
- 使用正则表达式(无法获得适用于所有 HTML 表情符号实体的内容——不像将 与 \U000 交换那样简单,因为这仅适用于某些实体)
HTMLParser.unescape
就是这样做的:
In [3]: HTMLParser.HTMLParser().unescape( '😄' )
Out[3]: u'\U0001f604'