使用 Scala 提供表情符号作为输入时获取 Unicode

Get the Unicode when an emoji is provided as input using scala

我是 scala 和 spark 的新手。我正在开发一个大数据项目,我想输入一个表情符号并使用 scalaspark 获取它的 unicode。我尝试寻找资源作为指南,但找不到任何资源。

如-

val inputEmoji = 

那么输出应该提供 U+1F603 作为答案

您可以在 Spark 中将表情符号编码为 UTF-32:

val inputEmoji = ""

val df = Seq(inputEmoji).toDF("emoji")

val result = df.selectExpr(
    "emoji",
    "'U+' || trim('0', string(hex(encode(emoji, 'utf-32')))) as result"
)

result.show
+-----+-------+
|emoji| result|
+-----+-------+
|   |U+1F603|
+-----+-------+