非常规字符的不正确字符串值错误

Incorrect string value error for unconventional characters

所以我正在使用包装器从 instagram 中获取用户数据。我想 select 用户的显示名称,并将它们存储在 MYSQL 数据库中。我在插入一些显示名称时遇到问题,特别是处理不正确的字符串值错误:

现在,我之前用重音符号、带变音符号的字母等处理过这个问题。解决方案是将 utf8 字符集下的排序规则更改为 utf8_general_ci

正如您所看到的,我提取的一些显示名称具有非常独特的字符,我不确定 mySQL 是否完全可以识别,即:

ᛘ ®

所以我收到:

Error Code: 1366. Incorrect string value: '\xF0\x9D\x99\x87\xF0\x9D...' for column 'dummy' at row 1

这是我的 sql 代码

CREATE TABLE test_table(
    id INT AUTO_INCREMENT,
    dummy VARCHAR(255),
    PRIMARY KEY(id)
);
    
INSERT INTO test_table (dummy)
VALUES ('ᛘ ®');

有没有想过可以处理这样的字符的正确字符集 + 归类对?不知道去哪里寻找解决方案,所以我来这里看看是否有人处理过这个问题。

P.S.,我也尝试过 utf8mb4 字符集与 utf8mb4_unicode_ciutf8mb4_bin 归类。

您显示的字符要求该列使用utf8mb4编码。目前您的列似乎是用 utf8mb3 编码定义的。

MySQL使用名称“utf8”的方式很复杂,如https://dev.mysql.com/doc/refman/8.0/en/charset-unicode-utf8mb3.html:

中所述

Note

Historically, MySQL has used utf8 as an alias for utf8mb3; beginning with MySQL 8.0.28, utf8mb3 is used exclusively in the output of SHOW statements and in Information Schema tables when this character set is meant.

At some point in the future utf8 is expected to become a reference to utf8mb4. To avoid ambiguity about the meaning of utf8, consider specifying utf8mb4 explicitly for character set references instead of utf8.

You should also be aware that the utf8mb3 character set is deprecated and you should expect it to be removed in a future MySQL release. Please use utf8mb4 instead.

您可能已尝试通过以下方式更改您的 table:

ALTER TABLE test_table CHARSET=utf8mb4;

但这只会更改 默认 字符集,如果您随后向 table 添加新列,则会使用该字符集。它不会更改任何当前列。为此:

ALTER TABLE test_table MODIFY COLUMN dummy VARCHAR(255) CHARACTER SET utf8mb4;

或在一个语句中转换 table 中的所有字符串或 TEXT 列:

ALTER TABLE test_table CONVERT TO CHARACTER SET utf8mb4;

那将是 </code> - L 数学 SANS-SERIF 粗斜体大写 L</p> <p>它甚至需要 <code>utf8mb4 字符集来表示它。 “F0”是线索;它是 4 字节 UTF-8 字符中 4 个字节的第一个字节。它不能在 MySQL 的“utf8”中表示。排序规则(大部分)无关紧要。

ᛘ ® 中的大部分字符也需要 utf8mb4。它们是“MATHEMATICAL BOLD FRAKTUR”字母。

(同时,Bill 给了你更多答案。)