MySQL utf8mb4,保存表情符号时出错

MySQL utf8mb4, Errors when saving Emojis

我尝试从我的 MySQL 数据库中的服务中保存用户的姓名。这些名称可以包含表情符号,例如(仅供示例)

经过一番搜索,我找到了这个 Whosebug linking to this tutorial。我按照步骤操作,看起来一切都已正确配置。

我有一个数据库(字符集和排序规则设置为 utf8mb4 (_unicode_ci)),一个名为 TestTable 的 Table,也是这样配置的,以及一个 "Text" 列,以这种方式配置 (VARCHAR(191) utf8mb4_unicode_ci)。

当我尝试保存表情符号时出现错误:

Example of error for shortcake ():
    Warning: #1300 Invalid utf8 character string: 'F09F8D'
    Warning: #1366 Incorrect string value: '\xF0\x9F\x8D\xB0' for column 'Text' at row 1

我唯一能正确保存的表情符号是太阳 ☀️

老实说,虽然我没有尝试过所有这些。

配置中是否缺少某些内容?

请注意:所有保存测试都不涉及客户端。我使用 phpmyadmin 手动更改值并保存数据。因此,客户端的正确配置是 服务器正确保存表情符号后我会处理的事情。

另一个旁注:目前,在保存表情符号时,我要么得到上面的错误,要么没有得到错误, Username 的数据将被存储为 Username ????。错误与否取决于我保存的方式。当 creating/saving 通过 SQL 语句时,我用问号保存,当编辑内联时,我用问号保存,当使用编辑按钮编辑时,我得到错误。

谢谢

编辑 1: 好吧,我想我发现了问题,但没有找到解决方案。 看起来数据库特定变量没有正确更改。

当我以 root 身份登录我的服务器并读取变量(全局)时:
使用的查询:SHOW VARIABLES WHERE Variable_name LIKE 'character\_set\_%' OR Variable_name LIKE 'collation%';

+--------------------------+--------------------+
| Variable_name            | Value              |
+--------------------------+--------------------+
| character_set_client     | utf8mb4            |
| character_set_connection | utf8mb4            |
| character_set_database   | utf8mb4            |
| character_set_filesystem | binary             |
| character_set_results    | utf8mb4            |
| character_set_server     | utf8mb4            |
| character_set_system     | utf8               |
| collation_connection     | utf8mb4_unicode_ci |
| collation_database       | utf8mb4_unicode_ci |
| collation_server         | utf8mb4_unicode_ci |
+--------------------------+--------------------+
10 rows in set (0.00 sec)

对于我的数据库(在 phpmyadmin 中,相同的查询),它如下所示:

+--------------------------+--------------------+
| Variable_name            | Value              |
+--------------------------+--------------------+
| character_set_client     | utf8               |
| character_set_connection | utf8mb4            |
| character_set_database   | utf8mb4            |
| character_set_filesystem | binary             |
| character_set_results    | utf8               |
| character_set_server     | utf8               |
| character_set_system     | utf8               |
| collation_connection     | utf8mb4_unicode_ci |
| collation_database       | utf8mb4_unicode_ci |
| collation_server         | utf8mb4_unicode_ci |
+--------------------------+--------------------+

如何在特定数据库上调整这些设置? 此外,即使我将第一个显示的设置设置为默认设置,在创建新数据库时我也会将第二个设置设置为设置。

编辑 2:

这是我的 my.cnf 文件:

[client]
port=3306
socket=/var/run/mysqld/mysqld.sock
default-character-set = utf8mb4

[mysql]
default-character-set = utf8mb4

[mysqld_safe]
socket=/var/run/mysqld/mysqld.sock

[mysqld]
user=mysql
pid-file=/var/run/mysqld/mysqld.pid
socket=/var/run/mysqld/mysqld.sock
port=3306
basedir=/usr
datadir=/var/lib/mysql
tmpdir=/tmp
lc-messages-dir=/usr/share/mysql
log_error=/var/log/mysql/error.log
max_connections=200
max_user_connections=30
wait_timeout=30
interactive_timeout=50
long_query_time=5
innodb_file_per_table
character-set-client-handshake = FALSE
character-set-server = utf8mb4
collation-server = utf8mb4_unicode_ci

!includedir /etc/mysql/conf.d/

character_set_client_connection_results 必须全部为 utf8mb4 才能使该脆饼可食用。

某处某处正在单独设置其中的一个子集。翻阅 my.cnf 和 phpmyadmin 的设置——有些东西没有设置所有三个。

如果执行SET NAMES utf8mb4,三项都设置正确。

阳光普照,因为它只有 3 个字节 - E2 98 80; utf8 足以用于 Unicode 字符的 3 字节 utf8 编码。

很可能您的 service/application 使用 "utf8" 而不是客户端字符集的 "utf8mb4" 连接。这取决于客户端应用程序。

对于 PHP 应用程序,请参阅 http://php.net/manual/en/function.mysql-set-charset.php or http://php.net/manual/en/mysqli.set-charset.php

对于 Python 应用程序,请参阅 https://github.com/PyMySQL/PyMySQL#example or http://docs.sqlalchemy.org/en/latest/dialects/mysql.html#mysql-unicode

此外,请检查您的列是否真的是 utf8mb4。一种直接的方式是这样的:

mysql> SELECT character_set_name FROM information_schema.`COLUMNS`  WHERE table_name = "user"   AND column_name = "displayname";
+--------------------+
| character_set_name |
+--------------------+
| utf8mb4            |
+--------------------+
1 row in set (0.00 sec)

对我来说,原来问题出在mysql客户端。

mysql 客户端更新服务器上 my.cnf 的字符设置,导致出现意外的字符设置。

所以,我需要做的就是添加 character-set-client-handshake = FALSE。 它禁止客户端设置干扰我的字符设置。

my.cnf会是这样的

[mysqld]
character-set-client-handshake = FALSE
character-set-server = utf8mb4
...

希望对您有所帮助。

我对这个答案并不感到自豪,因为它使用蛮力来清理输入。这很残酷,但它有效

function cleanWord($string, $debug = false) {
    $new_string = "";

    for ($i=0;$i<strlen($string);$i++) {
        $letter = substr($string, $i, 1);
        if ($debug) {
            echo "Letter: " . $letter . "<BR>";
            echo "Code: " . ord($letter) . "<BR><BR>";
        }
        $blnSkip = false;
        if (ord($letter)=="146") {
            $letter = "&acute;";
            $blnSkip = true;
        }
        if (ord($letter)=="233") {
            $letter = "&eacute;";
            $blnSkip = true;
        }
        if (ord($letter)=="147" || ord($letter)=="148") {
            $letter = "&quot;";
            $blnSkip = true;
        }
        if (ord($letter)=="151") {
            $letter = "&#8211;";
            $blnSkip = true;
        }
        if ($blnSkip) {
            $new_string .= $letter;
            break;
        }

        if (ord($letter) > 127) {
            $letter = "&#0" . ord($letter) . ";";
        }

        $new_string .= $letter;
    }
    if ($new_string!="") {
        $string = $new_string;
    }
    //optional
    $string = str_replace("\r\n", "<BR>", $string);

    return $string;
}

//clean up the input
$message = cleanWord($message);

//now you can insert it as part of SQL statement
$sql = "INSERT INTO tbl_message (`message`)
VALUES ('" . addslashes($message) . "')";

ALTER TABLE table_name CHANGE column_name column_name VARCHAR(255) CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci NULL DEFAULT NULL;

示例查询:

ALTER TABLE `reactions` CHANGE `emoji` `emoji` VARCHAR(255) CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci NULL DEFAULT NULL;

之后,成功将表情符号存储在table中:

考虑添加

init_connect = 'SET NAMES utf8mb4'

您所有的数据库服务器 my.cnf-s.

(不过,客户可以(也将)否决它)

Symfony 5 个回答

虽然这不是被问到的问题,但人们可以在网上搜索 Symfony 中的相同问题后登陆这里。

1。正确配置 MySQL

☝️ 在此处查看(如果有帮助,请点赞)最佳答案。

2。更改您的 Doctrine 配置

/config/packages/doctrine.yaml

doctrine:
    dbal:
        ...
        charset: utf8mb4

我正在通过命令导入数据:

LOAD DATA LOCAL INFILE 'abc.csv' INTO TABLE abc
FIELDS TERMINATED BY ',' 
ENCLOSED BY '"' 
LINES TERMINATED BY '\r\n'
IGNORE 1 LINES
(col1, col2, col3, col4, col5...);

这对我不起作用:

设置名称 utf8mb4;

我必须添加字符集才能使其正常工作:

LOAD DATA LOCAL INFILE
'E:\wamp\tmp\customer.csv' INTO TABLE `customer`
CHARACTER SET 'utf8mb4'
FIELDS TERMINATED BY ',' ENCLOSED BY '"'
LINES TERMINATED BY '\r\n'
IGNORE 1 LINES;

注意,目标列也必须是 utf8mb4 而不是 utf8,否则导入将保存(没有错误)像“??????”这样的问号。