MariaDB 查询不会通过 PHP 运行,使用 HeidiSQL 手动工作;破折号编码问题;正确的 DB utf8mb4 字符集和排序规则
MariaDB query won't run via PHP, works manually with HeidiSQL; en dash encoding issue; proper DB utf8mb4 character set and collation
我正在从 Gmail 帐户导入电子邮件并将它们存储在数据库中。显然,我的 PHP 将所有内容转换为 UTF-8 的逻辑在一封特定电子邮件中失败了,当我 运行 使用该电子邮件进行查询时,我收到以下 MariaDB 错误:
Incorrect string value: '\x96 conv...'
这是 SQL 查询的最小化版本:
INSERT INTO mail (subject) VALUES ('orkut – convite...');
我最终追踪到了 header 主题字符串。在我的一般 MariaDB 查询日志中,字符串按预期显示 en dash (–
): orkut – conv...
。当 PHP 尝试 运行 查询时,我得到如上所述的错误 Incorrect string value
但是当我手动 运行 通过 HeidiSQL 执行完全相同的查询时,查询执行就好了!
将header拆分为key和value,然后对value进行如下处理:
$p = explode(': ', $header, 2);
$s = mb_convert_encoding(trim($p[1]), 'UTF-8', mb_detect_encoding($p[1]))
现在我已经尝试了很多东西,我能得到的最接近的是 cmbuckly's answer on another thread 但是使用 $s = iconv('utf-8', 'windows-1252', $s);
没有 解决了这种情况下的问题。我还有很多其他尝试,比如之后使用 utf8_encode($s)
,尽管此时我只是不知所措。
- 我的 MariaDB 数据库具有正确的
utf8mb4
字符集和 utf8mb4_unicode_520_ci
数据库排序规则。
- 我不会尝试使用 MariaDB 来 encode/re-encode 文本,这是一个明确的 PHP 问题。
是什么导致 MariaDB 无法通过 PHP 使用查询,但允许通过 HeidiSQL 使用查询?我是否正确解码了字符串?
https://www.fileformat.info/info/unicode/char/2013/charset_support.htm
破折号中唯一包含 0x96
字节的情况是在使用 windows cp125x encoding 时。
弄清楚您的源数据使用的是哪一个并将其转换为 UTF8
$utf8_data = mb_convert_encoding($data, 'UTF-8', 'cp125x');
另外:UTF-8 all the way through
我正在从 Gmail 帐户导入电子邮件并将它们存储在数据库中。显然,我的 PHP 将所有内容转换为 UTF-8 的逻辑在一封特定电子邮件中失败了,当我 运行 使用该电子邮件进行查询时,我收到以下 MariaDB 错误:
Incorrect string value: '\x96 conv...'
这是 SQL 查询的最小化版本:
INSERT INTO mail (subject) VALUES ('orkut – convite...');
我最终追踪到了 header 主题字符串。在我的一般 MariaDB 查询日志中,字符串按预期显示 en dash (–
): orkut – conv...
。当 PHP 尝试 运行 查询时,我得到如上所述的错误 Incorrect string value
但是当我手动 运行 通过 HeidiSQL 执行完全相同的查询时,查询执行就好了!
将header拆分为key和value,然后对value进行如下处理:
$p = explode(': ', $header, 2);
$s = mb_convert_encoding(trim($p[1]), 'UTF-8', mb_detect_encoding($p[1]))
现在我已经尝试了很多东西,我能得到的最接近的是 cmbuckly's answer on another thread 但是使用 $s = iconv('utf-8', 'windows-1252', $s);
没有 解决了这种情况下的问题。我还有很多其他尝试,比如之后使用 utf8_encode($s)
,尽管此时我只是不知所措。
- 我的 MariaDB 数据库具有正确的
utf8mb4
字符集和utf8mb4_unicode_520_ci
数据库排序规则。 - 我不会尝试使用 MariaDB 来 encode/re-encode 文本,这是一个明确的 PHP 问题。
是什么导致 MariaDB 无法通过 PHP 使用查询,但允许通过 HeidiSQL 使用查询?我是否正确解码了字符串?
https://www.fileformat.info/info/unicode/char/2013/charset_support.htm
破折号中唯一包含 0x96
字节的情况是在使用 windows cp125x encoding 时。
弄清楚您的源数据使用的是哪一个并将其转换为 UTF8
$utf8_data = mb_convert_encoding($data, 'UTF-8', 'cp125x');
另外:UTF-8 all the way through