MariaDB 查询不会通过 PHP 运行,使用 HeidiSQL 手动工作;破折号编码问题;正确的 DB utf8mb4 字符集和排序规则

MariaDB query won't run via PHP, works manually with HeidiSQL; en dash encoding issue; proper DB utf8mb4 character set and collation

我正在从 Gmail 帐户导入电子邮件并将它们存储在数据库中。显然,我的 PHP 将所有内容转换为 UTF-8 的逻辑在一封特定电子邮件中失败了,当我 运行 使用该电子邮件进行查询时,我收到以下 MariaDB 错误:

Incorrect string value: '\x96 conv...'

这是 SQL 查询的最小化版本:

INSERT INTO mail (subject) VALUES ('orkut – convite...');

我最终追踪到了 header 主题字符串。在我的一般 MariaDB 查询日志中,字符串按预期显示 en dash (): orkut – conv...。当 PHP 尝试 运行 查询时,我得到如上所述的错误 Incorrect string value 但是当我手动 运行 通过 HeidiSQL 执行完全相同的查询时,查询执行就好了!

将header拆分为key和value,然后对value进行如下处理:

$p = explode(': ', $header, 2);
$s = mb_convert_encoding(trim($p[1]), 'UTF-8', mb_detect_encoding($p[1]))

现在我已经尝试了很多东西,我能得到的最接近的是 cmbuckly's answer on another thread 但是使用 $s = iconv('utf-8', 'windows-1252', $s); 没有 解决了这种情况下的问题。我还有很多其他尝试,比如之后使用 utf8_encode($s),尽管此时我只是不知所措。

是什么导致 MariaDB 无法通过 PHP 使用查询,但允许通过 HeidiSQL 使用查询?我是否正确解码了字符串?

https://www.fileformat.info/info/unicode/char/2013/charset_support.htm

破折号中唯一包含 0x96 字节的情况是在使用 windows cp125x encoding 时。

弄清楚您的源数据使用的是哪一个并将其转换为 UTF8

$utf8_data = mb_convert_encoding($data, 'UTF-8', 'cp125x');

另外:UTF-8 all the way through