无法重现 "iconv(): Detected an illegal character in input string",但我一直在服务器上

Can't reproduce "iconv(): Detected an illegal character in input string", but I keep getting on server

对于用户代理和图像 EXIF 数据,我的系统尝试使用 iconv() 转换任何 UTF-8 字符。

但是,有时我会收到以下错误:

PHP Warning [8]: iconv(): Detected an illegal character in input string

例如:

iconv('UTF-8', 'ASCII//TRANSLIT', 'Mozilla/5.0 (iPhone; CPU OS 10_15_5 (Ergänzendes Update) like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/12.1.1 Mobile/14E304 Safari/605.1.15');

iconv('UTF-8', 'ASCII//TRANSLIT', 'Ïðîãðàììà öèôðîâîé îáðàáîòêè èçîáðàæåíèé êîìïàíèè ACD Systems');

结果变成空字符串。

但是,当我手动复制上面的内容和 运行 时(在同一台服务器上),它有效... 我没有收到任何错误,字符转换为“?”。

多年来我一直在尝试许多不同的事情,例如不同的编码,使用“忽略”而不是“翻译”,使用mb_convert_encoding,等等...
但是 debug/fix 这个真的很难,如果我不能捕获导致问题的真实输入,我不知道我能做些什么 'fix' 这个。

我该怎么做,才能将 任何 输入提供给 iconv(),任何非 ASCII 字符都将转换为问号,而不会失败?

错误的UTF字符很容易出现。一个例子:

$currencies='€$';
$str = "äöü|".substr($currencies,1,1)."|def";
$ascii = iconv('UTF-8', 'ASCII//TRANSLIT', $str);
//ascii = false + Notice: iconv(): Detected an illegal character in input string

很明显UTF-8必须用mb_substr(),不是 substr().

使用 iconv,可以在 TRANSLIT 中添加一个 IGNORE 来忽略非法字符。

$ascii = iconv('UTF-8', 'ASCII//TRANSLIT//IGNORE', $str);
//$ascii: string(11) ""a"o"u||def"

在字符串中找到这样的非法字符并不容易。通常的调试输出伪造这些字符或忽略它们。 遇到这样的问题,我使用这个 special class,它也可以重现地显示带有非法 UTF-8 的字符串。

debug::writeUni($str);
//Output:\u{e4}\u{f6}\u{fc}|\x82|def

此输出可以通过复制和粘贴接管。

$str2 = "\u{e4}\u{f6}\u{fc}|\x82|def";
var_dump($str === $str2); //bool(true)

早上好, 我的问题仍然存在,因为 iconv 无法识别某些字符。我尝试了来自不同组的几个代码选项,但实际有效的是:

//Nota: Conversor de caracteres para UTF8

 public function ConvertToUTF8($text)
{
    $encoding = mb_detect_encoding($text.'x', mb_detect_order(), false);
    if($encoding == "UTF-8")
    {
        //Converte letra a letra
        $i    = 0;
        $conv = '';
        do 
        {
            $letra = substr($text,$i,1);
            $conv .= iconv(mb_detect_encoding($letra, mb_detect_order(), true), "UTF-8//IGNORE", $letra);
            $i ++;
        } while ($i < strlen($text) );
        $text = $conv;
    }
    else if ($encoding == 'ISO-8859-1')
    {
        $text = mb_convert_encoding($text, 'ISO-8859-1', 'UTF-8');
    }
    else if ($encoding == 'ASCII')
    {
        $text = mb_convert_encoding($text, "UTF-8");
    }
    $out = iconv(mb_detect_encoding($text.'x', mb_detect_order(), false), "UTF-8//TRANSLIT//IGNORE", $text);

    return $out;
}//Fim Módulo