PHP

Question

这是我目前正在使用的代码的简化版本 – 为什么它在使用基本回显时工作正常，但在尝试仅写入字符串的一部分时却失败了？我是否应该添加任何 encode/decode/locale/utf 来完成这项工作，在那种情况下如何？

<meta charset="utf-8">
<?php
/* setlocale (LC_ALL, "sv_SE.UTF-8"); //this just gives me � (questionmark in a square) instead of the actual char*/

$str = "Två trötta träslag står i skogens övre kant";
echo ($str); // works fine with å ä ö

$words = str_word_count($str, 1, 'UTF-8');

echo ('<br>');

$first = join(" ", array_slice($words, 0, 5));
$last = join(" ", array_slice($words, -5, 5));
echo($first); // doesn't show å ä ö
echo ('<br>'); 
echo($last); // doesn't show å ä ö
echo ('<hr>');
?>

输出：

Två trötta träslag står i skogens övre kant
Tv tr tta tr slag
r i skogens vre kant

我四处寻找一些最常见的建议，但要么我实施错误，要么一开始就不适合这个（在我的项目中，我将从.txt 文件，如果有任何区别的话）。

Answer 1

因为str_word_count()的第三个参数是$charlist，不是$charset。

因此，当您使用 str_word_count() 时，它不仅会在空格处拆分，还会在 UTF-8 字符处拆分。这很容易验证：

$str = "Två trötta träslag står i skogens övre kant";
print_r(str_word_count($str, 1));
/*
Array
(
    [0] => Tv
    [1] => tr
    [2] => tta
    [3] => tr
    [4] => slag
    [5] => st
    [6] => r
    [7] => i
    [8] => skogens
    [9] => vre
    [10] => kant
)
*/

对此有两种解决方案：如果您只想按空格拆分，可以改用此方法：

$words = explode(' ', $str);

但是，如果您执意要使用 str_word_count()，您可以手动添加 UTF-8 字符：

$words = str_word_count($str, 1, 'åäö');

PHP – 为什么有些变音字符会显示而有些则不会？

PHP – Why does some umlaut characters show while others don't?

diacritics

character-encoding

special-characters

output