为什么 [^\w] 匹配某些单词字符而不匹配 [^\p{Word}]？

Question

我编写了一个 Perl 脚本，可以打印出与 Unicode 属性匹配的字符。到目前为止，它似乎对大多数属性都有效。

但是它在匹配[^\w]的字符中打印出ÀÁÂÃÄÅÆÇÈÉÊËÌÍÎÏÐÑÒÓÔÕÖØÙÚÛÜÝÞßàáâãäåæçèéêëìíîïðñòóôõöøùúûüýþ ÿ。这些字符应该匹配 \w。奇怪的是，它们匹配 \p{Word}.

我试过没有成功：

map { decode ( "UTF-8", $_ ) }
map { pack 'U0C*', unpack 'C*', $_ }

如何让[^\w]不匹配那些单词字符？

chars.pl

#!/usr/bin/perl

use warnings;
use strict;
use utf8;

binmode STDOUT, ':utf8';

my $c;
my $cols = 80;
my $arg = shift;
my $regex = qr/$arg/;

for ( map { chr } 0x20 .. 0xFFFF )
{
  next if /\p{Unassigned}|\p{NChar}|\p{Cs}/;

  if ( $_ =~ $regex )
  {
    print STDOUT;
    print STDOUT "\n" if ++$c % $cols == 0;
  }

}

print STDOUT "\n" if defined $c and $c % $cols != 0;
exit 0;

好：

$ ./chars.pl '\p{Cyrillic}'
ЀЁЂЃЄЅІЇЈЉЊЋЌЍЎЏАБВГДЕЖЗИЙКЛМНОПРСТУФХЦЧШЩЪЫЬЭЮЯабвгдежзийклмнопрстуфхцчшщъыьэюя
ѐёђѓєѕіїјљњћќѝўџѠѡѢѣѤѥѦѧѨѩѪѫѬѭѮѯѰѱѲѳѴѵѶѷѸѹѺѻѼѽѾѿҀҁ҂҃҄҇ҊҋҌҍҎҏҐґҒғҔҕҖҗҘҙҚқҜҝҞҟҠҡ
ҢңҤҥҦҧҨҩҪҫҬҭҮүҰұҲҳҴҵҶҷҸҹҺһҼҽҾҿӀӁӂӃӄӅӆӇӈӉӊӋӌӍӎӏӐӑӒӓӔӕӖӗӘәӚӛӜӝӞӟӠӡӢӣӤӥӦӧӨөӪӫӬӭӮӯӰӱ
ӲӳӴӵӶӷӸӹӺӻӼӽӾӿԀԁԂԃԄԅԆԇԈԉԊԋԌԍԎԏԐԑԒԓԔԕԖԗԘԙԚԛԜԝԞԟԠԡԢԣԤԥԦԧᴫᵸⷠⷡⷢⷣⷤⷥⷦⷧⷨⷩⷪⷫⷬⷭⷮⷯⷰⷱⷲⷳⷴⷵⷶⷷ
ⷸⷹⷺⷻⷼⷽⷾⷿꙀꙁꙂꙃꙄꙅꙆꙇꙈꙉꙊꙋꙌꙍꙎꙏꙐꙑꙒꙓꙔꙕꙖꙗꙘꙙꙚꙛꙜꙝꙞꙟꙠꙡꙢꙣꙤꙥꙦꙧꙨꙩꙪꙫꙬꙭꙮ꙯꙰꙱꙲꙳꙼꙽꙾ꙿꚀꚁꚂꚃꚄꚅꚆꚇꚈꚉꚊꚋꚌꚍꚎꚏ
ꚐꚑꚒꚓꚔꚕꚖꚗ
$

好：

$ ./chars.pl '[^\p{Word}]' | grep É
$

差：

$ ./chars.pl '[^\w]' | grep É
°±²³´µ¶·¸¹º»¼½¾¿ÀÁÂÃÄÅÆÇÈÉÊËÌÍÎÏÐÑÒÓÔÕÖ×ØÙÚÛÜÝÞßàáâãäåæçèéêëìíîïðñòóôõö÷øùúûüýþ
$

Perl v5.14.2

Answer 1

Perl 中的 Unicode 支持是一个很大的话题，参见例如this answer

要使 \w 与 \p{Word} 匹配，您需要使 /u 字符集修饰符生效（在 Perl 5.14 版本后可用）。

最简单的方法就是用

启动程序

use v5.14;

这（除其他事项外）启用功能 unicode_strings 并使所有正则表达式默认为 /u 字符集修饰符。您也可以只显式启用该功能：

use feature 'unicode_strings';

第三种方法是使用 /u 在正则表达式中修改以根据每个正则表达式更改字符集。

您可以从 perlre 联机帮助页中了解不同正则表达式字符集修饰符的效果。它们是 /d、/u、/a 和 /l。

\w 在 perlrecharclass 联机帮助页中进行了解释。

为什么 [^\w] 匹配某些单词字符而不匹配 [^\p{Word}]？

Why does [^\w] match some word characters but not [^\p{Word}]?

perl

character-class

chars.pl