使用正则表达式匹配可能包含引号 "" 的句子
Using regex to match sentences that may include quote marks ""
几天来我一直在尝试编写一个正则表达式来捕获以特定字符串开头并以不允许使用的字符 (<) 结尾的句子。这句话可能包含任何标点符号(超出我的头脑 []()-,.!?\/
),最重要的是 '
和 "
,但是总是以相同的事物结束和开始(<)。所以我的正则表达式如下:
"starting string foo (?:[a-zA-z0-9_]|[-,.!?()\[\]\'\"\/]|[\s])+"
这很好用,获取所有以 "starting string foo" 开头并以 < 结尾的句子。它成功地得到了每一个标点符号的句子......除了双引号(“)。我不明白为什么它可以很容易地得到单引号(')和其他标点符号,例如斜杠和破折号。
例如- 字符串
starting string foo Hubble revisits the famous "pillars of creation" with a new lens <
它只捕获
starting string foo Hubble revisits the famous
但是像
这样的字符串
starting string foo Buzz Aldrin's self-portrait during Gemini 12 with the Earth reflecting off his visor, 12 November 1966 [2651x2632] <
各种标点符号 (' - [ ,) 它捕获了我想要的一切-
starting string foo Buzz Aldrin's self-portrait during Gemini 12 with the Earth reflecting off his visor, 12 November 1966 [2651x2632]
怎么了
/starting string foo (.*)\</
几天来我一直在尝试编写一个正则表达式来捕获以特定字符串开头并以不允许使用的字符 (<) 结尾的句子。这句话可能包含任何标点符号(超出我的头脑 []()-,.!?\/
),最重要的是 '
和 "
,但是总是以相同的事物结束和开始(<)。所以我的正则表达式如下:
"starting string foo (?:[a-zA-z0-9_]|[-,.!?()\[\]\'\"\/]|[\s])+"
这很好用,获取所有以 "starting string foo" 开头并以 < 结尾的句子。它成功地得到了每一个标点符号的句子......除了双引号(“)。我不明白为什么它可以很容易地得到单引号(')和其他标点符号,例如斜杠和破折号。
例如- 字符串
starting string foo Hubble revisits the famous "pillars of creation" with a new lens <
它只捕获
starting string foo Hubble revisits the famous
但是像
这样的字符串 starting string foo Buzz Aldrin's self-portrait during Gemini 12 with the Earth reflecting off his visor, 12 November 1966 [2651x2632] <
各种标点符号 (' - [ ,) 它捕获了我想要的一切-
starting string foo Buzz Aldrin's self-portrait during Gemini 12 with the Earth reflecting off his visor, 12 November 1966 [2651x2632]
怎么了
/starting string foo (.*)\</