正则表达式:将除 youtube 链接之外的所有链接与视频匹配
RegExp: Match all links except youtube links with videos
RegExp I have constructed 到目前为止:
(?(DEFINE)
# URL
(?<proto> (https?:)?\/\/)
(?<port> :[0-9]{2,5})
(?<tld> (?:com|net|info|biz|us|org))
(?<path> (\/([a-z0-9+%-]\.?)+)*\/?)
(?<query> \?[a-z+&$_.-][a-z0-9;:@&%=+\/.-]*)
(?<hash> \#[a-z_.-][a-z0-9+$%_.-]*)
(?<subdomain> ([a-z0-9\-\.]+)\.)
# Exceptions
(?<yt_domain> (www\.)?(youtube\.com|youtu\.be)\/)
(?<yt_hash> ([\w-]{10,12})+)
(?<yt_video> \g<proto>?\g<yt_domain>+(watch)?(\/embed\/|\?v=)+\g<yt_hash>+)
)
# Capture
((?!\g<yt_video>+.*)
(\g<proto>?
\g<subdomain>
\g<tld>
\g<port>?
\g<path>?
\g<query>?
\g<hash>?
))
我设法捕获了任何格式的链接,但出于某种原因,我的否定前瞻(参见 \g<yt_video>
)并未从匹配列表中排除 YouTube 视频链接。
应部分或完全匹配的行:
http:www.google.com/
http//www.google.com/
http://www.google.com/
://www.google.com/
www.google.com/
www.google.com:8000
www.google.com/?key=value
github.io
www.google.com/abc/def/ijk#123
www.google.com/abc/def/ijk?v=123123123
www.google.com/abc/def/watch?v=1231231231
https://www.youtube.com/channel/UCgeu2xe0XRscaKyvBt3WgmQ
http://www.google.com/?key=value
http://www.youtube.com/
但是,它应该跳过(不匹配包含 youtube 视频 ID 的行):
http://www.youtube.com/watch?v=B5Gj78s6H7w&feature=youtu.be
https://www.youtube.com/embed/y19EaW2X7ac
music.youtube.com/embed/y19EaW2X7ac
https://www.youtube.com/watch?v=B5Gj78s6H7w&feature=youtu.be
https://www.youtube.com/watch?feature=youtu.be&v=B5Gj78s6H7w
https://www.youtu.be/B5Gj78s6H7w&feature=youtu.be
https://www.youtu.be/B5Gj78s6H7w
预先感谢您的帮助或任何提示为什么否定前瞻不否定行。
经过一番折腾之后,您诊断 NOT youtube
的方式
功能是注释掉它的其余部分并查看它匹配的内容。
关于先行断言,您必须了解的就是它们告诉
engine 是在当前位置不可能有东西在它前面。
它所做的只是将位置提高 1,然后再试一次。
这样做直到它到达断言通过的位置。
由于您没有任何锚点,它会将部分行与其他内容匹配。
因此,您必须通过 这段文字以避开其中的部分内容。
有几种方法可以解决这个问题,但到目前为止最简单的方法是匹配它
(*SKIP) (*FAIL)
过去了。
引擎实际上并不匹配它,但它把当前位置放在刚好超过它
并再次尝试。
我已经摆脱(或转换为集群)不必要的捕获组。
添加了 skip/fail,将您的 TLD 转换为三元 trie 并格式化为
阅读目的。
获取 RegexFormat 8 为您完成此操作并具有
用于正则表达式测试的内置引擎。
另请注意,此 (?: [\w-]{10,12} )+
一次具有 10-12 个字符的粒度。其中 [\w-]{10,}
将匹配 > 10 个字符。它在 <yt_hash>
函数中。在用这个 (?&yt_hash)+
调用它时,量词是 redundant/useless.
因为它现在成功地跳过了对 (?&yt_video) .*
的一些调用
你必须调查那个函数的部分,看看为什么它没有
匹配,因此 SKIP 其他人。
这里是压缩的
https://regex101.com/r/pOq3Hc/1
/(?i)(?(DEFINE)(?<proto>(?:https?:)?\/\/)(?<port>:[0-9]{2,5})(?<tld>(?:a(?:[cd]|e(?:ro)?|[fgil-oqr]|s(?:ia)?|[tuwxz])|b(?:[abd-h]|iz?|[jl-oq-tvwyz])|c(?:at?|[cdf-ik-n]|o(?:m|op)?|[ru-z])|d[ejkmoz]|e[ceghr-u]|f[i-kmor]|g[abd-il-np-uwy]|h[kmnrtu]|i(?:[delm]|n(?:fo|t)?|[oq-t])|j(?:[em]|o(?:bs)?|p)|k[eg-imnprwyz]|l[a-cikr-vy]|m(?:[ac-hk]|lc?|[mn]|o(?:bi)?|[p-t]|u(?:seum)?|[v-z])|n(?:a(?:me)?|c|et?|[fgilopruz])|o(?:m|rg)|p(?:[ae-hk-n]|ost|ro?|[stwy])|qa|r[eosuw]|s(?:[a-eg-or]|t(?:udio)?|[uvx-z])|t(?:[cd]|el|[f-hj-p]|r(?:avel)?|[tvwz])|u[agkmsyz]|v[aceginu]|w[fs]|y[et]|z[amw]))(?<path>(\/(?:[a-z0-9+%-]\.?)+)*\/?)(?<query>\?[a-z+&$_.-][a-z0-9;:@&%=+\/.-]*)(?<hash>\#[a-z_.-][a-z0-9+$%_.-]*)(?<subdomain>[a-z0-9\-\.]+\.)(?<yt_domain>(?:www\.)?(?:youtube\.com|youtu\.be)\/)(?<yt_hash>(?:[\w-]{10,12})+)(?<yt_video>(?&proto)?(?&yt_domain)+(?:watch)?(?:\/embed\/|\?v=)+(?&yt_hash)+))((?&yt_video).*(*SKIP)(*FAIL)|(?&proto)?(?&subdomain)(?&tld)(?&port)?(?&path)?(?&query)?(?&hash)?)/
并展开
(?i)
(?(DEFINE)
# URL
(?<proto> # (1 start)
(?: https?: )?
//
) # (1 end)
(?<port> : [0-9]{2,5} ) # (2)
(?<tld> # (3 start)
(?:
a
(?:
[cd]
| e
(?: ro )?
| [fgil-oqr]
| s
(?: ia )?
| [tuwxz]
)
| b
(?: [abd-h] | iz? | [jl-oq-tvwyz] )
| c
(?:
at?
| [cdf-ik-n]
| o
(?: m | op )?
| [ru-z]
)
| d [ejkmoz]
| e [ceghr-u]
| f [i-kmor]
| g [abd-il-np-uwy]
| h [kmnrtu]
| i
(?:
[delm]
| n
(?: fo | t )?
| [oq-t]
)
| j
(?:
[em]
| o
(?: bs )?
| p
)
| k [eg-imnprwyz]
| l [a-cikr-vy]
| m
(?:
[ac-hk]
| lc?
| [mn]
| o
(?: bi )?
| [p-t]
| u
(?: seum )?
| [v-z]
)
| n
(?:
a
(?: me )?
| c
| et?
| [fgilopruz]
)
| o
(?: m | rg )
| p
(?: [ae-hk-n] | ost | ro? | [stwy] )
| qa
| r [eosuw]
| s
(?:
[a-eg-or]
| t
(?: udio )?
| [uvx-z]
)
| t
(?:
[cd]
| el
| [f-hj-p]
| r
(?: avel )?
| [tvwz]
)
| u [agkmsyz]
| v [aceginu]
| w [fs]
| y [et]
| z [amw]
)
) # (3 end)
(?<path> # (4 start)
( # (5 start)
/
(?: [a-z0-9+%-] \.? )+
)* # (5 end)
/?
) # (4 end)
(?<query> \? [a-z+&$_.-] [a-z0-9;:@&%=+/.-]* ) # (6)
(?<hash> \# [a-z_.-] [a-z0-9+$%_.-]* ) # (7)
(?<subdomain> # (8 start)
[a-z0-9\-\.]+
\.
) # (8 end)
# Exceptions
(?<yt_domain> # (9 start)
(?: www\. )?
(?: youtube\.com | youtu\.be )
/
) # (9 end)
(?<yt_hash> # (10 start)
(?: [\w-]{10,12} )+
) # (10 end)
(?<yt_video> # (11 start)
(?&proto)? (?&yt_domain)+
(?: watch )?
(?: /embed/ | \?v= )+
(?&yt_hash)+
) # (11 end)
)
# Capture
( # (12 start)
(?&yt_video) .*
(*SKIP) (*FAIL)
|
(?&proto)?
(?&subdomain)
(?&tld)
(?&port)?
(?&path)?
(?&query)?
(?&hash)?
) # (12 end)
RegExp I have constructed 到目前为止:
(?(DEFINE)
# URL
(?<proto> (https?:)?\/\/)
(?<port> :[0-9]{2,5})
(?<tld> (?:com|net|info|biz|us|org))
(?<path> (\/([a-z0-9+%-]\.?)+)*\/?)
(?<query> \?[a-z+&$_.-][a-z0-9;:@&%=+\/.-]*)
(?<hash> \#[a-z_.-][a-z0-9+$%_.-]*)
(?<subdomain> ([a-z0-9\-\.]+)\.)
# Exceptions
(?<yt_domain> (www\.)?(youtube\.com|youtu\.be)\/)
(?<yt_hash> ([\w-]{10,12})+)
(?<yt_video> \g<proto>?\g<yt_domain>+(watch)?(\/embed\/|\?v=)+\g<yt_hash>+)
)
# Capture
((?!\g<yt_video>+.*)
(\g<proto>?
\g<subdomain>
\g<tld>
\g<port>?
\g<path>?
\g<query>?
\g<hash>?
))
我设法捕获了任何格式的链接,但出于某种原因,我的否定前瞻(参见 \g<yt_video>
)并未从匹配列表中排除 YouTube 视频链接。
应部分或完全匹配的行:
http:www.google.com/
http//www.google.com/
http://www.google.com/
://www.google.com/
www.google.com/
www.google.com:8000
www.google.com/?key=value
github.io
www.google.com/abc/def/ijk#123
www.google.com/abc/def/ijk?v=123123123
www.google.com/abc/def/watch?v=1231231231
https://www.youtube.com/channel/UCgeu2xe0XRscaKyvBt3WgmQ
http://www.google.com/?key=value
http://www.youtube.com/
但是,它应该跳过(不匹配包含 youtube 视频 ID 的行):
http://www.youtube.com/watch?v=B5Gj78s6H7w&feature=youtu.be
https://www.youtube.com/embed/y19EaW2X7ac
music.youtube.com/embed/y19EaW2X7ac
https://www.youtube.com/watch?v=B5Gj78s6H7w&feature=youtu.be
https://www.youtube.com/watch?feature=youtu.be&v=B5Gj78s6H7w
https://www.youtu.be/B5Gj78s6H7w&feature=youtu.be
https://www.youtu.be/B5Gj78s6H7w
预先感谢您的帮助或任何提示为什么否定前瞻不否定行。
经过一番折腾之后,您诊断 NOT youtube
的方式
功能是注释掉它的其余部分并查看它匹配的内容。
关于先行断言,您必须了解的就是它们告诉
engine 是在当前位置不可能有东西在它前面。
它所做的只是将位置提高 1,然后再试一次。
这样做直到它到达断言通过的位置。
由于您没有任何锚点,它会将部分行与其他内容匹配。
因此,您必须通过 这段文字以避开其中的部分内容。
有几种方法可以解决这个问题,但到目前为止最简单的方法是匹配它
(*SKIP) (*FAIL)
过去了。
引擎实际上并不匹配它,但它把当前位置放在刚好超过它
并再次尝试。
我已经摆脱(或转换为集群)不必要的捕获组。
添加了 skip/fail,将您的 TLD 转换为三元 trie 并格式化为
阅读目的。
获取 RegexFormat 8 为您完成此操作并具有
用于正则表达式测试的内置引擎。
另请注意,此 (?: [\w-]{10,12} )+
一次具有 10-12 个字符的粒度。其中 [\w-]{10,}
将匹配 > 10 个字符。它在 <yt_hash>
函数中。在用这个 (?&yt_hash)+
调用它时,量词是 redundant/useless.
因为它现在成功地跳过了对 (?&yt_video) .*
的一些调用
你必须调查那个函数的部分,看看为什么它没有
匹配,因此 SKIP 其他人。
这里是压缩的
https://regex101.com/r/pOq3Hc/1
/(?i)(?(DEFINE)(?<proto>(?:https?:)?\/\/)(?<port>:[0-9]{2,5})(?<tld>(?:a(?:[cd]|e(?:ro)?|[fgil-oqr]|s(?:ia)?|[tuwxz])|b(?:[abd-h]|iz?|[jl-oq-tvwyz])|c(?:at?|[cdf-ik-n]|o(?:m|op)?|[ru-z])|d[ejkmoz]|e[ceghr-u]|f[i-kmor]|g[abd-il-np-uwy]|h[kmnrtu]|i(?:[delm]|n(?:fo|t)?|[oq-t])|j(?:[em]|o(?:bs)?|p)|k[eg-imnprwyz]|l[a-cikr-vy]|m(?:[ac-hk]|lc?|[mn]|o(?:bi)?|[p-t]|u(?:seum)?|[v-z])|n(?:a(?:me)?|c|et?|[fgilopruz])|o(?:m|rg)|p(?:[ae-hk-n]|ost|ro?|[stwy])|qa|r[eosuw]|s(?:[a-eg-or]|t(?:udio)?|[uvx-z])|t(?:[cd]|el|[f-hj-p]|r(?:avel)?|[tvwz])|u[agkmsyz]|v[aceginu]|w[fs]|y[et]|z[amw]))(?<path>(\/(?:[a-z0-9+%-]\.?)+)*\/?)(?<query>\?[a-z+&$_.-][a-z0-9;:@&%=+\/.-]*)(?<hash>\#[a-z_.-][a-z0-9+$%_.-]*)(?<subdomain>[a-z0-9\-\.]+\.)(?<yt_domain>(?:www\.)?(?:youtube\.com|youtu\.be)\/)(?<yt_hash>(?:[\w-]{10,12})+)(?<yt_video>(?&proto)?(?&yt_domain)+(?:watch)?(?:\/embed\/|\?v=)+(?&yt_hash)+))((?&yt_video).*(*SKIP)(*FAIL)|(?&proto)?(?&subdomain)(?&tld)(?&port)?(?&path)?(?&query)?(?&hash)?)/
并展开
(?i)
(?(DEFINE)
# URL
(?<proto> # (1 start)
(?: https?: )?
//
) # (1 end)
(?<port> : [0-9]{2,5} ) # (2)
(?<tld> # (3 start)
(?:
a
(?:
[cd]
| e
(?: ro )?
| [fgil-oqr]
| s
(?: ia )?
| [tuwxz]
)
| b
(?: [abd-h] | iz? | [jl-oq-tvwyz] )
| c
(?:
at?
| [cdf-ik-n]
| o
(?: m | op )?
| [ru-z]
)
| d [ejkmoz]
| e [ceghr-u]
| f [i-kmor]
| g [abd-il-np-uwy]
| h [kmnrtu]
| i
(?:
[delm]
| n
(?: fo | t )?
| [oq-t]
)
| j
(?:
[em]
| o
(?: bs )?
| p
)
| k [eg-imnprwyz]
| l [a-cikr-vy]
| m
(?:
[ac-hk]
| lc?
| [mn]
| o
(?: bi )?
| [p-t]
| u
(?: seum )?
| [v-z]
)
| n
(?:
a
(?: me )?
| c
| et?
| [fgilopruz]
)
| o
(?: m | rg )
| p
(?: [ae-hk-n] | ost | ro? | [stwy] )
| qa
| r [eosuw]
| s
(?:
[a-eg-or]
| t
(?: udio )?
| [uvx-z]
)
| t
(?:
[cd]
| el
| [f-hj-p]
| r
(?: avel )?
| [tvwz]
)
| u [agkmsyz]
| v [aceginu]
| w [fs]
| y [et]
| z [amw]
)
) # (3 end)
(?<path> # (4 start)
( # (5 start)
/
(?: [a-z0-9+%-] \.? )+
)* # (5 end)
/?
) # (4 end)
(?<query> \? [a-z+&$_.-] [a-z0-9;:@&%=+/.-]* ) # (6)
(?<hash> \# [a-z_.-] [a-z0-9+$%_.-]* ) # (7)
(?<subdomain> # (8 start)
[a-z0-9\-\.]+
\.
) # (8 end)
# Exceptions
(?<yt_domain> # (9 start)
(?: www\. )?
(?: youtube\.com | youtu\.be )
/
) # (9 end)
(?<yt_hash> # (10 start)
(?: [\w-]{10,12} )+
) # (10 end)
(?<yt_video> # (11 start)
(?&proto)? (?&yt_domain)+
(?: watch )?
(?: /embed/ | \?v= )+
(?&yt_hash)+
) # (11 end)
)
# Capture
( # (12 start)
(?&yt_video) .*
(*SKIP) (*FAIL)
|
(?&proto)?
(?&subdomain)
(?&tld)
(?&port)?
(?&path)?
(?&query)?
(?&hash)?
) # (12 end)