如何匹配 Lua 中的句子

How to match a sentence in Lua

我正在尝试创建一个试图匹配句子的正则表达式。

这是一个片段。

local utf8 = require 'lua-utf8'
function matchsent(text)
  local text = text
  for sent in utf8.gmatch(text, "[^\r\n]+\.[\r\n ]") do
    print(sent)
    print('-----')
  end
end

但是,它不像 python 那样工作。我知道 Lua 使用不同的正则表达式模式集,并且它的正则表达式功能有限,但为什么上面的正则表达式给我一个语法错误?在 Lua 中匹配正则表达式的句子会是什么样子?

请注意,Lua 使用 Lua 模式,它们不是 "regular" 表达式,因为它们无法匹配常规语言。它们几乎不能用于将文本拆分成句子,因为您需要考虑各种缩写、空格、大小写等。要将文本拆分成句子,由于复杂性,您需要一个 NLP 包而不是一两个正则表达式任务。

关于

why does the regex above give me a syntax error?

您需要在 Lua 模式 中用 % 符号转义特殊符号。查看示例代码:

function matchsent(text)
    for sent in string.gmatch(text, '[^\r\n]+%.[\r\n ]') do
        print(sent)
        print("---")
    end
end
matchsent("Some text here.\nShow me")

一个online demo