如何使用 Parsec 制作子解析器?

How to make a sub parser with Parsec?

我想解析几个缩进或格式化为 Parsec 数组的命令列表。例如,我的列表格式如下:

Command1 arg1 arg2       Command1 arg1 arg2         Command1 arg1 arg2
Command2 arg1                                       Command3 arg1 arg2 arg3
                         Command3 arg1 arg2 arg3
                                                    Command4
Command3 arg1 arg2 arg3  Command2 arg1
                         Command4
Command4
Command5 arg1                                       Command2 arg1

这些命令应该在解析器中随着状态的变化逐列解析。

我的想法是将命令收集到单独的字符串列表中,并将这些字符串解析为子解析器(在主解析器中执行)。

我检查了 Parsec 库的 API,但没有找到执行此操作的函数。

我考虑过使用 runParser,但是这个函数只提取解析器的结果,而不是它的状态。

我也考虑过制作一个受 runParsecT and mkPT 启发的函数来制作我自己的解析器,但是构造函数 ParsecTinitialPos 不可用(不是由库导出)

是否可以 运行 带有 Parsec 的解析器中的子解析器?

如果没有,megaparsec这样的库能解决我的问题吗?

不是一个完整的答案,更多的是一个需要澄清的问题:

是否需要构建字符串列表? 我更愿意解析输入并将其转换为更特殊的数据类型。这样你就可以使用 haskell.

的类型保证

我将从为命令定义数据类型开始:

data Command = Command1 Argtype1 
               | Command2 Argtype2
               | Command3 Argtype1 Argtype2

data Argtype1 = Arg1 | Arg2 | ArgX
data Argtype2 = Arg2_1 | Arg2_2 

之后您可以解析输入并将其放入数据类型中。

在解析结束时,您可以mappend结果(即在前面添加操作 (:) 的列表)。

您最终得到了 [Command] 数据类型。 有了它,您可以进一步工作。

要解析文本,您可以按照 megaparsec 包的介绍进行操作,网址为 (https://markkarpov.com/megaparsec/parsing-simple-imperative-language.html)


或者您的意思完全不同?也许每一行(包含一些命令)作为一个整体应该是一个状态机的输入,并且状态机的变化与命令?然后我想知道为什么要将状态机实现为解析器。

作为起点,"How to make a sub parser" 的最简单答案是使用单子绑定、应用 <*>、替代 <|> 和库提供的组合器。假设每个命令都属于一种类型(如 Hans Kruger 的回答),并且具有任意数量的列,下面可能是一个很好的模板。

import Text.Parsec
import Text.Parsec.Char
import Data.List(transpose)

cmdFileParser :: Parsec s u [[CommandType]] 
cmdFileParser = sepBy sepParser cmdLineParser
   where
     sepParser = newline --From Text.Parsec.Char

cmdLineParser :: Parsec s u [CommandType]
cmdLineParser = sepBy sepParser cmdParser
   where
     sepParser = tab


cmdParser :: Parsec s u CommandType
cmdParser =   parseCommand1
              <|> parseCommand2
              <|> parseCommand3 
              <|> etc 

然后,在解析之后,转置 [[CommandType]] 以按列

对命令进行分组
main = do
  ...
  let ret = runParser cmdFileParser 
                       "debug string telling what was parsed" 
                       stringToParse
  case ret of
    Left e -> putStrLn "wasn't parsed"
    Right cmds -> doSomethingWith (transpose cmds)

我会说以上是一种典型的方法。当然有变化。例如,如果您知道应该只有三列,您可能会使用下面的 cmdLineParser 而不是上面的

cmdLineParser :: Parsec s u (CommandType,CommandType,CommandType)
cmdLineParser = (\a b c -> (a,b,c)) <$> ct <*> ct <*> cmdParser
   where
     ct = cmdParser <* tab

我会说使用 getState 是非典型的。当我第一次开始使用 Parsec 时,我记得得到了一些我认为你工作后的东西,但它并不漂亮。当然,如果您真的只想 return 字符串,您可以随时解析除换行符和制表符之外的任何字符。

cmdParser :: Parsec s u String
cmdParser = many (noneOf "\n\t")

尽管如此,请谨慎使用以上内容。我以前在使用 many 时被烧毁过,它花费太多或总是成功。所以我不太相信那个确切的公式会让你得到命令字符串。此外,如果您只是将该命令解析为字符串,然后重新解析 main 中的命令,您将解析两次!