【问题标题】:How to make a sub parser with Parsec?如何使用 Parsec 制作子解析器?
【发布时间】:2019-01-29 22:40:12
【问题描述】:

我想用Parsec 解析几个缩进或格式化为数组的命令列表。例如,我的列表格式如下:

Command1 arg1 arg2       Command1 arg1 arg2         Command1 arg1 arg2
Command2 arg1                                       Command3 arg1 arg2 arg3
                         Command3 arg1 arg2 arg3
                                                    Command4
Command3 arg1 arg2 arg3  Command2 arg1
                         Command4
Command4
Command5 arg1                                       Command2 arg1

这些命令应该在解析器中随着状态变化逐列解析。

我的想法是将命令收集到单独的字符串列表中,并将这些字符串解析为子解析器(在主解析器内执行)。

我检查了 Parsec 库的 API,但没有找到执行此操作的函数。

我考虑过使用runParser,但这个函数只提取解析器的结果而不是它的状态。

我也考虑过制作一个受runParsecTmkPT 启发的函数来制作我自己的解析器,但是构造函数ParsecTinitialPos 不可用(不由库导出)

是否可以使用Parsec 在解析器中运行子解析器?

如果不行,像megaparsec 这样的库能解决我的问题吗?

【问题讨论】:

  • 你可以只 getState 并将状态包含在解析器的结果中。
  • 我有这个想法,但我希望在子解析器失败时返回解析器的状态(将错误消息推送到主解析器)。
  • megaparsec 确实有返回状态的runParser'
  • @JeanJouX 如果您只关心简单的错误消息,也许 ParserError 就足够了吗?解析器用户状态旨在回溯失败。如果您想要一些状态/输出来收集不回溯的状态/数据,那么您可能应该将其保留在 Parsec 之外(例如,在 WriterT 上堆叠 ParserT)。

标签: parsing haskell parsec megaparsec


【解决方案1】:

不是一个完整的答案,更多是一个需要澄清的问题:

有必要建立一个字符串列表吗? 我更愿意解析输入并将其转换为更特殊的数据类型。这样你就可以使用haskell的类型保证了。

我将首先为我的命令定义一个数据类型:

data Command = Command1 Argtype1 
               | Command2 Argtype2
               | Command3 Argtype1 Argtype2

data Argtype1 = Arg1 | Arg2 | ArgX
data Argtype2 = Arg2_1 | Arg2_2 

之后,您可以解析输入并将其放入数据类型中。

在解析结束时,您可以mappend 结果(即在前面添加带有操作 (:) 的列表)。

您最终会得到 [Command] 的数据类型。 有了它,您可以进一步工作。

为了解析文本,您可以按照包 m​​egaparsec 的介绍在 (https://markkarpov.com/megaparsec/parsing-simple-imperative-language.html)


或者你的意思是完全不同的东西?也许每一行(包含一些命令)作为一个整体应该是状态机的一个输入,并且状态机会根据命令发生变化?然后我想知道为什么状态机要实现为解析器。

【讨论】:

  • 我同意,似乎 OP 试图在解析器内部做太多事情,但最好保持解析器简单,并且如果有任何语义错误,在解析后仍然可以处理。
【解决方案2】:

作为起点,“如何制作子解析器”的最简单答案是使用单子绑定、应用程序 <*>、替代 <|> 以及库提供的组合器。假设每个命令都属于一种类型(如 Hans Kruger 的回答),并且具有任意数量的列,下面可能是一个很好的模板。

import Text.Parsec
import Text.Parsec.Char
import Data.List(transpose)

cmdFileParser :: Parsec s u [[CommandType]] 
cmdFileParser = sepBy sepParser cmdLineParser
   where
     sepParser = newline --From Text.Parsec.Char

cmdLineParser :: Parsec s u [CommandType]
cmdLineParser = sepBy sepParser cmdParser
   where
     sepParser = tab


cmdParser :: Parsec s u CommandType
cmdParser =   parseCommand1
              <|> parseCommand2
              <|> parseCommand3 
              <|> etc 

然后,在解析之后,将[[CommandType]] 转置为按列分组命令

main = do
  ...
  let ret = runParser cmdFileParser 
                       "debug string telling what was parsed" 
                       stringToParse
  case ret of
    Left e -> putStrLn "wasn't parsed"
    Right cmds -> doSomethingWith (transpose cmds)

我会说上面是一种典型的方法。当然也有变化。例如,如果您知道应该只有三列,那么您可能会使用下面的 cmdLineParser 而不是下面

cmdLineParser :: Parsec s u (CommandType,CommandType,CommandType)
cmdLineParser = (\a b c -> (a,b,c)) <$> ct <*> ct <*> cmdParser
   where
     ct = cmdParser <* tab

我会说使用getState 是非典型的。当我第一次开始使用 Parsec 时,我记得我在工作后得到了一些我认为的东西,但它并不漂亮。当然,如果您真的只想返回字符串,您可以随时解析除换行符和制表符之外的任何字符。

cmdParser :: Parsec s u String
cmdParser = many (noneOf "\n\t")

不过,请小心使用上述内容。以前我一直在使用many,这需要太多或总是成功。所以我不太相信那个确切的公式会给你命令字符串。此外,如果您只是将该命令解析为字符串,然后重新解析 main 中的命令,您将解析两次!

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2016-12-23
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2013-01-18
    相关资源
    最近更新 更多