优先使用 CPS 而不是代数数据类型的要求是什么?
What are the requirements to prefer CPS over algebraic data types?
我对代数数据类型没有什么经验,因为我使用的语言没有本地支持。通常可以使用连续传递样式来获得类似的体验,但 CPS 编码类型的处理不太舒服。
考虑到这一点,为什么像 Parsec 这样的库会使用 CPS?
newtype ParsecT s u m a
= ParsecT {unParser :: forall b .
State s u
-> (a -> State s u -> ParseError -> m b) -- consumed ok
-> (ParseError -> m b) -- consumed err
-> (a -> State s u -> ParseError -> m b) -- empty ok
-> (ParseError -> m b) -- empty err
-> m b
}
一个线索是 try
解析器,它通过传递 empty error continuation 来排除 consumed error 的情况在这两种情况下:
try :: ParsecT s u m a -> ParsecT s u m a
try p =
ParsecT $ \s cok _ eok eerr ->
unParser p s cok eerr eok eerr
-- ^^^^ ^^^^
这是可能的,因为 cerr
和 eerr
这两个延续具有相同的类型,只是它们的位置不同,这让我想起了结构类型。虽然我认为你不能用 ADT 做到这一点,但可能有一种方法可以用它们实现相同的行为。除此之外,单个组合器并不能证明依赖 CPS 的影响深远的决定是合理的。那么为什么做出这个决定?
Antoine Latter 于 2009 年 3 月 2 日在 commit a98a3ccb 中进行了此更改。提交评论只是:
commit a98a3ccbca9835fe749b8cd2d475a0494a84a460
Author: Antoine Latter <aslatter@gmail.com>
Date: Mon Mar 2 00:20:00 2009 +0000
move core data type over to CPS
它取代了 ParsecT 的原始 ADT:
data ParsecT s u m a
= ParsecT { runParsecT :: State s u -> m (Consumed (m (Reply s u a))) }
对于您问题中的新版本,添加一个 runParsecT
适配器以将所有内容转换回来:
runParsecT :: Monad m => ParsecT s u m a -> State s u -> m (Consumed (m (Reply s u a)))
runParsecT p s = unParser p s cok cerr eok eerr
where cok a s' err = return . Consumed . return $ Ok a s' err
cerr err = return . Consumed . return $ Error err
eok a s' err = return . Empty . return $ Ok a s' err
eerr err = return . Empty . return $ Error err
我看到他做了一个 blog post in February 2009 ,他写了关于终于理解 CPS 风格的文章,并写了一个 CPS 版本的 MaybeT
。他没有谈论任何性能优势,只是指出 CPS 风格的优势在于 MaybeT
的 Monad
和 MonadPlus
实例可以在不调用 >>=
或return
在底层 monad 上或对 Maybe
值进行显式案例分析。
在后来的 December 2009 blog post 中,他写到他“对功能化 monad 转换器的痴迷”,给出了一个 ErrorT
的例子并明确指出:
I haven't benchmarked whether or not this is faster for anything, but I find the whole thing a lot of fun.
但是, 他随后在同一个博客中继续 post 讨论如何向 Parsec 3 添加功能以使其成为 monad 转换器而不是普通的旧转换器monad 并在输入类型上对其进行参数化导致性能不佳(在某些基准测试中大约慢 1.8 倍)。他发现转换为 CPS 风格后,Parsec 3 与 Parsec 2 一样快,至少在不使用那些新的抽象(转换器)时是这样。
推测时间点,我认为 Antoine 认为 CPS 很“酷”并且具有吸引他的风格优势,因此他在开发 Parsec 3 时将其放在首位。当 Parsec 3 中的新抽象导致一个性能问题,他偶然发现将其转换为 CPS 似乎可以解决这些问题,尽管他没有详细研究原因(只是博客中的一些推测 post)。但是,我有点不清楚他是 实际上 在发现性能优势之前首先转换为 CPS,还是尝试 CPS 并期望它可能有助于提高性能。博客 post 读起来像是故意进行转换以解决性能问题,但这可能只是为了在博客 post.
中进行更简单的阐述。
一个大问题是 ParsecT
是一个 monad 转换器,使用 ADTs 定义的 monad 转换器比使用 CPS 的 monad 转换器更能阻止优化。
表达式 pure x >>= k :: ExceptT e m a
给出了一个最小的说明性示例。
将 ExceptT e m a
定义为 m (Either e a)
,该表达式不能很好地简化,因为它涉及基础 monad m
的 (>>=)
是抽象的。
将 ExceptT e m a
定义为 forall r. (Either e a -> m r) -> m r
,pure x >>= k
基本上 beta-reduces 到 k x
,而不对 m
做任何假设.
您需要专门化 m
来优化 m (Either e a)
类型的术语,而基于延续的变体可以在没有专门化的情况下走很长一段路。
然而,CPS 也不是 Haskell 中的理想表示,因为延续是在堆上分配的函数。功能便宜但不是零成本。
归根结底,monad 转换器中 m
的抽象性确实妨碍了优化,您必须专门化,即打破模块化。因此,一种更有前途的方法是使用一些特殊的原始 monad (IO
),并得到 运行-time 系统的专门支持,作为效果系统的基础。
另见演讲 Effects for Less, by Alexis King, and the related library eff。
我对代数数据类型没有什么经验,因为我使用的语言没有本地支持。通常可以使用连续传递样式来获得类似的体验,但 CPS 编码类型的处理不太舒服。
考虑到这一点,为什么像 Parsec 这样的库会使用 CPS?
newtype ParsecT s u m a
= ParsecT {unParser :: forall b .
State s u
-> (a -> State s u -> ParseError -> m b) -- consumed ok
-> (ParseError -> m b) -- consumed err
-> (a -> State s u -> ParseError -> m b) -- empty ok
-> (ParseError -> m b) -- empty err
-> m b
}
一个线索是 try
解析器,它通过传递 empty error continuation 来排除 consumed error 的情况在这两种情况下:
try :: ParsecT s u m a -> ParsecT s u m a
try p =
ParsecT $ \s cok _ eok eerr ->
unParser p s cok eerr eok eerr
-- ^^^^ ^^^^
这是可能的,因为 cerr
和 eerr
这两个延续具有相同的类型,只是它们的位置不同,这让我想起了结构类型。虽然我认为你不能用 ADT 做到这一点,但可能有一种方法可以用它们实现相同的行为。除此之外,单个组合器并不能证明依赖 CPS 的影响深远的决定是合理的。那么为什么做出这个决定?
Antoine Latter 于 2009 年 3 月 2 日在 commit a98a3ccb 中进行了此更改。提交评论只是:
commit a98a3ccbca9835fe749b8cd2d475a0494a84a460
Author: Antoine Latter <aslatter@gmail.com>
Date: Mon Mar 2 00:20:00 2009 +0000
move core data type over to CPS
它取代了 ParsecT 的原始 ADT:
data ParsecT s u m a
= ParsecT { runParsecT :: State s u -> m (Consumed (m (Reply s u a))) }
对于您问题中的新版本,添加一个 runParsecT
适配器以将所有内容转换回来:
runParsecT :: Monad m => ParsecT s u m a -> State s u -> m (Consumed (m (Reply s u a)))
runParsecT p s = unParser p s cok cerr eok eerr
where cok a s' err = return . Consumed . return $ Ok a s' err
cerr err = return . Consumed . return $ Error err
eok a s' err = return . Empty . return $ Ok a s' err
eerr err = return . Empty . return $ Error err
我看到他做了一个 blog post in February 2009 ,他写了关于终于理解 CPS 风格的文章,并写了一个 CPS 版本的 MaybeT
。他没有谈论任何性能优势,只是指出 CPS 风格的优势在于 MaybeT
的 Monad
和 MonadPlus
实例可以在不调用 >>=
或return
在底层 monad 上或对 Maybe
值进行显式案例分析。
在后来的 December 2009 blog post 中,他写到他“对功能化 monad 转换器的痴迷”,给出了一个 ErrorT
的例子并明确指出:
I haven't benchmarked whether or not this is faster for anything, but I find the whole thing a lot of fun.
但是, 他随后在同一个博客中继续 post 讨论如何向 Parsec 3 添加功能以使其成为 monad 转换器而不是普通的旧转换器monad 并在输入类型上对其进行参数化导致性能不佳(在某些基准测试中大约慢 1.8 倍)。他发现转换为 CPS 风格后,Parsec 3 与 Parsec 2 一样快,至少在不使用那些新的抽象(转换器)时是这样。
推测时间点,我认为 Antoine 认为 CPS 很“酷”并且具有吸引他的风格优势,因此他在开发 Parsec 3 时将其放在首位。当 Parsec 3 中的新抽象导致一个性能问题,他偶然发现将其转换为 CPS 似乎可以解决这些问题,尽管他没有详细研究原因(只是博客中的一些推测 post)。但是,我有点不清楚他是 实际上 在发现性能优势之前首先转换为 CPS,还是尝试 CPS 并期望它可能有助于提高性能。博客 post 读起来像是故意进行转换以解决性能问题,但这可能只是为了在博客 post.
中进行更简单的阐述。一个大问题是 ParsecT
是一个 monad 转换器,使用 ADTs 定义的 monad 转换器比使用 CPS 的 monad 转换器更能阻止优化。
表达式 pure x >>= k :: ExceptT e m a
给出了一个最小的说明性示例。
将
ExceptT e m a
定义为m (Either e a)
,该表达式不能很好地简化,因为它涉及基础 monadm
的(>>=)
是抽象的。将
ExceptT e m a
定义为forall r. (Either e a -> m r) -> m r
,pure x >>= k
基本上 beta-reduces 到k x
,而不对m
做任何假设.
您需要专门化 m
来优化 m (Either e a)
类型的术语,而基于延续的变体可以在没有专门化的情况下走很长一段路。
然而,CPS 也不是 Haskell 中的理想表示,因为延续是在堆上分配的函数。功能便宜但不是零成本。
归根结底,monad 转换器中 m
的抽象性确实妨碍了优化,您必须专门化,即打破模块化。因此,一种更有前途的方法是使用一些特殊的原始 monad (IO
),并得到 运行-time 系统的专门支持,作为效果系统的基础。
另见演讲 Effects for Less, by Alexis King, and the related library eff。