为什么已经弹出的作用域会影响后续作用域中的 check-sat 时间?
Why do already popped scopes affect the check-sat time in subsequent scopes?
一般问题
我多次注意到已经弹出的 push-pop
范围似乎会影响后续范围中的 check-sat
所需的时间。
也就是说,假设一个程序具有多个(可能是任意嵌套的)push-pop 作用域,每个作用域都包含一个 check-sat 命令。此外,假设第二次 check-sat 需要 10 秒,而第一次只需要 0.1 秒。
...
(push)
(assert (not P))
(check-sat) ; Could be sat, unsat or unknown
(pop)
...
(push)
(assert (not Q))
(check-sat) ; Could be sat, unsat or unknown
(pop)
评论第一个push-pop scope后,第二个check-sat只用了1s。这是为什么?
据我所知,如果使用 push-pop 示波器,Z3 会切换到增量求解器。是否有(概念上的)原因可以解释他们为什么会这样?
有一次有人告诉我,Z3 按重要性给符号赋予属性,这会影响证明搜索(并且符号的重要性也会在证明搜索期间发生变化)。这可能是原因吗?是否可以重置重要性(在范围之间)?
会不会是bug?我发现 this post Leonardo 提到了一个似乎相关的错误(不过他的回答是从 2012 年开始的)。
具体实例
不幸的是,我只有相当长的(自动生成的)SMTLib 文件来说明行为,您可以在其中找到一个 this gist。它使用量词和未解释的函数,但既不使用 mbqi
也不使用数组或位向量。该示例由 148 个嵌套的 push-pop 作用域和 89 个 check-sats 组成,Z3 4.3.2 处理它大约需要 8 秒。最后一次 check-sat(以 echo
为前缀)花费的时间最长。
我随机评论了几个 push-pop 作用域(一次一个,从来没有最后一个,确保你没有评论符号声明),在大多数情况下,整体 运行 时间减少了小于 1s。也就是说,最后一次 check-sat 的完成速度明显更快。
为了提供更多详细信息,我将 Z3 的 运行 与所有范围(慢,8s)与 Z3 的 运行 进行了比较,其中 [XXX]
标记的范围已被评论(快,0.3 秒)。结果见this diff(左为慢,右为快)。
diff 显示所有 check-sats 的行为都相同(我通过回显 "unsat" 伪造了评论的),从中我得出结论,评论的范围会影响证明搜索,但不会影响其最终结果结果。
我也试图从获得的统计数据的差异中弄清楚一些意义,但我对如何正确解释统计数据知之甚少。以下是我能理解的一些统计数据:
grobner
(383 vs 36)和nonlinear-horner
(342 vs 25),所以看起来较慢的运行执行更多与算术相关的操作。注释范围确实是关于非线性算术的(还有很多其他的),但是注释范围中的特定证明应该是 "trivial",它本质上表明 x != 0
对于 x
已明确假定 0 < x
。
memory
(40 vs 7),我认为这表明 Z3 在慢速版本的程序中探索了更大的搜索space
quant-instantiations
(43k 对 51k),这让我感到惊讶,因为显着更快的 运行 然而触发了明显更多的量词实例化。
我不确定这是一个观察还是一个问题?是的,Z3 对于不同的输入会有不同的表现,push/pop 不是 "innocent",也就是说,它们会对性能产生重大影响。如果可以完全删除它们,这是最明显的,因为这允许 Z3 切换到不支持增量(但通常更快)的完全不同的子求解器。例如,对于没有范围界定的纯位爆破公式,Z3 将使用快速的新 SAT 求解器,但如果需要 push/pop,它会退回到更旧且更慢的 SAT 求解器(这两个求解器的实现完全不相交)。
此外,删除 一些 之间的作用域也可能产生巨大的影响,因为它允许 Z3 保留更多的中间引理以及启发式状态。如果出于某种原因希望每个查询都表现得好像没有其他查询一样,那么最好简单地生成独立的查询并从头开始对每个查询启动 Z3。
有关提到的具体问题的更多信息:
"Heuristic states" 表示 Z3 使用的各种启发式数据,工作中有大量不同的启发式,而不仅仅是像符号排序这样的特定启发式。是否 "good" 在查询之间保留此信息完全取决于您的问题 - 启发式方法适用于某些问题,但并非适用于所有问题,因为启发式方法的本质就是如此。不过,增量的整个概念都建立在这个基础上:如果启发式方法没有帮助,那么我们最好 运行 进行独立查询。但是,在某些应用程序中,重置 Z3 有时 比不重置或独立查询要好,例如,当您有大量微小查询时。
切换到其他求解器的概念原因:第一个不支持您需要的功能。参见 combined_solver.cpp,函数 check_sat
。如果未使用 solver1(例如,如果提供了假设或启用了增量模式),则将使用 solver2。
combined_solver.solver2_timeout
将放置一个超时求解器 2。当 solver2 超时时会发生什么由选项 combined_solver.solver2_unknown
设置。所以,是的,你可以在 solver2 之后 运行 solver1,但是 solver1 也允许失败,即 return unknown。查看代码,如果使用它,它很可能是不合理的(例如,忽略假设)。
回复:提到的错误报告:那是一个稳健性错误,而不是性能错误;一位求解器说 SAT,另一位求解器说 UNSAT。
一般问题
我多次注意到已经弹出的 push-pop
范围似乎会影响后续范围中的 check-sat
所需的时间。
也就是说,假设一个程序具有多个(可能是任意嵌套的)push-pop 作用域,每个作用域都包含一个 check-sat 命令。此外,假设第二次 check-sat 需要 10 秒,而第一次只需要 0.1 秒。
...
(push)
(assert (not P))
(check-sat) ; Could be sat, unsat or unknown
(pop)
...
(push)
(assert (not Q))
(check-sat) ; Could be sat, unsat or unknown
(pop)
评论第一个push-pop scope后,第二个check-sat只用了1s。这是为什么?
据我所知,如果使用 push-pop 示波器,Z3 会切换到增量求解器。是否有(概念上的)原因可以解释他们为什么会这样?
有一次有人告诉我,Z3 按重要性给符号赋予属性,这会影响证明搜索(并且符号的重要性也会在证明搜索期间发生变化)。这可能是原因吗?是否可以重置重要性(在范围之间)?
会不会是bug?我发现 this post Leonardo 提到了一个似乎相关的错误(不过他的回答是从 2012 年开始的)。
具体实例
不幸的是,我只有相当长的(自动生成的)SMTLib 文件来说明行为,您可以在其中找到一个 this gist。它使用量词和未解释的函数,但既不使用 mbqi
也不使用数组或位向量。该示例由 148 个嵌套的 push-pop 作用域和 89 个 check-sats 组成,Z3 4.3.2 处理它大约需要 8 秒。最后一次 check-sat(以 echo
为前缀)花费的时间最长。
我随机评论了几个 push-pop 作用域(一次一个,从来没有最后一个,确保你没有评论符号声明),在大多数情况下,整体 运行 时间减少了小于 1s。也就是说,最后一次 check-sat 的完成速度明显更快。
为了提供更多详细信息,我将 Z3 的 运行 与所有范围(慢,8s)与 Z3 的 运行 进行了比较,其中 [XXX]
标记的范围已被评论(快,0.3 秒)。结果见this diff(左为慢,右为快)。
diff 显示所有 check-sats 的行为都相同(我通过回显 "unsat" 伪造了评论的),从中我得出结论,评论的范围会影响证明搜索,但不会影响其最终结果结果。
我也试图从获得的统计数据的差异中弄清楚一些意义,但我对如何正确解释统计数据知之甚少。以下是我能理解的一些统计数据:
grobner
(383 vs 36)和nonlinear-horner
(342 vs 25),所以看起来较慢的运行执行更多与算术相关的操作。注释范围确实是关于非线性算术的(还有很多其他的),但是注释范围中的特定证明应该是 "trivial",它本质上表明x != 0
对于x
已明确假定0 < x
。memory
(40 vs 7),我认为这表明 Z3 在慢速版本的程序中探索了更大的搜索spacequant-instantiations
(43k 对 51k),这让我感到惊讶,因为显着更快的 运行 然而触发了明显更多的量词实例化。
我不确定这是一个观察还是一个问题?是的,Z3 对于不同的输入会有不同的表现,push/pop 不是 "innocent",也就是说,它们会对性能产生重大影响。如果可以完全删除它们,这是最明显的,因为这允许 Z3 切换到不支持增量(但通常更快)的完全不同的子求解器。例如,对于没有范围界定的纯位爆破公式,Z3 将使用快速的新 SAT 求解器,但如果需要 push/pop,它会退回到更旧且更慢的 SAT 求解器(这两个求解器的实现完全不相交)。
此外,删除 一些 之间的作用域也可能产生巨大的影响,因为它允许 Z3 保留更多的中间引理以及启发式状态。如果出于某种原因希望每个查询都表现得好像没有其他查询一样,那么最好简单地生成独立的查询并从头开始对每个查询启动 Z3。
有关提到的具体问题的更多信息:
"Heuristic states" 表示 Z3 使用的各种启发式数据,工作中有大量不同的启发式,而不仅仅是像符号排序这样的特定启发式。是否 "good" 在查询之间保留此信息完全取决于您的问题 - 启发式方法适用于某些问题,但并非适用于所有问题,因为启发式方法的本质就是如此。不过,增量的整个概念都建立在这个基础上:如果启发式方法没有帮助,那么我们最好 运行 进行独立查询。但是,在某些应用程序中,重置 Z3 有时 比不重置或独立查询要好,例如,当您有大量微小查询时。
切换到其他求解器的概念原因:第一个不支持您需要的功能。参见 combined_solver.cpp,函数 check_sat
。如果未使用 solver1(例如,如果提供了假设或启用了增量模式),则将使用 solver2。
combined_solver.solver2_timeout
将放置一个超时求解器 2。当 solver2 超时时会发生什么由选项 combined_solver.solver2_unknown
设置。所以,是的,你可以在 solver2 之后 运行 solver1,但是 solver1 也允许失败,即 return unknown。查看代码,如果使用它,它很可能是不合理的(例如,忽略假设)。
回复:提到的错误报告:那是一个稳健性错误,而不是性能错误;一位求解器说 SAT,另一位求解器说 UNSAT。