国际象棋 alpha beta 返回棋盘的错误动作

Chess alpha beta returning wrong move for the board

我正在尝试使用 alpha beta 修剪实现一个国际象棋游戏。以下几乎可以工作,但是 return 错误的步骤。

例如,可能会出现以下情况。

白(用户)移动,白王位-a1 / 黑(电脑),黑王位-h1

白棋王从 a1 - a2 走,然后黑棋 return 走 g2 - g1???

似乎计算机 return 走错了节点(棋盘表示),就好像给定棋盘位置的最佳评估没有一直传播到树上。因此,在探索的一个模拟位置中,计算机 "imagines" 它的国王移动到 g2 然后 returns 从这个位置开始移动,没有意识到这个位置是一个模拟位置而不是实际板的表示(根节点?)。

我如何更正代码以使计算机 return 成为实际棋盘表示的一步,而不是错误的模拟之一?

谢谢。

初次通话alphaBeta(3, ChessEngine.invertBoard(ChessEngine.board), -10000, 10000, true);

private static int alphaBetaEvaluate = 0;
private static int alphaBetaSelectedSquare = 0;
private static int alphaBetaMoveToSquare = 0;
public static int alphaBeta(int depth, char[] board, int alpha, int beta, boolean maxPlayer) {

    //create a copy of the board
    char[] boardCopy = board.clone();

    //if terminal state has not been met, keep searching
    if (maxPlayer == true && depth > 0) {

        //for all of the moves that max can make
        for (int i = 0; i < board.length; i++) {
            for (int move : ChessEngine.getValidMoves(i, boardCopy)) {

                //make the move
                boardCopy[move] = boardCopy[i];
                boardCopy[i] = '.';

                alphaBetaEvaluate = rating(board, boardCopy, i, move);

                //store the best move to make
                int temp = alphaBeta(--depth, ChessEngine.invertBoard(boardCopy), -10000, 10000, false);
                if (temp > alpha) {
                    alphaBetaSelectedSquare = i;
                    alphaBetaMoveToSquare = move;           
                    alpha = temp;
                }

                //reset the board for the next simulated move
                boardCopy = board.clone();

                if (beta <= alpha) {
                    break;
                }
            }
        }
        return alpha;
    } else if (maxPlayer == false && depth > 0) {

        //for all of the moves that min can make
        for (int i = 0; i < board.length; i++) {
            for (int move : ChessEngine.getValidMoves(i, boardCopy)) {

                //make the move
                boardCopy[move] = boardCopy[i];
                boardCopy[i] = '.';
                beta = Math.min(beta, alphaBeta(--depth, ChessEngine.invertBoard(boardCopy), -10000, 10000, true));

                //reset the board for the next simulated move
                boardCopy = board.clone();

                if (beta <= alpha) {
                    break;
                }
            }
        }
        return beta;
    }
    return alphaBetaEvaluate;
}

毕竟我没有得到你的实现。首先你要做的是创建一棵树。决策树并向上传播决策。您想最大化您的评价,并期望敌人 select 使您的评价最小化的举动 return。

因此,除非您知道您根据情况所做的评估是正确调整的,否则反转板对我来说听起来不太合理。

对我来说另一个严重的问题是你总是调用 min/max 来表示下一步行动,-10k 和 10k 作为 alpha 和 beta 的边界。这样你的算法就不会 'learn' 来自以前的动作。

您需要再次检查算法(例如我使用的维基百科)并查看它们使用的 alpha 和 beta 被之前的评估修改过。这样,更高深度的计算可以首先停止,其次更好地评估最佳着法。

我不是这方面的专家。几十年前,当我编写我的实现时,我使用了一些不同的东西。

另一个想法是不要在同一个方法中使用 min 和 max,而是使用 min 和 max 方法。它使您更有可能发现其他缺陷。

也不要用二王来评价。那没有目标。两个国王是随机的,不能赢。一件事可能是两个骑士或四个女王等等。它不是那么随机,您可以看到皇后在周围跳舞而无法互相抓住。或者使用三个骑士对一个女王。

并尝试围绕其他部分为自己创建一些单元测试。只是为了确保零件独立正常工作。为什么要使用字符?为什么不使用枚举或对象。您可以为每个字段重复使用对象(它更像是各种数字)。

但无论如何这是风格而不是算法正确性。