从 lambda 使用 VPC 对等访问时出现 AWS DAX ConnectionException

AWS DAX ConnectionException when accessing with VPC peering from lambda

我在 AWS 账户 A 上的 VPC 中有一个 AWS lambda 函数,它与包含 DAX 集群的 AWS 账户 B 上的 VPC 建立对等连接。尝试从我的 lambda 连接到 DAX 集群时出现以下错误。

2021-12-17T17:29:34.096Z    279f4ed8-a6ea-4f50-b1d7-31c307cc3f30    ERROR   Failed to pull from my-cluster.v3fh7d.dax-clusters.us-east-1.amazonaws.com (11.0.225.143): TimeoutError: ConnectionException: Connection timeout after 10000ms
    at SocketTubePool.alloc (/var/task/node_modules/amazon-dax-client/src/Tube.js:244:64)
    at /var/task/node_modules/amazon-dax-client/generated-src/Operations.js:215:30 {
  time: 1639762164096,
  code: 'ConnectionException',
  retryable: true,
  requestId: null,
  statusCode: -1,
  _tubeInvalid: false,
  waitForRecoveryBeforeRetrying: false
}

我的 lambda 代码的相关部分在这里。

let assumedRole;

const sts = new AWS.STS({ region: "us-east-1" });
const params = {
  RoleArn:
    "arn:aws:iam::<account-b>:role/role-to-access-dax",
  RoleSessionName: "testAssumeRoleSession" + Date.now().toString(),
  DurationSeconds: 3600,
};

try {
  assumedRole = await sts.assumeRole(params).promise();
} catch (error) {
  console.log("Failed getting sts assume role: " + error);
}

const dax = new AmazonDaxClient({
  endpoint:
    "dax://my-cluster.v3fh7d.dax-clusters.us-east-1.amazonaws.com",
  region: "us-east-1",
  accessKeyId: assumedRole.Credentials.AccessKeyId,
  secretAccessKey: assumedRole.Credentials.SecretAccessKey,
  sessionToken: assumedRole.Credentials.SessionToken,
  httpOptions: { timeout: 150000 },
  maxRetries: 1,
});

const dynamodb = new AWS.DynamoDB.DocumentClient({ service: dax });

try {
  const params = {
    Key: {
      userid: requestData.userid,
    },
    TableName: "my-users-table",
  };
  const result = await dynamodb.get(params).promise();

  if (result.Item == undefined || result.Item == null) {
    return createResponse(401, "Unauthorized");
  }
  return createResponse(200, JSON.stringify(result.Item));
} catch (error) {
  return createResponse(500, error);
}

角色arn:aws:iam::<account-b>:role/role-to-access-dax具有以下权限

{
    "Version": "2012-10-17",
    "Statement": [
        {
            "Effect": "Allow",
            "Action": [
                "dax:GetItem",
                "dax:BatchGetItem",
                "dax:Query",
                "dax:Scan",
                "dax:PutItem",
                "dax:UpdateItem",
                "dax:DeleteItem",
                "dax:BatchWriteItem",
                "dax:ConditionCheckItem"
            ],
            "Resource": "arn:aws:dax:us-east-1:<account-b>:cache/my-cluster"
        }
    ]
}

和以下信任关系。

{
  "Version": "2012-10-17",
  "Statement": [
    {
      "Effect": "Allow",
      "Principal": {
        "AWS": "arn:aws:iam::<account-a>:root"
      },
      "Action": "sts:AssumeRole"
    }
  ]
}

DAX 集群具有策略 AmazonDynamoDBFullAccess

对等连接在 AWS 控制台中显示为 Active

DAX 集群的安全组有一个入站规则,允许来自源 <account-a> / <sg-of-lambda>.

的端口 8111 上的 TCP 流量

账户A VPC的CIDR为10.0.0.0/24,账户B VPC的CIDR为11.0.0.0/16

帐户 A VPC 的主路由 table 有一条路由将目标为 11.0.0.0/16 的流量定向到对等连接。同样,账户 B VPC 的主路由 table 有一条路由将目的地为 10.0.0.0/24 的流量定向到对等连接。

顺便说一句,lambda 代码中的以下几行似乎被忽略了,因为 DAX 请求上有很多次重试并且超时没有从 10000 毫秒开始改变。

  httpOptions: { timeout: 150000 },
  maxRetries: 1,

我在 AWS 代表的帮助下解决了这个问题。事实证明,我的 VPC 中需要一个 public 和私有子网,其中包含 lambda。 lambda 本身必须位于私有子网中,public 子网包含一个 NAT 网关和一个互联网网关。我需要两个子网的单独路由 table,而不是 VPC 中的单个路由 table。私有路由包含我在问题中提到的对等连接路由和 VPC CIDR 路由,但还包含一个目标为 0.0.0.0/0 且以 NAT 网关为目标的路由。 public 子网路由 table 包含 VPC CIDR 路由以及目标 0.0.0.0/0 以互联网网关为目标的路由。