Mysql 游标替代/优化 - 每行更新太慢
Mysql cursor alternative / Optimization - each row updates are too slow
我正在寻求优化基于游标的更新或实际替换它...
情况
我们正在进行促销活动,我想跟踪每个活动的用户 activity。
逻辑
每个活动都被推送到特定的批次 - 我们客户群的细分
CREATE TABLE `segments` (
`campaign_id` int(6) DEFAULT NULL,
`customer_id` varchar(20) DEFAULT NULL,
`tracking_start_date` date DEFAULT NULL,
`tracking_end_date` date DEFAULT NULL
) ENGINE=InnoDB DEFAULT CHARSET=latin1
tracking_start_date 是活动的日期,而 tracking_end_date 是跟踪应该结束的日期。
每个活动都有自己的 "Call to Action (cta)",这是我们正在推动的交易类型,希望客户在活动结束后开始使用。
CREATE TABLE `cta` (
`campaign_id` int(11) DEFAULT NULL,
`Date` date DEFAULT NULL,
`segment` varchar(100) DEFAULT NULL,
`message` varchar(320) DEFAULT NULL,
`Size` int(11) DEFAULT NULL,
`cta` varchar(100) DEFAULT NULL
) ENGINE=InnoDB DEFAULT CHARSET=latin1
默认情况下,段 table 中的 tracking_end_date 设置为该月的最后一天,但我创建了一个程序来检查和更新此字段。
(Campaign_id 根据活动日期顺序发布,因此最早的活动具有最少的 campaign_id 值,反之亦然)
跟踪按月进行。
更新场景
对于段中的每条记录 table 检查相同的 customer_id 是否出现在未来的活动中,以及具有更大 tracking_start_date 的活动是否具有相同的 CTA。
如果为真:将该记录的 tracking_end_date 更改为新活动的前一天。
如果为 FALSE:保留 tracking_start_date 月的最后一天作为 tracking_end_date。
如果未完成更新,那么我们将double/tripple...计算出现在多个活动中且具有相同 CTA 的客户的交易。
以下是我目前正在使用的程序,但问题是它太慢了。
这些过程位于另一个循环遍历 campaign_id 月份的过程中,然后在提供相关 campaign_id
时调用此过程
CREATE DEFINER=`root`@`localhost` PROCEDURE `set_campaign_end_date_child`(IN var_campaign_id INT)
BEGIN
DECLARE done INT DEFAULT 0;
DECLARE var_customer_id VARCHAR(20);
DECLARE var_tracking_start_date DATE;
DECLARE cur1 CURSOR FOR SELECT DISTINCT customer_id FROM segments WHERE campaign_id =var_campaign_id;
DECLARE CONTINUE HANDLER FOR NOT FOUND SET done = 1;
-- perform cursur update loop now
OPEN cur1;
read_loop: LOOP
IF done THEN
LEAVE read_loop;
END IF;
FETCH cur1 INTO var_customer_id;
SELECT DISTINCT DATE INTO var_tracking_start_date FROM cta WHERE campaign_id = var_campaign_id;
UPDATE segments SET tracking_end_date =
(SELECT IFNULL(DATE_SUB(MIN(tracking_start_date),INTERVAL 1 DAY),LAST_DAY(var_tracking_start_date)) FROM segments_temp
WHERE customer_id = var_customer_id
AND campaign_id
IN(SELECT campaign_id FROM cta WHERE cta IN (SELECT cta FROM cta WHERE campaign_id = var_campaign_id)
AND campaign_id > var_campaign_id))
WHERE customer_id = var_customer_id AND campaign_id =var_campaign_id ;
END LOOP read_loop;
CLOSE cur1;
END$$
DELIMITER ;
PS:在启动该过程之前,我在另一个名为 segments_temp 的段中复制段 table 并从那里进行比较(这是因为 MySQL 无法从自引用查询进行更新)
希望我清楚并提前感谢您的想法
使用自联接允许您引用 segments
table 两次。如果我正确理解您的代码,我认为这是等效的更新:
UPDATE segments AS s1
LEFT JOIN (SELECT customer_id, DATE_SUB(MIN(tracking_start_date),INTERVAL 1 DAY) AS new_tracking_start_date
FROM segments AS s2
WHERE campaign_id IN (
SELECT campaign_id
FROM cta
WHERE cta IN (
SELECT cta
FROM cta
WHERE campaign_id = var_campaign_id)
AND campaign_id > var_campaign_id)
GROUP BY customer_id) AS s3
ON s1.customer_id = s3.customer_id
SET tracking_end_date = IFNULL(new_tracking_start_date, LAST_DAY(tracking_start_date))
WHERE campaign_id = var_campaign_id
我正在寻求优化基于游标的更新或实际替换它...
情况
我们正在进行促销活动,我想跟踪每个活动的用户 activity。
逻辑
每个活动都被推送到特定的批次 - 我们客户群的细分
CREATE TABLE `segments` (
`campaign_id` int(6) DEFAULT NULL,
`customer_id` varchar(20) DEFAULT NULL,
`tracking_start_date` date DEFAULT NULL,
`tracking_end_date` date DEFAULT NULL
) ENGINE=InnoDB DEFAULT CHARSET=latin1
tracking_start_date 是活动的日期,而 tracking_end_date 是跟踪应该结束的日期。
每个活动都有自己的 "Call to Action (cta)",这是我们正在推动的交易类型,希望客户在活动结束后开始使用。
CREATE TABLE `cta` (
`campaign_id` int(11) DEFAULT NULL,
`Date` date DEFAULT NULL,
`segment` varchar(100) DEFAULT NULL,
`message` varchar(320) DEFAULT NULL,
`Size` int(11) DEFAULT NULL,
`cta` varchar(100) DEFAULT NULL
) ENGINE=InnoDB DEFAULT CHARSET=latin1
默认情况下,段 table 中的 tracking_end_date 设置为该月的最后一天,但我创建了一个程序来检查和更新此字段。 (Campaign_id 根据活动日期顺序发布,因此最早的活动具有最少的 campaign_id 值,反之亦然) 跟踪按月进行。
更新场景
对于段中的每条记录 table 检查相同的 customer_id 是否出现在未来的活动中,以及具有更大 tracking_start_date 的活动是否具有相同的 CTA。
如果为真:将该记录的 tracking_end_date 更改为新活动的前一天。
如果为 FALSE:保留 tracking_start_date 月的最后一天作为 tracking_end_date。
如果未完成更新,那么我们将double/tripple...计算出现在多个活动中且具有相同 CTA 的客户的交易。
以下是我目前正在使用的程序,但问题是它太慢了。
这些过程位于另一个循环遍历 campaign_id 月份的过程中,然后在提供相关 campaign_id
时调用此过程 CREATE DEFINER=`root`@`localhost` PROCEDURE `set_campaign_end_date_child`(IN var_campaign_id INT)
BEGIN
DECLARE done INT DEFAULT 0;
DECLARE var_customer_id VARCHAR(20);
DECLARE var_tracking_start_date DATE;
DECLARE cur1 CURSOR FOR SELECT DISTINCT customer_id FROM segments WHERE campaign_id =var_campaign_id;
DECLARE CONTINUE HANDLER FOR NOT FOUND SET done = 1;
-- perform cursur update loop now
OPEN cur1;
read_loop: LOOP
IF done THEN
LEAVE read_loop;
END IF;
FETCH cur1 INTO var_customer_id;
SELECT DISTINCT DATE INTO var_tracking_start_date FROM cta WHERE campaign_id = var_campaign_id;
UPDATE segments SET tracking_end_date =
(SELECT IFNULL(DATE_SUB(MIN(tracking_start_date),INTERVAL 1 DAY),LAST_DAY(var_tracking_start_date)) FROM segments_temp
WHERE customer_id = var_customer_id
AND campaign_id
IN(SELECT campaign_id FROM cta WHERE cta IN (SELECT cta FROM cta WHERE campaign_id = var_campaign_id)
AND campaign_id > var_campaign_id))
WHERE customer_id = var_customer_id AND campaign_id =var_campaign_id ;
END LOOP read_loop;
CLOSE cur1;
END$$
DELIMITER ;
PS:在启动该过程之前,我在另一个名为 segments_temp 的段中复制段 table 并从那里进行比较(这是因为 MySQL 无法从自引用查询进行更新)
希望我清楚并提前感谢您的想法
使用自联接允许您引用 segments
table 两次。如果我正确理解您的代码,我认为这是等效的更新:
UPDATE segments AS s1
LEFT JOIN (SELECT customer_id, DATE_SUB(MIN(tracking_start_date),INTERVAL 1 DAY) AS new_tracking_start_date
FROM segments AS s2
WHERE campaign_id IN (
SELECT campaign_id
FROM cta
WHERE cta IN (
SELECT cta
FROM cta
WHERE campaign_id = var_campaign_id)
AND campaign_id > var_campaign_id)
GROUP BY customer_id) AS s3
ON s1.customer_id = s3.customer_id
SET tracking_end_date = IFNULL(new_tracking_start_date, LAST_DAY(tracking_start_date))
WHERE campaign_id = var_campaign_id