多列的连接条件与连接列的单个连接?

Join conditions on multiple columns versus single join on concatenated columns?

我发现有两种方法可以在多个表上实现 objective。结果集中的一列将被更新,速度可能是一个要求。结果集通过以下方式获得:

案例 1:

select ert.* 
from eval_rep_track ert
inner join 
(
        select erp.evaluation_fk, erp.report_type, LTRIM(erp.assign_group_id, '/site/') course_name
        from eval_report_dup@prod erp
        inner join eval_report er
        on er.id = erp.id
        where erp.status='queue'
        and er.status='done'
) cat

on ert.eval_id || '.' || ert.report_type || '.' || ert.course_name = cat.evaluation_fk || '.' || cat.report_type || '.' || cat.course_name;

案例二:

select ert.* 
from eval_rep_track ert
inner join 
(
        select erp.evaluation_fk, erp.report_type, LTRIM(erp.assign_group_id, '/site/') course_name
        from eval_report_dup@prod erp
        inner join eval_report er
        on er.id = erp.id
        where erp.status='queue'
        and er.status='done'
) cat
on ert.eval_id = cat.evaluation_fk  
and ert.report_type = cat.report_type  
and ert.course_name = cat.course_name;

两者给出相同的结果,只是连接条件不同。哪个 run/exec 更快?

eval_id 是 NUMBER,report_type 和 course_name 是 VARCHAR2

根据使用的开发人员,案例 1 具有以下统计数据:[SELECT - 3077 行,0.048 秒] 获取结果集 ... 执行了 1 条语句,影响了 3077 行,exec/fetch 时间:0.048/0.236 秒 [1 次成功,0 次警告,0 次错误]

而情况 2:[SELECT - 3077 行,0.019 秒] 获取结果集 ... 执行了 1 条语句,影响了 3077 行,exec/fetch 时间:0.019/0.194 秒 [1 次成功,0 次警告,0 次错误]

结果表明案例 2 更快。这会在任何平台(ide,开发人员)和数据库中通用吗?这取决于数据类型还是串联总是很昂贵?我实际上并不需要连接的结果。谢谢

这取决于表的索引。通常,索引是用列列表定义的,而不是用列的串联(作为表达式)定义的,因此根据经验,第二个版本像往常一样使用索引更快。

也就是说,dba 可能(无论出于何种原因,可能是醉酒或精神错乱)决定在列的串联上创建索引。在那种情况下,语句的第一个版本可以使用索引,而第二个版本不可以。

我认为带串联的版本实际上总是比较慢。

如果您单独比较的任何列有索引,数据库通常能够使用索引来优化连接。当您比较连接时,它必须执行完整的 table 扫描,因为计算结果不会在索引中。

即使列没有索引,数据库仍然可以更有效地执行比较。它一次比较一对列,并且可以在其中一个比较失败时立即停止。使用连接时,它必须首先合并两行中的所有列,然后进行字符串比较。

最后,如果任何列是数字,串联将需要将数字转换为字符串的额外步骤。

很简单,加入各个列是正确的。连接到串联值是不正确的。除了任何关于性能的讨论,您应该编写正确的代码。

对于任何特定的查询,您可能可以使用串联编写一个基本正确的查询。但是您几乎肯定会引入细微的错误,这些错误会在您获得意想不到的数据时困扰您。在这种情况下,只要您的列包含句点,您就有可能错误地匹配数据 ('a.b' || '.' || null = 'a' || '.' || 'b.')。在其他情况下,您会遇到其他微妙的问题——日期和数字可能会使用不同的会话级设置隐式转换为字符串,这可能会产生不同的结果(您的 NLS_DATE_FORMAT 可能包含时间组件,也可能不包含时间组件您的串联值可能包括也可能不包括时间比较)。如果您通常连接列,您将最终得到许多查询,这些查询具有非常微妙的错误,这些错误基于 table 中的数据和执行代码的用户。从维护和支持的角度来看,这很糟糕。性能至多应该是次要问题。

从性能的角度来看,正确的联接几乎肯定会优于串联方法。当您正确连接时,优化器将能够在生成查询计划时考虑作为连接一部分的各个列上的正常索引。如果您要连接值,Oracle 充其量可能能够对普通索引进行全面扫描,以获取需要连接在一起的所有数据。但这可能效率要低得多(特别是当你有超过几千行时)。

从理论上讲,串联方法是否可能对某处的某些查询更有效?当然。虐待狂开发人员可能会在串联结果上创建基于函数的索引,避免在单个列上创建索引,并生成一个连接方法更有效的测试用例。然而,通过在基本列上创建适当的相应索引(或多个索引)可以很容易地解决这个问题。串联对于某些查询是否可能更有效,因为它可以防止优化器使用它本来想使用的索引?当然。但这几乎肯定表明您在优化器设置或统计信息方面存在问题,应该加以解决,而不是对问题施加创可贴。