将布尔表达式解析为 PHP 中的 MySql 查询
Parsing a boolean expression into a MySql query in PHP
这是仅有的两个 table 密切相关的。不用麻烦你了。
mysql> describe skill_usage;
+----------+---------+------+-----+---------+-------+
| Field | Type | Null | Key | Default | Extra |
+----------+---------+------+-----+---------+-------+
| skill_id | int(11) | NO | MUL | NULL | |
| job_id | int(11) | NO | MUL | NULL | |
+----------+---------+------+-----+---------+-------+
mysql> describe skill_names;
+------------+----------+------+-----+---------+----------------+
| Field | Type | Null | Key | Default | Extra |
+------------+----------+------+-----+---------+----------------+
| skill_id | int(11) | NO | PRI | NULL | auto_increment |
| skill_name | char(32) | NO | MUL | NULL | |
+------------+----------+------+-----+---------+----------------+
基本上,用户使用技能名称输入布尔搜索字符串。
我会将技能名称转换为 skill_id
,然后想要生成一个 MySql 查询以从 table skill_usage
中获取所有匹配的 job_id
, 通过解析用户的搜索字符串。
字符串可以包含技能名称、运算符 AND 和 OR,以及表示优先级的括号。
一些例子可能是
- C
- C 或 C++
- C++ 和 UML
- (C 和内核)或(C++ 和 UML)
但是对允许的表达式的复杂性没有限制 - 这就是我的问题。
我不是 SQL 大师,如果我错了请纠正我。我想我想开始 SELECT job_id FROM skill_usage
然后解析,然后构建查询的其余部分。
对于第一个示例,只是技能名称 C,我想添加 WHERE skillId = X
,其中 X 是从 table skill_names
.
中获取的
对于简单的 OR
,比如 C OR C++
,我可以使用 IN
子句 - WHERE skillId IN (X, Y)
(同样,X 和 Y 是技能名称的查找得到一个 skill_id
).
对于简单的 AND
,比如 C++ AND UML
,我想我需要一个 INNER JOIN
,比如 WHERE skill_id = X INNER JOIN skill_usage ON skill_usage.skill_id = Y
(其中 X 是 skill_id
用于 UML 的 C++ 和 Y)。
对于那些简单的情况,我认为这大致是正确的 (?)。
但是,当我遇到像 (C AND kernel) OR (C++ AND UML)
这样稍微复杂一点的情况时,我会感到困惑。
正则表达式或算法在这里合适吗?
@AnthonyVallée-Dubois 对 this question 的回答看起来我可以修改它,但它看起来也很复杂。我希望做一些更简单的事情,但我不确定如何开始(PHP 编码不是我的问题,只是正则表达式或算法)。
更新
我试图将解析与查询分开,并使用 来整理查询。
我得到的答案类似于
SELECT job_id
FROM skill_usage
WHERE skill_id IN (3, 4)
GROUP BY job_id
HAVING MIN(skill_id) <> MAX(skill_id);
和
select s1.job_id
from skill_usage s1
where s1.skill_id = 3
and s1.job_id in (
select s2.job_id
from skill_usage s2
where s2.skill_id = 4
)
后者看起来更具可扩展性。
而我的 PHP 将搜索字符串转换为 SQL 查询的伪代码大致是
fail if mis-matched brackets
reduce multiple spaces to single
removes spaces before and after closing/opening bracket "( " & " )"
foreach c in string
if c == (
else
if c === )
else
if AND
else
if OE
else
# it's a skill name
简单查询生成器,假设 PDO
## for simple tokenisation, the terms are separated by space here.
## ###############################################################
$string = "( C AND kernel ) OR ( C++ AND UML )";
function emit_term( $tag ) {
$res = " EXISTS (
SELECT *
FROM skill_usage su
JOIN skill_names sn ON sn.skill_id = su.skill_id
WHERE su.Job_id = j.job_id
AND sn.skillname = :" . $tag . ")\n";
return $res;
}
$fixed_part ="
SELECT job_id, job_name
FROM jobs j
WHERE 1=1
AND \n" ;
# $tokens = explode( ' ' , $string ); #splits on any single space
$tokens = preg_split( '/[\s]+/' , $string ); # accepts multiple whitespace
# print_r ( $tokens );
$query = $fixed_part;
$args = array();
$num = 1;
foreach ( $tokens as $tok ) {
switch ($tok) {
case '': # skip empty tokens
case ';': # No, you should not!
case '"':
case "'":
case ';': break;
case '(': $query .= '('; break;
case ')': $query .= ')'; break;
case '&':
case 'AND': $query .= ' AND '; break;
case '|':
case 'OR': $query .= ' OR '; break;
case '!':
case 'NOT': $query .= ' NOT '; break;
default:
$tag = '_q' . $num ;
$query .= emit_term ( $tag );
$args[$tag] = $tok;
$num += 1;
break;
}
}
$query .= ";\n\n";
echo "Query + parameters (for PDO):\n" ;
echo $query;
print_r ( $args) ;
输出:
SELECT job_id, job_name
FROM jobs j
WHERE 1=1
AND
( EXISTS (
SELECT *
FROM skill_usage su
JOIN skill_names sn ON sn.skill_id = su.skill_id
WHERE su.Job_id = j.job_id
AND sn.skillname = :_q1)
AND EXISTS (
SELECT *
FROM skill_usage su
JOIN skill_names sn ON sn.skill_id = su.skill_id
WHERE su.Job_id = j.job_id
AND sn.skillname = :_q2)
) OR ( EXISTS (
SELECT *
FROM skill_usage su
JOIN skill_names sn ON sn.skill_id = su.skill_id
WHERE su.Job_id = j.job_id
AND sn.skillname = :_q3)
AND EXISTS (
SELECT *
FROM skill_usage su
JOIN skill_names sn ON sn.skill_id = su.skill_id
WHERE su.Job_id = j.job_id
AND sn.skillname = :_q4)
);
Array
(
[_q1] => C
[_q2] => kernel
[_q3] => C++
[_q4] => UML
)
这是仅有的两个 table 密切相关的。不用麻烦你了。
mysql> describe skill_usage;
+----------+---------+------+-----+---------+-------+
| Field | Type | Null | Key | Default | Extra |
+----------+---------+------+-----+---------+-------+
| skill_id | int(11) | NO | MUL | NULL | |
| job_id | int(11) | NO | MUL | NULL | |
+----------+---------+------+-----+---------+-------+
mysql> describe skill_names;
+------------+----------+------+-----+---------+----------------+
| Field | Type | Null | Key | Default | Extra |
+------------+----------+------+-----+---------+----------------+
| skill_id | int(11) | NO | PRI | NULL | auto_increment |
| skill_name | char(32) | NO | MUL | NULL | |
+------------+----------+------+-----+---------+----------------+
基本上,用户使用技能名称输入布尔搜索字符串。
我会将技能名称转换为 skill_id
,然后想要生成一个 MySql 查询以从 table skill_usage
中获取所有匹配的 job_id
, 通过解析用户的搜索字符串。
字符串可以包含技能名称、运算符 AND 和 OR,以及表示优先级的括号。
一些例子可能是
- C
- C 或 C++
- C++ 和 UML
- (C 和内核)或(C++ 和 UML)
但是对允许的表达式的复杂性没有限制 - 这就是我的问题。
我不是 SQL 大师,如果我错了请纠正我。我想我想开始 SELECT job_id FROM skill_usage
然后解析,然后构建查询的其余部分。
对于第一个示例,只是技能名称 C,我想添加 WHERE skillId = X
,其中 X 是从 table skill_names
.
对于简单的 OR
,比如 C OR C++
,我可以使用 IN
子句 - WHERE skillId IN (X, Y)
(同样,X 和 Y 是技能名称的查找得到一个 skill_id
).
对于简单的 AND
,比如 C++ AND UML
,我想我需要一个 INNER JOIN
,比如 WHERE skill_id = X INNER JOIN skill_usage ON skill_usage.skill_id = Y
(其中 X 是 skill_id
用于 UML 的 C++ 和 Y)。
对于那些简单的情况,我认为这大致是正确的 (?)。
但是,当我遇到像 (C AND kernel) OR (C++ AND UML)
这样稍微复杂一点的情况时,我会感到困惑。
正则表达式或算法在这里合适吗?
@AnthonyVallée-Dubois 对 this question 的回答看起来我可以修改它,但它看起来也很复杂。我希望做一些更简单的事情,但我不确定如何开始(PHP 编码不是我的问题,只是正则表达式或算法)。
更新
我试图将解析与查询分开,并使用
我得到的答案类似于
SELECT job_id
FROM skill_usage
WHERE skill_id IN (3, 4)
GROUP BY job_id
HAVING MIN(skill_id) <> MAX(skill_id);
和
select s1.job_id
from skill_usage s1
where s1.skill_id = 3
and s1.job_id in (
select s2.job_id
from skill_usage s2
where s2.skill_id = 4
)
后者看起来更具可扩展性。
而我的 PHP 将搜索字符串转换为 SQL 查询的伪代码大致是
fail if mis-matched brackets
reduce multiple spaces to single
removes spaces before and after closing/opening bracket "( " & " )"
foreach c in string
if c == (
else
if c === )
else
if AND
else
if OE
else
# it's a skill name
简单查询生成器,假设 PDO
## for simple tokenisation, the terms are separated by space here.
## ###############################################################
$string = "( C AND kernel ) OR ( C++ AND UML )";
function emit_term( $tag ) {
$res = " EXISTS (
SELECT *
FROM skill_usage su
JOIN skill_names sn ON sn.skill_id = su.skill_id
WHERE su.Job_id = j.job_id
AND sn.skillname = :" . $tag . ")\n";
return $res;
}
$fixed_part ="
SELECT job_id, job_name
FROM jobs j
WHERE 1=1
AND \n" ;
# $tokens = explode( ' ' , $string ); #splits on any single space
$tokens = preg_split( '/[\s]+/' , $string ); # accepts multiple whitespace
# print_r ( $tokens );
$query = $fixed_part;
$args = array();
$num = 1;
foreach ( $tokens as $tok ) {
switch ($tok) {
case '': # skip empty tokens
case ';': # No, you should not!
case '"':
case "'":
case ';': break;
case '(': $query .= '('; break;
case ')': $query .= ')'; break;
case '&':
case 'AND': $query .= ' AND '; break;
case '|':
case 'OR': $query .= ' OR '; break;
case '!':
case 'NOT': $query .= ' NOT '; break;
default:
$tag = '_q' . $num ;
$query .= emit_term ( $tag );
$args[$tag] = $tok;
$num += 1;
break;
}
}
$query .= ";\n\n";
echo "Query + parameters (for PDO):\n" ;
echo $query;
print_r ( $args) ;
输出:
SELECT job_id, job_name
FROM jobs j
WHERE 1=1
AND
( EXISTS (
SELECT *
FROM skill_usage su
JOIN skill_names sn ON sn.skill_id = su.skill_id
WHERE su.Job_id = j.job_id
AND sn.skillname = :_q1)
AND EXISTS (
SELECT *
FROM skill_usage su
JOIN skill_names sn ON sn.skill_id = su.skill_id
WHERE su.Job_id = j.job_id
AND sn.skillname = :_q2)
) OR ( EXISTS (
SELECT *
FROM skill_usage su
JOIN skill_names sn ON sn.skill_id = su.skill_id
WHERE su.Job_id = j.job_id
AND sn.skillname = :_q3)
AND EXISTS (
SELECT *
FROM skill_usage su
JOIN skill_names sn ON sn.skill_id = su.skill_id
WHERE su.Job_id = j.job_id
AND sn.skillname = :_q4)
);
Array
(
[_q1] => C
[_q2] => kernel
[_q3] => C++
[_q4] => UML
)