奇怪的 URL 在 Web 服务器日志中包含 'A=0 或 '0=A

Strange URL containing 'A=0 or '0=A in web server logs

在上周末,我的一些网站记录了暗示错误使用我们的 URL 的错误:

...news.php?lang=EN&id=23'A=0

...news.php?lang=EN&id=23'0=A

而不是

...news.php?lang=EN&id=23

我发现原来只有一个页面提到了这一点 (https://forums.adobe.com/thread/1973913),他们推测额外的查询字符串来自 GoogleBot 或编码错误。

我最近将我的网站更改为使用 PDO 而不是 mysql_*。也许这种变化导致了错误?任何提示都会有用。


此外,所有请求都来自如下所示的同一个用户代理。

Mozilla/5.0 (Windows; U; Windows NT 5.1; pt-PT; rv:1.9.1.2) Gecko/20090729 Firefox/3.5.2 (.NET CLR 3.5.30729)

这让我找到了以下主题: pt-BRStrange parameter in URL - what are they trying?

因为这是一个非常旧的 FireFox 版本,我在我的 htaccess 文件中阻止了它 -

RewriteCond %{HTTP_USER_AGENT} Firefox/3\.5\.2 [NC]
RewriteRule .* err404.php  [R,L]

它是一个通过使用撇号关闭查询然后设置变量来测试 SQL 注入漏洞的机器人。还有类似的注入处理 shell 命令 and/or 文件路径遍历。它是 "good bot" 还是恶意机器人尚不得而知,但如果注入有效,您将有更大的问题需要处理。您的网站有 99% 的可能性不会生成这些样式 links,除非您使用简单的正则表达式字符串阻止请求,否则您无法阻止他们制作这些 urls或更复杂的 WAF,例如 ModSecurity。

基于用户代理的拦截不是一个有效的角度。您需要查找请求试探法并基于此进行阻止。 url/request/POST/referrer 中需要查找的一些示例,如 utf-8 和十六进制字符:

  • 双撇号
  • 双句点,尤其是在各种编码中后跟斜线
  • 像 "script"、"etc" 或 "passwd"
  • 这样的词
  • dev/null这样的路径与piping/echoingshell输出
  • 一起使用
  • %00 个用于初始化新命令的空字节样式字符
  • http 在 url 中不止一次(除非您的站点使用它)
  • 关于 cgi 的任何内容(除非您的站点使用它)
  • coldfusion、tomcat 等的随机 "enterprise" 路径

如果您不使用 WAF,这里有一个正则表达式连接,应该可以捕获 url 中的许多内容。我们在 PHP 应用程序中使用它,因此您 may/will 需要根据您使用它的位置调整一些 escapes/looks。请注意,这有 .cgiwordpresswp-admin 以及正则表达式中的一堆其他内容,如果需要,请删除它们。

$invalid = "(\(\))"; // lets not look for quotes. [good]bots use them constantly. looking for () since technically parenthesis arent valid
$period = "(\002e|%2e|%252e|%c0%2e|\.)";
$slash = "(\2215|%2f|%252f|%5c|%255c|%c0%2f|%c0%af|\/|\\)"; // http://security.stackexchange.com/questions/48879/why-does-directory-traversal-attack-c0af-work
$routes = "(etc|dev|irj)" . $slash . "(passwds?|group|null|portal)|allow_url_include|auto_prepend_file|route_*=http";
$filetypes = $period . "+(sql|db|sqlite|log|ini|cgi|bak|rc|apk|pkg|deb|rpm|exe|msi|bak|old|cache|lock|autoload|gitignore|ht(access|passwds?)|cpanel_config|history|zip|bz2|tar|(t)?gz)";
$cgis = "cgi(-|_){0,1}(bin(-sdb)?|mod|sys)?";
$phps = "(changelog|version|license|command|xmlrpc|admin-ajax|wsdl|tmp|shell|stats|echo|(my)?sql|sample|modx|load-config|cron|wp-(up|tmp|sitemaps|sitemap(s)?|signup|settings|" . $period . "?config(uration|-sample|bak)?))" . $period . "php";
$doors = "(" . $cgis . $slash . "(common" . $period . "(cgi|php))|manager" . $slash . "html|stssys" . $period . "htm|((mysql|phpmy|db|my)admin|pma|sqlitemanager|sqlite|websql)" . $slash . "|(jmx|web)-console|bitrix|invoker|muieblackcat|w00tw00t|websql|xampp|cfide|wordpress|wp-admin|hnap1|tmunblock|soapcaller|zabbix|elfinder)";
$sqls = "((un)?hex\(|name_const\(|char\(|a=0)";
$nulls = "(%00|%2500)";
$truth = "(.{1,4})="; // catch OR always-true (1=1) clauses via sql inject - not used atm, its too broad and may capture search=chowder (ch=ch) for example
$regex = "/$invalid|$period{1,2}$slash|$routes|$filetypes|$phps|$doors|$sqls|$nulls/i";

使用它,至少在 PHP 中,在 preg_match_all() 中是非常直接的。以下是如何使用它的示例:https://gist.github.com/dhaupin/605b35ca64ca0d061f05c4cf423521ab

警告:如果将其设置为自动禁止(即 fail2ban 过滤器),请小心。 MS/Bing DumbBots(和其他人)经常通过在被截断的 url 之后输入奇怪的三重点之类的东西,或者试图点击 tel: [=66= 来搞砸 urls ] 作为一个 URi。我不知道为什么。这就是我的意思:带有文本 www.example.com/link-too-long...truncated.html 的 link 可能指向正确的 url,但 Bing 可能会尝试访问它 "as it looks" 而不是遵循href,由于双点导致 WAF 命中。