HTML 来源中的这些奇怪字符是什么?
What are these strange characters in HTML source?
我的朋友经营着一个网站,e-mail 来自 Google Safesearch,通知他他正在托管一个网络钓鱼页面。原来他的 cPanel 被暴力破解(弱密码),他们将一些页面上传到他的服务器上。他告诉我了,我想看看到底有多复杂。
在许多文件中,某些words/portions 文本很奇怪。它们在网络浏览器中显示完美,但在 HTML 中杂乱无章。我想知道有没有人能告诉我这是什么?
示例:
<title>WеlÑоmе tо еВаy: Sign in</title>
<span class="txtbox_title">Раsswоrd</span>
<a class="three" href="#">Fоrgоt yоur
还值得注意的是,整个页面中的正常文本也能完美显示。
我假设这是为了停止检测页面中的某些词,但我不确定。任何信息都会很棒。
编辑:最初被标记为 PHP。我意识到它可能不应该被删除。乖一点,孩子们。
编辑编辑:为清楚起见,这是一个针对 eBay 用户的网络钓鱼页面。
我在原文 post 中 post 编辑的例子是(按顺序):
eBay: Sign In
Your Password
Forgot your [password]
因此我不认为它是任何类型的恶意软件,而是一种加密文本以对抗浏览器检测的方法,例如 Chrome(我假设检测 'hot' 中的单词他们的算法)。
我的最佳猜测是它是一种自定义类型的键盘记录器。 WеlÑоmе tо еВаy
将由键盘记录器解析,将一些数据输出到数据库中,以后可以挖掘这些数据以获取重要信息。
我的 第二个 猜测是,这是一种恐吓或扰乱网站所有者的手段。
我的第三个猜测是该病毒是由中国或其他语言编码的,当代码被翻译回utf-8
时,它导致了一些未使用的字符输出奇怪的内容。
编辑
我的 fith 猜测是钓鱼网站以编程方式获取 ebay 网站的源代码内容并将其解析到自己的 html 文件中。而ebay有自己的应对措施,通过在源代码中打乱字母来应对这种类型的攻击。
因此必须有某种类型的 javascript 可以消除原始源代码的影响。
他们使用 UTF-8 编码西里尔字母和其他可能因为与普通拉丁字母在视觉上相似而选择的字符。您正在使用不将数据解释为 UTF-8 而是将数据解释为 Latin 1 编码的编辑器查看页面。
比如你看到的“о”实际上是两个字节,0xD0 0xBE。当被解释为 UTF-8 数据时(浏览器在这里所做的),它们表示“о”U+043E 西里尔小写字母 O。它在视觉外观上与常见的拉丁字母“o”相同(在包含两者的任何字体中)字母),但由于属于不同的书写系统而被编码为单独的字符。对于任何程序,它们都是截然不同的字符,除非该程序已单独编码以处理“混淆”。
这种混淆通常是出于各种原因故意造成的。您可能正确地假设这里的目的是“停止检测页面中的某些词”。当例如“Forgot”是用西里尔字母o(Fоrgоt)写成的,正常的查找操作在搜索“Forgot”时会找到它。
我的朋友经营着一个网站,e-mail 来自 Google Safesearch,通知他他正在托管一个网络钓鱼页面。原来他的 cPanel 被暴力破解(弱密码),他们将一些页面上传到他的服务器上。他告诉我了,我想看看到底有多复杂。
在许多文件中,某些words/portions 文本很奇怪。它们在网络浏览器中显示完美,但在 HTML 中杂乱无章。我想知道有没有人能告诉我这是什么?
示例:
<title>WеlÑоmе tо еВаy: Sign in</title>
<span class="txtbox_title">Раsswоrd</span>
<a class="three" href="#">Fоrgоt yоur
还值得注意的是,整个页面中的正常文本也能完美显示。
我假设这是为了停止检测页面中的某些词,但我不确定。任何信息都会很棒。
编辑:最初被标记为 PHP。我意识到它可能不应该被删除。乖一点,孩子们。
编辑编辑:为清楚起见,这是一个针对 eBay 用户的网络钓鱼页面。
我在原文 post 中 post 编辑的例子是(按顺序):
eBay: Sign In
Your Password
Forgot your [password]
因此我不认为它是任何类型的恶意软件,而是一种加密文本以对抗浏览器检测的方法,例如 Chrome(我假设检测 'hot' 中的单词他们的算法)。
我的最佳猜测是它是一种自定义类型的键盘记录器。 WеlÑоmе tо еВаy
将由键盘记录器解析,将一些数据输出到数据库中,以后可以挖掘这些数据以获取重要信息。
我的 第二个 猜测是,这是一种恐吓或扰乱网站所有者的手段。
我的第三个猜测是该病毒是由中国或其他语言编码的,当代码被翻译回utf-8
时,它导致了一些未使用的字符输出奇怪的内容。
编辑
我的 fith 猜测是钓鱼网站以编程方式获取 ebay 网站的源代码内容并将其解析到自己的 html 文件中。而ebay有自己的应对措施,通过在源代码中打乱字母来应对这种类型的攻击。
因此必须有某种类型的 javascript 可以消除原始源代码的影响。
他们使用 UTF-8 编码西里尔字母和其他可能因为与普通拉丁字母在视觉上相似而选择的字符。您正在使用不将数据解释为 UTF-8 而是将数据解释为 Latin 1 编码的编辑器查看页面。
比如你看到的“о”实际上是两个字节,0xD0 0xBE。当被解释为 UTF-8 数据时(浏览器在这里所做的),它们表示“о”U+043E 西里尔小写字母 O。它在视觉外观上与常见的拉丁字母“o”相同(在包含两者的任何字体中)字母),但由于属于不同的书写系统而被编码为单独的字符。对于任何程序,它们都是截然不同的字符,除非该程序已单独编码以处理“混淆”。
这种混淆通常是出于各种原因故意造成的。您可能正确地假设这里的目的是“停止检测页面中的某些词”。当例如“Forgot”是用西里尔字母o(Fоrgоt)写成的,正常的查找操作在搜索“Forgot”时会找到它。