这个阿拉伯语网页的编码方案是什么?

What is the encoding scheme for this Arabic web page?

我正在尝试找到此页面(和其他页面)的编码方案,肯定是阿拉伯语,使用较低的 ASCII 范围拉丁字符对内容进行编码。

http://www.saintcyrille.com/2011a.htm

http://www.saintcyrille.com/2011b.htm(同一页的英语 version/translation)

我看过好几个网站甚至是PDF文件都是用这种编码的,但是我找不到它的名称和方法。

这个特定页面是 2011 年的,我认为这是一种已经过时的编码阿拉伯语的前 Unicode 方法。

一些示例文本:

'D1J'6) 'D1H-J) 'DA5-J)
*#ED'* AJ 3A1 'D*CHJF
JDBJG'
'D#( / 3'EJ -D'B 'DJ3H9J 
'D0J J#*J .5J5'K EF -D( @ 3H1J' 

一个非凡的mojibake案例。阿拉伯语文本中的 Unicode 代码点似乎缺少高字节。例如:ا (U+0627, 阿拉伯文字母 Alef) 显示为 ' (U+0027, Apostrophe ).

假设在以下 PowerShell 脚本中缺少高字节总是 0x06(从页面末尾 http://www.saintcyrille.com/2011a.htm 添加更多字符串到您的示例文本):

$mojibakes = @'
E3'!K
'D1J'6) 'D1H-J) 'DA5-J)
*#ED'* AJ 3A1 'D*CHJF
JDBJG'
'D#( / 3'EJ -D'B 'DJ3H9J 
'D0J J#*J .5J5'K EF -D( @ 3H1J'
ED'-8'* :
'D#CD 'D5J'EJ 7H'D 'D#3(H9 'D98JE E-(0 ,/'K H'D5HE JF*GJ (9/ B/'3 'D9J/
J-(0 'D*B/E DD'9*1'A (9J/'K 9F JHE 'D9J/ (B/1 'D%EC'F -*I *3*7J9H' 'DE4'1C) AJ 'D5DH'* HB/'3 'D9J/  HFF5- D0DC  'D'3*A'/) EF -AD) 'D*H() 'D,E'9J) JHE 'D,E9) 15 '(1JD 2011 -J+ JGJ# 'D,EJ9 E9'K DFH'D 31 'DE5'D-) ( 9// EF 'D#('! 'DCGF) 3JCHF -'61'K )
(5F/HB 'D5HE) 9F/ E/.D 'DCFJ3) AAJ A*1) 'D#9J'/ *8G1 AJF' #9E'D 'D1-E) H'D5/B'* HE' JB'(DG' H0DC 9ED EB(HD HEE/H-
HDF' H7J/ 'D#ED #F *4'1CH' 'D'-*A'D'* AJ 19J*CE HCD 9'E H#F*E (.J1
'DE3J- B@'E ... -@B'K B@'E
'@ -split [System.Environment]::NewLine

Function highByte ([byte]$lowByte, [switch]$moreInfo) {
    if ( $moreInfo.IsPresent -and (
            $lowByte -lt 0x20 -or $lowByte -gt 0x7f )) {
        Write-Host $lowByte -ForegroundColor Cyan 
    }
    if ( $lowByte -eq 0x20 ) { 0,$lowByte } else { 6,$lowByte }
}

foreach ( $mojibake in $mojibakes ) {
    $aux = [System.Text.Encoding]::
        GetEncoding( 1252).GetBytes( [char[]]$mojibake )
    [System.Text.Encoding]::BigEndianUnicode.GetString(
        $aux.ForEach({(highByte -lowByte $_)})
    )
    '' # new line separator for better readability
}

输出(使用Google Translate) seems to give a sense roughly similar to English version of the page,经过一段时间...

输出.\SO062779.ps1

مساءً

الرياضة الروحية الفصحية

تأملات في سفر التكوين

يلقيها

الأب د سامي حلاق اليسوعي

الذي يأتي خصيصاً من حلب ـ سوريا

ملاحظات غ

الأكل الصيامي طوال الأسبوع العظيم محبذ جداً والصوم ينتهي بعد قداس العيد

يحبذ التقدم للاعتراف بعيداً عن يوم العيد بقدر الإمكان حتى تستطيعوا المشاركة في الصلوات وقداس العيد ، وننصح لذلك ، الاستفادة من حفلة التوبة الجماعية يوم الجمعة رص ابريل زذرر حيث يهيأ الجميع معاً لنوال سر المصالحة ب عدد من الأباء الكهنة سيكون حاضراً ة

بصندوق الصومة عند مدخل الكنيسة ففي فترة الأعياد تظهر فينا أعمال الرحمة والصدقات وما يقابلها وذلك عمل مقبول وممدوح

ولنا وطيد الأمل أن تشاركوا الاحتفالات في رعيتكم وكل عام وأنتم بخير

المسيح قـام خخخ حـقاً قـام

请记住我不懂阿拉伯语。

  • 脚本不处理数字:注释 #2 中的年份 2011 被错误地转换为 زذرر,例如;
  • 处理 spaces 不清楚:0x20 总是 space,还是应该转换为 ؠ(U+0620,阿拉伯语信克什米尔叶)?
  • 此外,关于 Unicode 范围 U+0600-U+067F(U+0680-U+06FF 等在哪里?)的假设存在问题。