鞑靼语和 UTF-8

Tartar language and UTF-8

我正在进行一个项目,其中包括将拉丁符号转换为相应的西里尔字母。我说的是俄罗斯许多国家之一使用的鞑靼语。我试图在 UTF-8 中找到这些符号,但到目前为止失败了。我唯一需要的是牙垢符号的 UTF 代码。其中有 6 个。 谢谢!!

我不确定您指的是哪“6 个”。

来自Wikipedia

The official Cyrilic version of the Tatar alphabet used in Tatarstan contains 39 letters:

А Ә Б В Г Д Е (Ё) Ж Җ З И Й К Л М Н Ң О Ө П Р С Т У Ү Ф Х Һ Ц Ч Ш Щ Ъ Ы Ь Э Ю Я

Unicode 代码点:

U+0410 А
U+04D8 Ә
U+0411 Б
U+0412 В
U+0413 Г
U+0414 Д
U+0415 Е
U+0401 Ё
U+0416 Ж
U+0496 Җ
U+0417 З
U+0418 И
U+0419 Й
U+041A К
U+041B Л
U+041C М
U+041D Н
U+04A2 Ң
U+041E О
U+04E8 Ө
U+041F П
U+0420 Р
U+0421 С
U+0422 Т
U+0423 У
U+04AE Ү
U+0424 Ф
U+0425 Х
U+04BA Һ
U+0426 Ц
U+0427 Ч
U+0428 Ш
U+0429 Щ
U+042A Ъ
U+042B Ы
U+042C Ь
U+042D Э
U+042E Ю
U+042F Я

鞑靼语使用西里尔字母,因此您可能需要检查以下块:

  • U+0400 - U+04FF(基础)
  • U+0500 ‐ U+052F(补充)
  • U+2DE0 - U+2DFF(扩展 A)
  • U+A640 ‐ U+A69F(扩展 B)
  • U+1C80 - U+1C8F(扩展 C)。

Unicode 通用语言环境数据存储库(参见 tt)具有以下数据:

<characters>
    <exemplarCharacters>[а ә б в г д е ё ж җ з и й к л м н ң о ө п р с т у ү ф х һ ц ч ш щ ъ ы ь э ю я]</exemplarCharacters>
    <exemplarCharacters type="auxiliary" draft="contributed">[ғ қ]</exemplarCharacters>
    <exemplarCharacters type="index" draft="contributed">[А Ә Б В Г Д Е Ё Ж Җ З И Й К Л М Н Ң О Ө П Р С Т У Ү Ф Х Һ Ц Ч Ш Щ Ъ Ы Ь Э Ю Я]</exemplarCharacters>
    <exemplarCharacters type="numbers" draft="contributed">↑↑↑</exemplarCharacters>
    <exemplarCharacters type="punctuation" draft="contributed">[\- ‐ ‑ – — , ; \: ! ? . … ' ‘ ’ &quot; “ ” ( ) \[ \] § @ * / \&amp; # ′ ″]</exemplarCharacters>
</characters>

如你所见,内容不多,部分数据草稿=贡献,所以还是草稿。