按字母顺序用 UTF-8 编码值对 table 进行排序
Sort a table with UTF-8 encoded values alphabetically
我将字典条目存储在 Lua table 中,将其用作数组。我想对 Lua 中的条目进行排序,这样我就可以添加新条目而不必自己移动到正确的位置(这很快就会变得非常乏味)。但是,我面临着几个问题:
- 许多单词包含非ASCII字符,这使得内置的字符串比较运算符不适合table任务(例如,它使amputar来在 ambito).
之前
- 有来自各种语言(尽管都是西方语言)的单词,即西班牙语、德语和英语。这里的问题是,可能不同的语言对字母顺序有不同的概念。由于主要语言是西班牙语,我想使用它的规则,尽管我不确定这是否适用于不包含在西班牙语字母表中的字符。
- 有些单词包含大写字母,或者更糟糕的是,以大写字母开头。例如,所有德语名词都以大写字母开头。通过内置的比较运算符,大写字母排在它们的小写字母之前,这不是我想要的行为;我希望大写字母与小写字母完全一样。
例如,下面的 table:
local entries =
{
'amputar',
'Volksgeist',
'ámbito'
}
这些条目应该这样排序:
ámbito
amputar
Volksgeist
但是,使用我当前的代码,输出是错误的:
local function compare_utf8_strings( o1 , o2 )
-- Using the built-in non-UTF-8-aware non-locale-aware string comparison operator
return o1 < o2
end
table.sort( entries , function ( a , b ) return compare_utf8_strings( a , b ) end )
for i, entry in ipairs(entries) do
print( entry )
end
输出:
Volksgeist
amputar
ámbito
能否请您使用以下代码,并破解它以满足我的要求?
local entries =
{
'amputar',
'Volksgeist',
'ámbito'
}
local function compare_utf8_strings( o1 , o2 )
-- Hack here, please, accomplishing my requirements
end
table.sort( entries , function ( a , b ) return compare_utf8_strings( a , b ) end )
for i, entry in ipairs(entries) do
print( entry )
end
它应该输出这个:
ámbito
amputar
Volksgeist
作为附加要求,此Lua代码全部在LuaTeX中,目前支持该语言的5.2版本。至于外部库,我猜是可以用的。
我是Lua阵营的新手,有什么错误还请见谅,不吝赐教,我修正
经过一段时间的搜索无果后,我找到了 Joseph Wright 的 this article。虽然它触及了我的问题,但没有提供明确的解决方案。我问他,原来目前没有直接的方法可以做我想做的事。然而,他指出 slnunicode 内置于 LuaTeX(尽管将来会被替换)。
我使用 LuaTeX 环境中提供的工具开发了一个 'crude' 解决方案。它并不优雅,但可以工作,并且不会拉取任何外部依赖项。关于它的效率,我没有发现文档构建时间有任何差异。
-- Make the facilities available
unicode = require( 'unicode' )
utf8 = unicode.utf8
--[[
Each character's position in this array-like table determines its 'priority'.
Several characters in the same slot have the same 'priority'.
]]
local alphabet =
{
-- The space is here because of other requirements of my project
{ ' ' },
{ 'a', 'á', 'à', 'ä' },
{ 'b' },
{ 'c' },
{ 'd' },
{ 'e', 'é', 'è', 'ë' },
{ 'f' },
{ 'g' },
{ 'h' },
{ 'i', 'í', 'ì', 'ï' },
{ 'j' },
{ 'k' },
{ 'l' },
{ 'm' },
{ 'n' },
{ 'ñ' },
{ 'o', 'ó', 'ò', 'ö' },
{ 'p' },
{ 'q' },
{ 'r' },
{ 's' },
{ 't' },
{ 'u', 'ú', 'ù', 'ü' },
{ 'v' },
{ 'w' },
{ 'x' },
{ 'y' },
{ 'z' }
}
-- Looks up the character `character´ in the alphabet and returns its 'priority'
local function get_pos_in_alphabet( character )
for i, alphabet_entry in ipairs(alphabet) do
for _, alphabet_char in ipairs(alphabet_entry) do
if character == alphabet_char then
return i
end
end
end
--[[
If it isn't in the alphabet, abort: it's better than silently outputting some
random garbage, and, thanks to the message, allows to add the character to
the table.
]]
assert( false , "'" .. character .. "' was not in alphabet" )
end
-- Returns the characters in the UTF-8-encoded string `s´ in an array-like table
local function get_utf8_string_characters( s )
--[[
I saw this variable being used in several code snippets around the Web, but
it isn't provided in my LuaTeX environment; I use this form of initialization
to be safe if it's defined in the future.
]]
utf8.charpattern = utf8.charpattern or "([%z-74-4][8-1]*)"
local characters = {}
for character in s:gmatch(utf8.charpattern) do
table.insert( characters , character )
end
return characters
end
local function compare_utf8_strings( _o1 , _o2 )
--[[
`o1_chars´ and `o2_chars´ are array-like tables containing all of the
characters of each string, which are all made lower-case using the
slnunicode facilities that come built-in with LuaTeX.
]]
local o1_chars = get_utf8_string_characters( utf8.lower(_o1) )
local o2_chars = get_utf8_string_characters( utf8.lower(_o2) )
local o1_len = utf8.len(o1)
local o2_len = utf8.len(o2)
for i = 1, math.min( o1_len , o2_len ) do
o1_pos = get_pos_in_alphabet( o1_chars[i] )
o2_pos = get_pos_in_alphabet( o2_chars[i] )
if o1_pos > o2_pos then
return false
elseif o1_pos < o2_pos then
return true
end
end
return o1_len < o2_len
end
我无法将此解决方案集成到问题的框架中,因为我的测试环境 ZeroBrane Studio Lua IDE 没有 slnunicode 并且不知道怎么加。
就是这样。如果有人有任何疑问或想要进一步的解释,请使用评论。我希望它对其他人有用。
我将字典条目存储在 Lua table 中,将其用作数组。我想对 Lua 中的条目进行排序,这样我就可以添加新条目而不必自己移动到正确的位置(这很快就会变得非常乏味)。但是,我面临着几个问题:
- 许多单词包含非ASCII字符,这使得内置的字符串比较运算符不适合table任务(例如,它使amputar来在 ambito). 之前
- 有来自各种语言(尽管都是西方语言)的单词,即西班牙语、德语和英语。这里的问题是,可能不同的语言对字母顺序有不同的概念。由于主要语言是西班牙语,我想使用它的规则,尽管我不确定这是否适用于不包含在西班牙语字母表中的字符。
- 有些单词包含大写字母,或者更糟糕的是,以大写字母开头。例如,所有德语名词都以大写字母开头。通过内置的比较运算符,大写字母排在它们的小写字母之前,这不是我想要的行为;我希望大写字母与小写字母完全一样。
例如,下面的 table:
local entries =
{
'amputar',
'Volksgeist',
'ámbito'
}
这些条目应该这样排序:
ámbito
amputar
Volksgeist
但是,使用我当前的代码,输出是错误的:
local function compare_utf8_strings( o1 , o2 )
-- Using the built-in non-UTF-8-aware non-locale-aware string comparison operator
return o1 < o2
end
table.sort( entries , function ( a , b ) return compare_utf8_strings( a , b ) end )
for i, entry in ipairs(entries) do
print( entry )
end
输出:
Volksgeist
amputar
ámbito
能否请您使用以下代码,并破解它以满足我的要求?
local entries =
{
'amputar',
'Volksgeist',
'ámbito'
}
local function compare_utf8_strings( o1 , o2 )
-- Hack here, please, accomplishing my requirements
end
table.sort( entries , function ( a , b ) return compare_utf8_strings( a , b ) end )
for i, entry in ipairs(entries) do
print( entry )
end
它应该输出这个:
ámbito
amputar
Volksgeist
作为附加要求,此Lua代码全部在LuaTeX中,目前支持该语言的5.2版本。至于外部库,我猜是可以用的。
我是Lua阵营的新手,有什么错误还请见谅,不吝赐教,我修正
经过一段时间的搜索无果后,我找到了 Joseph Wright 的 this article。虽然它触及了我的问题,但没有提供明确的解决方案。我问他,原来目前没有直接的方法可以做我想做的事。然而,他指出 slnunicode 内置于 LuaTeX(尽管将来会被替换)。
我使用 LuaTeX 环境中提供的工具开发了一个 'crude' 解决方案。它并不优雅,但可以工作,并且不会拉取任何外部依赖项。关于它的效率,我没有发现文档构建时间有任何差异。
-- Make the facilities available
unicode = require( 'unicode' )
utf8 = unicode.utf8
--[[
Each character's position in this array-like table determines its 'priority'.
Several characters in the same slot have the same 'priority'.
]]
local alphabet =
{
-- The space is here because of other requirements of my project
{ ' ' },
{ 'a', 'á', 'à', 'ä' },
{ 'b' },
{ 'c' },
{ 'd' },
{ 'e', 'é', 'è', 'ë' },
{ 'f' },
{ 'g' },
{ 'h' },
{ 'i', 'í', 'ì', 'ï' },
{ 'j' },
{ 'k' },
{ 'l' },
{ 'm' },
{ 'n' },
{ 'ñ' },
{ 'o', 'ó', 'ò', 'ö' },
{ 'p' },
{ 'q' },
{ 'r' },
{ 's' },
{ 't' },
{ 'u', 'ú', 'ù', 'ü' },
{ 'v' },
{ 'w' },
{ 'x' },
{ 'y' },
{ 'z' }
}
-- Looks up the character `character´ in the alphabet and returns its 'priority'
local function get_pos_in_alphabet( character )
for i, alphabet_entry in ipairs(alphabet) do
for _, alphabet_char in ipairs(alphabet_entry) do
if character == alphabet_char then
return i
end
end
end
--[[
If it isn't in the alphabet, abort: it's better than silently outputting some
random garbage, and, thanks to the message, allows to add the character to
the table.
]]
assert( false , "'" .. character .. "' was not in alphabet" )
end
-- Returns the characters in the UTF-8-encoded string `s´ in an array-like table
local function get_utf8_string_characters( s )
--[[
I saw this variable being used in several code snippets around the Web, but
it isn't provided in my LuaTeX environment; I use this form of initialization
to be safe if it's defined in the future.
]]
utf8.charpattern = utf8.charpattern or "([%z-74-4][8-1]*)"
local characters = {}
for character in s:gmatch(utf8.charpattern) do
table.insert( characters , character )
end
return characters
end
local function compare_utf8_strings( _o1 , _o2 )
--[[
`o1_chars´ and `o2_chars´ are array-like tables containing all of the
characters of each string, which are all made lower-case using the
slnunicode facilities that come built-in with LuaTeX.
]]
local o1_chars = get_utf8_string_characters( utf8.lower(_o1) )
local o2_chars = get_utf8_string_characters( utf8.lower(_o2) )
local o1_len = utf8.len(o1)
local o2_len = utf8.len(o2)
for i = 1, math.min( o1_len , o2_len ) do
o1_pos = get_pos_in_alphabet( o1_chars[i] )
o2_pos = get_pos_in_alphabet( o2_chars[i] )
if o1_pos > o2_pos then
return false
elseif o1_pos < o2_pos then
return true
end
end
return o1_len < o2_len
end
我无法将此解决方案集成到问题的框架中,因为我的测试环境 ZeroBrane Studio Lua IDE 没有 slnunicode 并且不知道怎么加。
就是这样。如果有人有任何疑问或想要进一步的解释,请使用评论。我希望它对其他人有用。