如何交换字符串中的两个字符?
How to swap two characters in a string?
我想写一个函数如下:
- 输入:字符串 A,int i,0 < i < len(A)
- 输出:字符串 A,第 (i - 1) 处的字符与第 i 处的字符交换。
什么是 干净 解决方案来实现这一点?我目前的解决方案是:
let mut swapped = input_str[0..i].to_string();
swapped.push(input_str.char_at(i));
swapped.push(input_str.char_at(i - 1));
swapped.push_str(&query[i..input_str.len()]);
但这只适用于 ASCII 字符串。我可以将其他解决方案视为转换为 UTF-32 中的向量,在那里交换并转换回字符串,但这似乎需要做很多额外的工作。
这是一个很好的解决方案:
use std::str::CharRange;
fn swap_chars_at(input_str: &str, i: usize) -> String {
// Pre-allocate a string of the correct size
let mut swapped = String::with_capacity(input_str.len());
// Pluck the previous character
let CharRange { ch: prev_ch, next: prev } = input_str.char_range_at_reverse(i);
// Pluck the current character
let CharRange { ch, next } = input_str.char_range_at(i);
// Put them back
swapped.push_str(&input_str[..prev]);
swapped.push(ch);
swapped.push(prev_ch);
swapped.push_str(&input_str[next..]);
// Done!
swapped
}
#[test]
fn smoke_test() {
let s = swap_chars_at("lyra", 2);
assert_eq!(s, "lrya");
}
#[test]
fn unicode() {
// 'ç' takes up 2 bytes in UTF-8
let s = swap_chars_at("ça va?", 2);
assert_eq!(s, "aç va?");
}
fn char_range_at(&self, start: usize) -> CharRange
- 从字符串中提取一个字符并return下一个字符的索引。
fn char_range_at_reverse(&self, start: usize) -> CharRange
- 给定一个字节位置和一个 str,return 前一个字符及其位置。
这两种方法一起让我们可以在字符串中前后查看——这正是我们想要的。
但是等等,还有更多! DK 用上面的代码指出了一个极端情况。如果输入包含任何 combining characters,它们可能会与它们组合的字符分开。
现在,这个问题是关于 Rust,而不是 Unicode,所以我不会详细讨论 how exactly that works. All you need to know for now is that Rust provides this method:
fn grapheme_indices(&self, is_extended: bool) -> GraphemeIndices
- Returns self 的 grapheme clusters 及其字节偏移量的迭代器。
通过 .find()
和 .rev()
的健康应用,我们得出了这个(希望如此)正确的解决方案:
#![allow(unstable)] // `GraphemeIndices` is unstable
fn swap_graphemes_at(input_str: &str, i: usize) -> String {
// Pre-allocate a string of the correct size
let mut swapped = String::with_capacity(input_str.len());
// Find the grapheme at index i
let (_, gr) = input_str.grapheme_indices(true)
.find(|&(index, _)| index == i)
.expect("index does not point to a valid grapheme");
// Find the grapheme just before it
let (prev, prev_gr) = input_str.grapheme_indices(true).rev()
.find(|&(index, _)| index < i)
.expect("no graphemes to swap with");
// Put it all back together
swapped.push_str(&input_str[..prev]);
swapped.push_str(gr);
swapped.push_str(prev_gr);
swapped.push_str(&input_str[i+gr.len()..]);
// Done!
swapped
}
#[test]
fn combining() {
// Ensure that "c\u{327}" is treated as a single unit
let s = swap_graphemes_at("c\u{327}a va?", 3);
assert_eq!(s, "ac\u{327} va?");
}
不可否认,这有点令人费解。首先,它遍历输入,在 i
处提取字素簇。然后它通过输入迭代 backward (.rev()
),选择索引为 < i
的最右边的集群(即前一个集群)。最后,一切都恢复原样了。
如果您真的迂腐,还有更多特殊情况需要处理。例如,如果字符串包含 Windows 个换行符 ("\r\n"
),那么我们可能不想交换它们。在希腊语中,当字母 sigma (σ) 位于单词 (ς) 的末尾时,它的写法不同,因此更好的算法应该根据需要在它们之间进行转换。并且不要忘记那些 bidirectional control characters...
但为了我们的理智,我们就到此为止。
我想写一个函数如下:
- 输入:字符串 A,int i,0 < i < len(A)
- 输出:字符串 A,第 (i - 1) 处的字符与第 i 处的字符交换。
什么是 干净 解决方案来实现这一点?我目前的解决方案是:
let mut swapped = input_str[0..i].to_string();
swapped.push(input_str.char_at(i));
swapped.push(input_str.char_at(i - 1));
swapped.push_str(&query[i..input_str.len()]);
但这只适用于 ASCII 字符串。我可以将其他解决方案视为转换为 UTF-32 中的向量,在那里交换并转换回字符串,但这似乎需要做很多额外的工作。
这是一个很好的解决方案:
use std::str::CharRange;
fn swap_chars_at(input_str: &str, i: usize) -> String {
// Pre-allocate a string of the correct size
let mut swapped = String::with_capacity(input_str.len());
// Pluck the previous character
let CharRange { ch: prev_ch, next: prev } = input_str.char_range_at_reverse(i);
// Pluck the current character
let CharRange { ch, next } = input_str.char_range_at(i);
// Put them back
swapped.push_str(&input_str[..prev]);
swapped.push(ch);
swapped.push(prev_ch);
swapped.push_str(&input_str[next..]);
// Done!
swapped
}
#[test]
fn smoke_test() {
let s = swap_chars_at("lyra", 2);
assert_eq!(s, "lrya");
}
#[test]
fn unicode() {
// 'ç' takes up 2 bytes in UTF-8
let s = swap_chars_at("ça va?", 2);
assert_eq!(s, "aç va?");
}
fn char_range_at(&self, start: usize) -> CharRange
- 从字符串中提取一个字符并return下一个字符的索引。
fn char_range_at_reverse(&self, start: usize) -> CharRange
- 给定一个字节位置和一个 str,return 前一个字符及其位置。
这两种方法一起让我们可以在字符串中前后查看——这正是我们想要的。
但是等等,还有更多! DK 用上面的代码指出了一个极端情况。如果输入包含任何 combining characters,它们可能会与它们组合的字符分开。
现在,这个问题是关于 Rust,而不是 Unicode,所以我不会详细讨论 how exactly that works. All you need to know for now is that Rust provides this method:
fn grapheme_indices(&self, is_extended: bool) -> GraphemeIndices
- Returns self 的 grapheme clusters 及其字节偏移量的迭代器。
通过 .find()
和 .rev()
的健康应用,我们得出了这个(希望如此)正确的解决方案:
#![allow(unstable)] // `GraphemeIndices` is unstable
fn swap_graphemes_at(input_str: &str, i: usize) -> String {
// Pre-allocate a string of the correct size
let mut swapped = String::with_capacity(input_str.len());
// Find the grapheme at index i
let (_, gr) = input_str.grapheme_indices(true)
.find(|&(index, _)| index == i)
.expect("index does not point to a valid grapheme");
// Find the grapheme just before it
let (prev, prev_gr) = input_str.grapheme_indices(true).rev()
.find(|&(index, _)| index < i)
.expect("no graphemes to swap with");
// Put it all back together
swapped.push_str(&input_str[..prev]);
swapped.push_str(gr);
swapped.push_str(prev_gr);
swapped.push_str(&input_str[i+gr.len()..]);
// Done!
swapped
}
#[test]
fn combining() {
// Ensure that "c\u{327}" is treated as a single unit
let s = swap_graphemes_at("c\u{327}a va?", 3);
assert_eq!(s, "ac\u{327} va?");
}
不可否认,这有点令人费解。首先,它遍历输入,在 i
处提取字素簇。然后它通过输入迭代 backward (.rev()
),选择索引为 < i
的最右边的集群(即前一个集群)。最后,一切都恢复原样了。
如果您真的迂腐,还有更多特殊情况需要处理。例如,如果字符串包含 Windows 个换行符 ("\r\n"
),那么我们可能不想交换它们。在希腊语中,当字母 sigma (σ) 位于单词 (ς) 的末尾时,它的写法不同,因此更好的算法应该根据需要在它们之间进行转换。并且不要忘记那些 bidirectional control characters...
但为了我们的理智,我们就到此为止。