如何搜索从 wstringstream 获得的宽字符串中的文本
How to search for text in wide string obtained from wstringstream
我有一个单词流,在循环的每个 运行 中给我一个单词作为 std::string
。但理想情况下,这应该是 std::wstring
。所以在获得字符串后,我将其转换为 std::wstring
。这个我输入成std:wstringstream
。最后,在处理完流中的所有单词后,我将 std:wstringstream
转换为 std::wstring
,然后在其中搜索所需的术语(最初是 std::wstring
)。这是我的代码:
while (stream)
{
std::string word = stream->getWord();
boost::trim(word);
std::wstring longWord(word.length(), L' '); // Make room for characters
std::copy(word.begin(), word.end(), longWord.begin());
fMyWideCharStream << longWord;
stream->next();
}
std::wstring fContentString = fMyWideCharStream.str();
size_t nPos = fContentString.find(fSearchString, 0); //fSearchString is std::wstring
while(nPos != std::wstring::npos)
{
qDebug() << "Pos: " << nPos << endl;
nPos = fContentString.find(fSearchString, nPos+1);
}
我有这个字符串:Passive Aggressive Dealing With Passive Aggression, Lost Happiness & Disconnection 版权所有 © 2014,其中 © 是一个宽字符。由于 std::string
它占据了两个位置。因为 std::wstring
它需要 1,这就是我想要的。但是,在尝试使用值为 L"2014"
的 fSearchString
时,我得到的值仍然是 96,而它应该是 95,因为这个字符串现在是 std::wstring
.
知道我应该怎么做才能解决这个问题吗?
因为原始 string
不是纯 ASCII - 它包含多字节字符 '©',所以使用逐个字符从 string
转换为 wstring
是错误的转换。因此
std::wstring longWord(word.length(), L' '); // Make room for characters
std::copy(word.begin(), word.end(), longWord.begin());
和
std::wstring longWord(word.begin(), word.end());
不适用于包含多字节字符的 string
。
要在 Windows 上从多字节字符 string
正确转换为 wstring
,您可以使用 mbstowcs():http://www.cplusplus.com/reference/cstdlib/mbstowcs/
以独立于平台的方式,使用 C++11(将选项编译为 clang:-std=c++1
),您可以这样做: ,
如果您需要超出单个 wchar_t 可以存储的字符的示例:
std::wstring_convert<std::codecvt_utf8_utf16<wchar_t>> converter;
std::wstring longWord = converter.from_bytes(word);
如果您不需要超出单个 wchar_t 可以存储的字符:
std::wstring_convert<std::codecvt_utf8<wchar_t>> converter;
std::wstring longWord = converter.from_bytes(word);
必要的包括:
#include <locale>
#include <codecvt>
#include <string>
在 Boost 中,C++11 之前似乎还有其他选项。
我有一个单词流,在循环的每个 运行 中给我一个单词作为 std::string
。但理想情况下,这应该是 std::wstring
。所以在获得字符串后,我将其转换为 std::wstring
。这个我输入成std:wstringstream
。最后,在处理完流中的所有单词后,我将 std:wstringstream
转换为 std::wstring
,然后在其中搜索所需的术语(最初是 std::wstring
)。这是我的代码:
while (stream)
{
std::string word = stream->getWord();
boost::trim(word);
std::wstring longWord(word.length(), L' '); // Make room for characters
std::copy(word.begin(), word.end(), longWord.begin());
fMyWideCharStream << longWord;
stream->next();
}
std::wstring fContentString = fMyWideCharStream.str();
size_t nPos = fContentString.find(fSearchString, 0); //fSearchString is std::wstring
while(nPos != std::wstring::npos)
{
qDebug() << "Pos: " << nPos << endl;
nPos = fContentString.find(fSearchString, nPos+1);
}
我有这个字符串:Passive Aggressive Dealing With Passive Aggression, Lost Happiness & Disconnection 版权所有 © 2014,其中 © 是一个宽字符。由于 std::string
它占据了两个位置。因为 std::wstring
它需要 1,这就是我想要的。但是,在尝试使用值为 L"2014"
的 fSearchString
时,我得到的值仍然是 96,而它应该是 95,因为这个字符串现在是 std::wstring
.
知道我应该怎么做才能解决这个问题吗?
因为原始 string
不是纯 ASCII - 它包含多字节字符 '©',所以使用逐个字符从 string
转换为 wstring
是错误的转换。因此
std::wstring longWord(word.length(), L' '); // Make room for characters
std::copy(word.begin(), word.end(), longWord.begin());
和
std::wstring longWord(word.begin(), word.end());
不适用于包含多字节字符的 string
。
要在 Windows 上从多字节字符 string
正确转换为 wstring
,您可以使用 mbstowcs():http://www.cplusplus.com/reference/cstdlib/mbstowcs/
以独立于平台的方式,使用 C++11(将选项编译为 clang:-std=c++1
),您可以这样做: ,
如果您需要超出单个 wchar_t 可以存储的字符的示例:
std::wstring_convert<std::codecvt_utf8_utf16<wchar_t>> converter;
std::wstring longWord = converter.from_bytes(word);
如果您不需要超出单个 wchar_t 可以存储的字符:
std::wstring_convert<std::codecvt_utf8<wchar_t>> converter;
std::wstring longWord = converter.from_bytes(word);
必要的包括:
#include <locale>
#include <codecvt>
#include <string>
在 Boost 中,C++11 之前似乎还有其他选项。