比较最后一个字符,不区分大小写(使用谓词?)
Comparing last characters, case insensitive (with a predicate?)
我有一个 std::wstring fName
文件名,我想对其进行测试 它是否具有 .txt 扩展名。 这有效:
return ((fName.length() >= 4) && (0 == fName.compare(fName.length() - 4, 4, L".txt")));
但它区分大小写,这是我不想要的:我需要 blah.tXt
和 hello.TXT
都被接受。
这应该作为不区分大小写的版本工作:
std::wstring ext = L".txt";
wstring::const_iterator it = std::search(fName.end() - 4, fName.end(), ext.begin(), ext.end(),
[](wchar_t ch1, wchar_t ch2) { return tolower(ch1) == ch2; });
// no need tolower(ch2) because the pattern .txt is already lowercase
return (it != str1.end());
但是 std::search
可能远非最佳,因为它会搜索它是否 包含 模式(原始字符串中的任何位置),在这里我只需要 逐个字符比较。
因为我需要对数百万个文件名进行测试,我怎样才能提高检查文件名是否有扩展名(不区分大小写)的性能.txt
?
我不想要简单的解决方案:
让我们将新变量中的 fName
小写(或者甚至将 fName
的最后 4 个字符小写)
然后比较
因为这需要新的变量、内存等。我可以将 in place 与自定义谓词 [](wchar_t ch1, wchar_t ch2) { return tolower(ch1) == ch2; })
进行比较吗?
注意:我不是在寻找 Boost 解决方案,也不是像这样的解决方案 Case insensitive string comparison in C++ 或许多未针对性能进行优化的类似问题。
如果您想要一个没有假设的实现(也不假设扩展名的长度,但假设文件名的大小至少为 4 个字符):
char * testing = &fName[fName.length() - 4];
unsigned int index = 1;
unsigned int total = 0;
while(index < 4) {
total += testing[index] << index;
++index;
}
return total == ('t' << 1) + ('x' << 2) + ('t' << 3) || total == ('T' << 1) + ('X' << 2) + ('T' << 3);
这是非常理想的,但假设其他扩展名的 ASCII 值之和与 .txt 扩展名的 ASCII 值之和不匹配(我还假设扩展名将有 3 个字符,例如你在上面做了):
int index = fName.length();
int total = fName[--index] + fName[--index] + fName[--index];
return total == 't' + 'x' + 't' || 'T' + 'X' + 'T';
这是上面版本的更混乱的版本,但应该更快:
return *((int*)&fName[index - 4]) == '.' + 't' + 'x' + 't';
如果您知道 none 的其他扩展名将以 "t" 结尾,中间有一个 "x" 等,您可以通过做一些事情来进一步优化它像这样:
return fName[fName.length() - 1] == 't' || 'T;
这个怎么样?
#include <string>
#include <algorithm>
template<typename CharT>
bool HasExtension(const std::basic_string<CharT>& fileName, const std::basic_string<CharT>& ext)
{
auto b = fileName.begin() + fileName.length() - ext.length();
auto a = ext.begin();
while (b != fileName.end())
{
if (*a++ != tolower(*b++))
{
return false;
}
}
return true;
}
int main()
{
std::string ext{".Txt"}; // make sure this is a lower case std::string.
std::transform(ext.begin(), ext.end(), ext.begin(), tolower);
std::string fn{"test.txt"};
return HasExtension(fn, ext) ? 0 : 1;
}
建议的解决方案是
#include <iostream>
#include <string>
bool isTXT(const std::wstring& str)
{
std::wstring::size_type idx;
idx = str.rfind('.');
if( idx != std::wstring::npos ){
std::wstring ext = str.substr(idx+1);
if( ext == L"txt" || ext == L"TXT" ) // do all possible combinations.
return true;
}
return false;
}
int main()
{
std::wstring fileName = L"haihs.TXT";
std::wcout << isTXT(fileName) << std::endl;
return 0;
}
对于条件语句ext == L"txt" || ext == L"TXT"
,如果你不想创建一个wstring来将其转换为小写或大写,你可以填写其余部分。
正如@fghj 评论中所建议的,这是一个很好的解决方案:
std::equal(fName.end() - ext.length(), fName.end(), ext.begin(),
[](wchar_t ch1, wchar_t ch2) { return tolower(ch1) == ch2; });
我有一个 std::wstring fName
文件名,我想对其进行测试 它是否具有 .txt 扩展名。 这有效:
return ((fName.length() >= 4) && (0 == fName.compare(fName.length() - 4, 4, L".txt")));
但它区分大小写,这是我不想要的:我需要 blah.tXt
和 hello.TXT
都被接受。
这应该作为不区分大小写的版本工作:
std::wstring ext = L".txt";
wstring::const_iterator it = std::search(fName.end() - 4, fName.end(), ext.begin(), ext.end(),
[](wchar_t ch1, wchar_t ch2) { return tolower(ch1) == ch2; });
// no need tolower(ch2) because the pattern .txt is already lowercase
return (it != str1.end());
但是 std::search
可能远非最佳,因为它会搜索它是否 包含 模式(原始字符串中的任何位置),在这里我只需要 逐个字符比较。
因为我需要对数百万个文件名进行测试,我怎样才能提高检查文件名是否有扩展名(不区分大小写)的性能.txt
?
我不想要简单的解决方案:
让我们将新变量中的
fName
小写(或者甚至将fName
的最后 4 个字符小写)然后比较
因为这需要新的变量、内存等。我可以将 in place 与自定义谓词 [](wchar_t ch1, wchar_t ch2) { return tolower(ch1) == ch2; })
进行比较吗?
注意:我不是在寻找 Boost 解决方案,也不是像这样的解决方案 Case insensitive string comparison in C++ 或许多未针对性能进行优化的类似问题。
如果您想要一个没有假设的实现(也不假设扩展名的长度,但假设文件名的大小至少为 4 个字符):
char * testing = &fName[fName.length() - 4];
unsigned int index = 1;
unsigned int total = 0;
while(index < 4) {
total += testing[index] << index;
++index;
}
return total == ('t' << 1) + ('x' << 2) + ('t' << 3) || total == ('T' << 1) + ('X' << 2) + ('T' << 3);
这是非常理想的,但假设其他扩展名的 ASCII 值之和与 .txt 扩展名的 ASCII 值之和不匹配(我还假设扩展名将有 3 个字符,例如你在上面做了):
int index = fName.length();
int total = fName[--index] + fName[--index] + fName[--index];
return total == 't' + 'x' + 't' || 'T' + 'X' + 'T';
这是上面版本的更混乱的版本,但应该更快:
return *((int*)&fName[index - 4]) == '.' + 't' + 'x' + 't';
如果您知道 none 的其他扩展名将以 "t" 结尾,中间有一个 "x" 等,您可以通过做一些事情来进一步优化它像这样:
return fName[fName.length() - 1] == 't' || 'T;
这个怎么样?
#include <string>
#include <algorithm>
template<typename CharT>
bool HasExtension(const std::basic_string<CharT>& fileName, const std::basic_string<CharT>& ext)
{
auto b = fileName.begin() + fileName.length() - ext.length();
auto a = ext.begin();
while (b != fileName.end())
{
if (*a++ != tolower(*b++))
{
return false;
}
}
return true;
}
int main()
{
std::string ext{".Txt"}; // make sure this is a lower case std::string.
std::transform(ext.begin(), ext.end(), ext.begin(), tolower);
std::string fn{"test.txt"};
return HasExtension(fn, ext) ? 0 : 1;
}
建议的解决方案是
#include <iostream>
#include <string>
bool isTXT(const std::wstring& str)
{
std::wstring::size_type idx;
idx = str.rfind('.');
if( idx != std::wstring::npos ){
std::wstring ext = str.substr(idx+1);
if( ext == L"txt" || ext == L"TXT" ) // do all possible combinations.
return true;
}
return false;
}
int main()
{
std::wstring fileName = L"haihs.TXT";
std::wcout << isTXT(fileName) << std::endl;
return 0;
}
对于条件语句ext == L"txt" || ext == L"TXT"
,如果你不想创建一个wstring来将其转换为小写或大写,你可以填写其余部分。
正如@fghj 评论中所建议的,这是一个很好的解决方案:
std::equal(fName.end() - ext.length(), fName.end(), ext.begin(),
[](wchar_t ch1, wchar_t ch2) { return tolower(ch1) == ch2; });