在不破坏驱动器号的情况下清理 C# 中的文件路径
Sanitizing a file path in C# without compromising the drive letter
我需要在 C# 中处理一些可能包含非法字符的文件路径,例如:
C:\path\something\output_at_13:26:43.txt
在该路径中,时间戳中的 :
s 使文件名无效,我想用另一个安全字符替换它们。
我已经在 SO 上搜索了解决方案,但它们似乎都是基于以下内容:
path = string.Join("_", path.Split(Path.GetInvalidFileNameChars()));
或类似的解决方案。然而,这些解决方案并不好,因为它们搞砸了驱动器号,我得到的输出是:
C_\path\something\output_at_13_26_43.txt
我试过使用Path.GetInvalidPathChars()
但它仍然不起作用,因为它不包括非法字符中的:
,所以它不会替换文件名中的那些。
所以,在弄清楚之后,我尝试这样做:
string dir = Path.GetDirectoryName(path);
string file = Path.GetFileName(path);
file = string.Join(replacement, file.Split(Path.GetInvalidFileNameChars()));
dir = string.Join(replacement, dir.Split(Path.GetInvalidPathChars()));
path = Path.Combine(dir, file);
但这也不好,因为文件名中的:
似乎干扰了Path.GetFilename()
的逻辑,它只是returns最后一段:
,所以我丢失了一些路径。
如果没有骇人听闻的解决方案,我该如何做到这一点 "properly"?
您可以编写一个简单的清理程序来迭代每个字符并知道何时期望冒号作为驱动器分隔符。这个将捕获字母 A-Z 后跟“:”的任意组合。它还将检测路径分隔符并且不会转义它们。它不会检测输入字符串开头的空格,因此如果您的输入数据可能与它们一起出现,您将必须先 trim 它或相应地修改消毒剂:
enum ParserState {
PossibleDriveLetter,
PossibleDriveLetterSeparator,
Path
}
static string SanitizeFileName(string input) {
StringBuilder output = new StringBuilder(input.Length);
ParserState state = ParserState.PossibleDriveLetter;
foreach(char current in input) {
if (((current >= 'a') && (current <= 'z')) || ((current >= 'A') && (current <= 'Z'))) {
output.Append(current);
if (state == ParserState.PossibleDriveLetter) {
state = ParserState.PossibleDriveLetterSeparator;
}
else {
state = ParserState.Path;
}
}
else if ((current == Path.DirectorySeparatorChar) ||
(current == Path.AltDirectorySeparatorChar) ||
((current == ':') && (state == ParserState.PossibleDriveLetterSeparator)) ||
!Path.GetInvalidFileNameChars().Contains(current)) {
output.Append(current);
state = ParserState.Path;
}
else {
output.Append('_');
state = ParserState.Path;
}
}
return output.ToString();
}
你可以try it out here.
您绝对应该确保只收到有效的文件名。
如果你不能,并且你确定你的目录名称是,你可以将路径拆分为最后一个反斜杠(假设 Windows)并重新组合字符串:
public static string SanitizePath(string path)
{
var lastBackslash = path.LastIndexOf('\');
var dir = path.Substring(0, lastBackslash);
var file = path.Substring(lastBackslash, path.Length - lastBackslash);
foreach (var invalid in Path.GetInvalidFileNameChars())
{
file = file.Replace(invalid, '_');
}
return dir + file;
}
我需要在 C# 中处理一些可能包含非法字符的文件路径,例如:
C:\path\something\output_at_13:26:43.txt
在该路径中,时间戳中的 :
s 使文件名无效,我想用另一个安全字符替换它们。
我已经在 SO 上搜索了解决方案,但它们似乎都是基于以下内容:
path = string.Join("_", path.Split(Path.GetInvalidFileNameChars()));
或类似的解决方案。然而,这些解决方案并不好,因为它们搞砸了驱动器号,我得到的输出是:
C_\path\something\output_at_13_26_43.txt
我试过使用Path.GetInvalidPathChars()
但它仍然不起作用,因为它不包括非法字符中的:
,所以它不会替换文件名中的那些。
所以,在弄清楚之后,我尝试这样做:
string dir = Path.GetDirectoryName(path);
string file = Path.GetFileName(path);
file = string.Join(replacement, file.Split(Path.GetInvalidFileNameChars()));
dir = string.Join(replacement, dir.Split(Path.GetInvalidPathChars()));
path = Path.Combine(dir, file);
但这也不好,因为文件名中的:
似乎干扰了Path.GetFilename()
的逻辑,它只是returns最后一段:
,所以我丢失了一些路径。
如果没有骇人听闻的解决方案,我该如何做到这一点 "properly"?
您可以编写一个简单的清理程序来迭代每个字符并知道何时期望冒号作为驱动器分隔符。这个将捕获字母 A-Z 后跟“:”的任意组合。它还将检测路径分隔符并且不会转义它们。它不会检测输入字符串开头的空格,因此如果您的输入数据可能与它们一起出现,您将必须先 trim 它或相应地修改消毒剂:
enum ParserState {
PossibleDriveLetter,
PossibleDriveLetterSeparator,
Path
}
static string SanitizeFileName(string input) {
StringBuilder output = new StringBuilder(input.Length);
ParserState state = ParserState.PossibleDriveLetter;
foreach(char current in input) {
if (((current >= 'a') && (current <= 'z')) || ((current >= 'A') && (current <= 'Z'))) {
output.Append(current);
if (state == ParserState.PossibleDriveLetter) {
state = ParserState.PossibleDriveLetterSeparator;
}
else {
state = ParserState.Path;
}
}
else if ((current == Path.DirectorySeparatorChar) ||
(current == Path.AltDirectorySeparatorChar) ||
((current == ':') && (state == ParserState.PossibleDriveLetterSeparator)) ||
!Path.GetInvalidFileNameChars().Contains(current)) {
output.Append(current);
state = ParserState.Path;
}
else {
output.Append('_');
state = ParserState.Path;
}
}
return output.ToString();
}
你可以try it out here.
您绝对应该确保只收到有效的文件名。
如果你不能,并且你确定你的目录名称是,你可以将路径拆分为最后一个反斜杠(假设 Windows)并重新组合字符串:
public static string SanitizePath(string path)
{
var lastBackslash = path.LastIndexOf('\');
var dir = path.Substring(0, lastBackslash);
var file = path.Substring(lastBackslash, path.Length - lastBackslash);
foreach (var invalid in Path.GetInvalidFileNameChars())
{
file = file.Replace(invalid, '_');
}
return dir + file;
}