使用正则表达式的 Autosar 标准兼容方式

Autosar standard-compilant way to use regex

我需要解析类似 URI 的字符串。此 URI 特定于项目并对应于“scheme://path/to/file”,其中从文件系统的角度来看,路径应该是语法正确的文件路径。为此,std::regex 与模式 R"(^(r[o|w])\:\/\/(((?!$|\~|\.{2,}|\/$).)+)$)".


它工作正常,但代码分析器认为它不合规,因为 $ 字符不属于 C++ 语言标准基本源字符集:

AUTOSAR C++14 A2-3-1 (Required) Only those characters specified in the C++ Language Standard basic source character set shall be used in the source code.

此规则的例外情况(根据 Autosar Guidelines):

It is permitted to use other characters inside the text of a wide string and a UTF-8 encoded string literal.

wchar_t 被其他规则禁止,虽然它与 UTF-8 string 一起工作(但它在代码中看起来很难看且不可读,而且我担心它不安全)。


使用 UTF-8 字符串文字还有其他缺点吗?

P.S。我需要 $ 来确保(在解析阶段)路径不是目录并且它不包含 /../~$ 的 none , 所以我不能跳过它。


Could someone help me with workaround or std::regex here is not the best solution, then what would be better?



你可以很容易地用实际代码表达相同的逻辑,这不仅会满足分析者的需求,而且更符合指南的精神。最重要的是,它会编译得更快,而且可能 运行 也更快。

根据粗略阅读您的正则表达式得出的结论。 (请不要在没有 运行 通过一系列测试的情况下使用它,我确实没有):

bool check_and_remove_path_prefix(std::string_view& path) {
  constexpr std::array<std::string_view, 2> valid_prefixes = { 

  for(auto p: valid_prefixes) {
    if(path.starts_with(p)) {
      return true;
  return false;

bool is_valid_path_elem_char(char c) {
  // This matches your regex, but is probably wrong, as it will accept a bunch of control characters.
  // N.B. \x24 is the dollar sign character
  return c != '~' && c != '\x24' && c != '\r' && c != '\n';
bool is_valid_path(std::string_view path) {
  if(!check_and_remove_path_prefix(path)) { return false; }

  char prev_c = '[=10=]';
  bool current_segment_empty = true;
  for(char c : path) {
    // Disallow two or more consecutive periods
    if( c == '.' && prev_c == '.') { return false; }

    // Disallow empty segments
    if(c == '/') {
      if(current_segment_empty) { return false; }
      current_segment_empty = true;
    else {
      if(!is_valid_path_elem_char(c)) { return false; }
      current_segment_empty = false;
    prev_c = c;

  return !current_segment_empty;

选项 B: 不要打扰检查

