【问题标题】:Parsing code files faster更快地解析代码文件
【发布时间】:2016-03-09 17:10:51
【问题描述】:

我为基于堆栈的语言编写了一个相当复杂的解析器,它将文件加载到内存中,然后通过比较标记来查看它是否被识别为操作数或指令。

每次我必须解析新的操作数/指令时,我都会将内存从文件缓冲区std::copy 转移到std::string,然后执行`

if(parsed_string.compare("add") == 0) { /* handle multiplication */} 
else if(parsed_string.compare("sub") == 0) { /* handle subtraction */ } 
else { /* This is an operand */ }

不幸的是,所有这些副本都使解析变慢。

我应该如何处理以避免所有这些副本?我一直认为我不需要分词器,因为语言本身和逻辑都很简单。

编辑:我正在添加获取各种操作数和指令副本的代码

  // This function accounts for 70% of the total time of the program
  std::string Parser::read_as_string(size_t start, size_t end) {

    std::vector<char> file_memory(end - start);
    read_range(start, end - start, file_memory);
    std::string result(file_memory.data(), file_memory.size());
    return std::move(result); // Intended to be consumed
  }

  void Parser::read_range(size_t start, size_t size, std::string& destination) {

    if (destination.size() < size)
      destination.resize(size); // Allocate necessary space

    std::copy(file_in_memory.begin() + start,
      file_in_memory.begin() + start + size,
      destination.begin());
  }

【问题讨论】:

  • 你能说明你在哪里/如何创建副本吗?
  • @NathanOliver 当然,在这里。
  • 您如何检查复制字符串是最慢的操作?
  • return std::move(anything) 是错误的。哪个资源教你这样做?
  • 这就是人们构建 FSA 来匹配词位的原因;如果您不想使用真正的词法分析器生成器,您甚至可以手动编写代码。否则,您就是在抱怨已解决的问题。

标签: c++ string parsing c++11


【解决方案1】:

此复制不是必需的。可以对切片进行操作。

struct StrSlice {
  StrSlice(const std::string& embracingStr, std::size_t startIx, std::size_t length)
  : begin_(/* todo */), end_(/* todo */) // Assign begin_ and end_ here 
  {}

  StrSlice(const char* begin, const char* end)
  : begin_(begin), end_(end) 
  {}
  // Define some more constructors
  // Be careful about implicit conversions
  //...

  //Define lots of comparasion routines with other strings here
  bool operator==(const char* str) const {
    ... 
  }

  bool operator==(const StrSlice& str) const {
    ... 
  } 

  // You can take slice of a slice in O(1) time
  StrSlice subslice(std::size_t startIx, std::size_t length) {
    assert(/* do some range checks here */);
    const char* subsliceBegin = begin_ + startIx;
    const char* subsliceEnd = subsliceBegin + length;
    return StrSlice(subsliceBegin, subsliceEnd); 
  }
private:
  const char* begin_;
  const char* end_;
}; 

我希望你能明白。当然,在相关字符串发生任何变化(尤其是内存重新分配)后,该切片将中断。但是除非您读取新文件,否则您的字符串似乎不会改变。

【讨论】:

  • std::string_view 将出现在 C++17 中,我相信它是建立在这个原则之上的。与此同时,boost::string_ref 看起来如果你喜欢提升,它可能会起到作用。
【解决方案2】:

这个怎么样:

std::string Parser::read_as_string(size_t start, size_t end)
{
   return file_in_memory.substr(start, end);
}

您的“read_as_string”函数只做标准的“substr”,除了开销......

【讨论】:

    【解决方案3】:

    将输入流的前缀与关键字的常量字符串进行比较很容易编码,但肯定不是很快;如果您有 N 个关键字,您将进行 O(N) string 比较。如果字符串的平均长度为 L,您将进行 O(N*L) character 比较。并且这样的比较不会让您选择数字、标识符或字符串文字,您不能只比较常量字符串。 (并且按照您的示例复制前缀似乎没有帮助)。

    您应该考虑构建一个基于有限状态的机器来实现您的词法分析器。这是地球上几乎每个生产解析器/编译器都使用的解决方案,因为它们往往非常快。 真正精心设计的 FSA 将对输入字符串的每个字符进行单个字符查找;这很难被击败。

    您可以手工制作这样的 FSA,也可以使用工具。

    基本背景见http://en.wikipedia.org/wiki/Lexical_analysis, 以及广泛使用的词法分析器生成器的具体列表。

    【讨论】:

      【解决方案4】:

      这可能不仅仅是复制,还有字符串比较的级联(假设您有超过您显示的两个指令)。

      您可以尝试使用查找表(如 std::map 或 std::unordered_map)将指令转换为您打开的枚举类型。所以而不是:

      if(parsed_string.compare("add") == 0) { /* handle multiplication */}
      else if(parsed_string.compare("sub") == 0) { /* handle subtraction */ }
      ...
      else { /* This is an operand */ }
      

      你会这样做:

      const auto it = keywords.find(parsed_string);
      if (it != keywords.end()) {
        switch (it->second) {
          case kAdd:  // handle addition
          case kSub:  // handle subtraction
          ...
        }
      } else {
        // handle operand
      }
      

      如果有多个关键字,这将导致更少的字符串比较,此时副本可能没什么大不了的。如果是的话,这个建议可以与其他使用“切片”或“视图”到实际数据中以避免复制的人一起使用。

      【讨论】:

        猜你喜欢
        • 2016-01-13
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 2011-02-28
        • 1970-01-01
        相关资源
        最近更新 更多