这是我对“足够快”的看法。它在约 1 秒内压缩通过 116 MiB 的 CSV(2.5Mio 行[1])。
然后可以在零副本中随机访问结果,因此没有开销(除非页面被换出)。
比较:
- 这比天真的
wc csv.txt 处理同一个文件要快 ~3 倍
-
它与以下 perl 单行(列出所有行上的不同字段计数)一样快:
perl -ne '$fields{scalar split /,/}++; END { map { print "$_\n" } keys %fields }' csv.txt
它只比 (LANG=C wc csv.txt) 慢,后者避免了语言环境功能(大约 1.5 倍)
这是解析器的全部荣耀:
using CsvField = boost::string_ref;
using CsvLine = std::vector<CsvField>;
using CsvFile = std::vector<CsvLine>; // keep it simple :)
struct CsvParser : qi::grammar<char const*, CsvFile()> {
CsvParser() : CsvParser::base_type(lines)
{
using namespace qi;
field = raw [*~char_(",\r\n")]
[ _val = construct<CsvField>(begin(_1), size(_1)) ]; // semantic action
line = field % ',';
lines = line % eol;
}
// declare: line, field, fields
};
唯一棘手的事情(也是唯一的优化)是从具有匹配字符数的源迭代器构造 CsvField 的语义操作。
这里是主要的:
int main()
{
boost::iostreams::mapped_file_source csv("csv.txt");
CsvFile parsed;
if (qi::parse(csv.data(), csv.data() + csv.size(), CsvParser(), parsed))
{
std::cout << (csv.size() >> 20) << " MiB parsed into " << parsed.size() << " lines of CSV field values\n";
}
}
打印
116 MiB parsed into 2578421 lines of CSV values
你可以像std::string一样使用这些值:
for (int i = 0; i < 10; ++i)
{
auto l = rand() % parsed.size();
auto& line = parsed[l];
auto c = rand() % line.size();
std::cout << "Random field at L:" << l << "\t C:" << c << "\t" << line[c] << "\n";
}
打印例如:
Random field at L:1979500 C:2 sateen's
Random field at L:928192 C:1 sackcloth's
Random field at L:1570275 C:4 accompanist's
Random field at L:479916 C:2 apparel's
Random field at L:767709 C:0 pinks
Random field at L:1174430 C:4 axioms
Random field at L:1209371 C:4 wants
Random field at L:2183367 C:1 Klondikes
Random field at L:2142220 C:1 Anthony
Random field at L:1680066 C:2 pines
完整的工作示例在这里 Live On Coliru
[1]我通过重复附加
的输出来创建文件
while read a && read b && read c && read d && read e
do echo "$a,$b,$c,$d,$e"
done < /etc/dictionaries-common/words
到csv.txt,直到它计算出 250 万行。