【发布时间】:2015-05-28 19:15:55
【问题描述】:
我正在寻找一种快速的方法来组合两个字符串的字符(根据集合论)。例如 'copy' union 'creepy' 应该给出 'copyre'。我需要获取由 很多 短字符串(我认为最多 50 个字符)组成的文件中使用的所有字母。
此刻我:
- 从文件中读取字符串
- 遍历其字母并使用二分搜索在已使用字母集(存储为排序字符串)中搜索每个字母。
这需要处理 unicode 字符,因此使用布尔值制作表格并标记出现的每个字母是行不通的。任何想法如何使这更快?
【问题讨论】:
-
'copyrep' 里面有两次 p,这是故意的吗?如果有,这个工会的规则是什么?
-
不是故意的,我的错
-
你想对奇怪的东西做些什么,比如组合变音符号、从左到右的标记、零宽度空间、整罐虫子?
-
您是否多次处理每个单独的字符串?如果是这样,那么我建议对它们进行预排序/规范化,以便您可以进行简单的并行迭代以稍后形成单个联合。
标签: string performance