【发布时间】:2019-04-27 17:15:17
【问题描述】:
例如,句子是"The corporate balance sheets data are available on an annual basis",我需要标记"corporate balance sheets",它是从给定句子中找到的子字符串。
所以,我需要找到的模式是:
"corporate balance sheets"
给定字符串:
"The corporate balance sheets data are available on an annual basis".
我想要的输出标签序列将是:
[0, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0]
有一堆句子(超过 2GB),还有一堆我需要找到的模式。我不知道如何在 python 中有效地做到这一点。谁能给我一个好的算法?
【问题讨论】:
标签: python nlp string-matching preprocessor labeling