【发布时间】:2022-01-20 00:23:45
【问题描述】:
我有涉及一些编码分配的 NLP 问题,例如“fn_point->extract.isolate_r”,当我使用word_tokenize 时,分配“->”会像这样["fn_point-", ">", "extract.isolate_r"] 拆分。
我做了以下事情:
from nltk.tokenize import word_tokenize
sentence = "The functional list fn_point->extract.isolate_r of size 32 is not valid"
new_sent = word_tokenize(sentence)
print(new_sent)
“->”是c编程语言中的赋值运算符,如何保持为一个单词?
【问题讨论】:
-
嗯,这不是“自然语言”。您必须对其进行后处理以搜索“->”并加入其周围的标记。
标签: python python-3.x regex string nltk