【发布时间】:2021-03-13 23:07:18
【问题描述】:
with tokenize 我知道您可以将文本拆分为单个单词,但我对如何在标记化后添加字符来指示句子的开头和结尾感到困惑。就我而言,我想用^ 表示句子的开头,$ 表示句子的结尾。我之所以问,是因为我正在尝试实施二元概率模型,这是针对学校作业的,这就是为什么这是一个重新发明轮子的问题。
【问题讨论】:
-
如果您将相关代码添加到您的问题中会有所帮助。
with tokenize 我知道您可以将文本拆分为单个单词,但我对如何在标记化后添加字符来指示句子的开头和结尾感到困惑。就我而言,我想用^ 表示句子的开头,$ 表示句子的结尾。我之所以问,是因为我正在尝试实施二元概率模型,这是针对学校作业的,这就是为什么这是一个重新发明轮子的问题。
【问题讨论】:
tokenize 是 python 发行版的一部分,旨在解析 python 源代码。这实际上是解决您问题的好工具吗?你试过nltk吗?
【讨论】: