【问题标题】:Is there a Python function to mark the beginning and end of sentences with a specific character after tokenizing?是否有 Python 函数可以在标记化后用特定字符标记句子的开头和结尾?
【发布时间】:2021-03-13 23:07:18
【问题描述】:

with tokenize 我知道您可以将文本拆分为单个单词,但我对如何在标记化后添加字符来指示句子的开头和结尾感到困惑。就我而言,我想用^ 表示句子的开头,$ 表示句子的结尾。我之所以问,是因为我正在尝试实施二元概率模型,这是针对学校作业的,这就是为什么这是一个重新发明轮子的问题。

【问题讨论】:

  • 如果您将相关代码添加到您的问题中会有所帮助。

标签: python tokenize


【解决方案1】:

tokenize 是 python 发行版的一部分,旨在解析 python 源代码。这实际上是解决您问题的好工具吗?你试过nltk吗?

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2023-03-31
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2023-01-10
    相关资源
    最近更新 更多