Perl 中是否有 Penn Treebank Tokenizer 的实现？答案

【问题标题】：Is there an implementation of the Penn Treebank Tokenizer in Perl?Perl 中是否有 Penn Treebank Tokenizer 的实现？
【发布时间】：2017-02-24 21:00:35
【问题描述】：

我正在寻找一个 Perl 模块，它是 this 的一个端口，我基本上可以在其中创建一个对象，调用一个 tokenize() 子例程，传入一堆文本并返回一个令牌列表。有这样的效果。如果它不存在，我会这样做，但重新发明轮子没有意义，对吧？ :) TIA。

【问题讨论】：

链接失效：web.archive.org/web/20151201051654/http://www.cis.upenn.edu/…
将sed 移植到perl 应该很容易；P

标签： perl nlp

【解决方案1】：

我找不到完全匹配，但Lingua::EN::Tagger、Lingua::Treebank、Text::StemTagPOS、Lingua::Stem::Snowball 或 Treex::EN 中的一个可以解决问题吗？

【讨论】：

谢谢。我发现了几个执行标记化的 Perl 模块，但它们并没有明确说它们是 Treebank 的端口，所以我不能完全确定它们是否在遵循它。您建议的模块实际上是用于处理 Treebank 格式的数据或用于词干提取（例如：取一个词“滑雪”并将其简化为“滑雪”），而不是取一个句子并将其划分为诸如：“as”、“opposed”、“to”、“take”、“a”、“sentence”、“and”、“dividing”、“it”、“up”、“into”、“tokens”、“like” ，“：”。抱歉之前没说清楚。
您可能会阅读“高阶 Perl”部分的标记化，这可能很容易编写。这本书在网上免费。
酷，我去看看！是的，我有一种感觉，我会写这个。没什么大不了的，因为它是一个非常短的 sed 脚本，实际上已经看起来像 Perl，但仍然如此。 :)
一个警告。标准 sed 脚本（来自cis.upenn.edu/~treebank/tokenization.html）是一个很好的起点，但并未宣传为完全符合 Penn Treebank 标准（请参阅该页底部的注释）。例如，树库拆分“Ph.D.”进入'Ph。 D。并将这两个部分标记为 NNP（合适，因为它是哲学博士的缩写）。 sed 版本不处理这种情况。我怀疑可能还有其他一些边缘情况。