【问题标题】:Is there an implementation of the Penn Treebank Tokenizer in Perl?Perl 中是否有 Penn Treebank Tokenizer 的实现?
【发布时间】:2017-02-24 21:00:35
【问题描述】:

我正在寻找一个 Perl 模块,它是 this 的一个端口,我基本上可以在其中创建一个对象,调用一个 tokenize() 子例程,传入一堆文本并返回一个令牌列表。有这样的效果。如果它不存在,我会这样做,但重新发明轮子没有意义,对吧? :) TIA。

【问题讨论】:

标签: perl nlp


【解决方案1】:

我找不到完全匹配,但Lingua::EN::TaggerLingua::TreebankText::StemTagPOSLingua::Stem::SnowballTreex::EN 中的一个可以解决问题吗?

【讨论】:

  • 谢谢。我发现了几个执行标记化的 Perl 模块,但它们并没有明确说它们是 Treebank 的端口,所以我不能完全确定它们是否在遵循它。您建议的模块实际上是用于处理 Treebank 格式的数据或用于词干提取(例如:取一个词“滑雪”并将其简化为“滑雪”),而不是取一个句子并将其划分为诸如:“as”、“opposed”、“to”、“take”、“a”、“sentence”、“and”、“dividing”、“it”、“up”、“into”、“tokens”、“like” ,“:”。抱歉之前没说清楚。
  • 您可能会阅读“高阶 Perl”部分的标记化,这可能很容易编写。这本书在网上免费。
  • 酷,我去看看!是的,我有一种感觉,我会写这个。没什么大不了的,因为它是一个非常短的 sed 脚本,实际上已经看起来像 Perl,但仍然如此。 :)
  • 一个警告。标准 sed 脚本(来自cis.upenn.edu/~treebank/tokenization.html)是一个很好的起点,但并未宣传为完全符合 Penn Treebank 标准(请参阅该页底部的注释)。例如,树库拆分“Ph.D.”进入'Ph。 D。并将这两个部分标记为 NNP(合适,因为它是哲学博士的缩写)。 sed 版本不处理这种情况。我怀疑可能还有其他一些边缘情况。
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 2012-08-21
  • 2017-10-22
  • 1970-01-01
  • 2011-07-27
  • 1970-01-01
  • 1970-01-01
  • 2013-05-29
相关资源
最近更新 更多