【发布时间】:2015-10-25 04:30:11
【问题描述】:
我有一个需要复制的文本文件语料库,但将每个文件限制为大致相同的字长,同时保持完整的句子。将{.?!} 中的任何标点符号视为句子边界是可以接受的。我可以用 python 做到这一点,但我正在尝试学习 bash,所以欢迎提出建议。我一直在考虑的方法是让我的目标词长超出几个词,然后将结果修剪到最后一个句子的边界。
我对@987654322@ 和wc 很熟悉,但我想不出将两者结合起来的方法。 head 的 man 文件未指明使用字数统计的方法,wc 的 man 文件未指明拆分文件的方法。
上下文:
我正在使用机器学习进行文本分类任务(使用weka,作为记录)。我想确保文本长度(在我的数据中变化很大)不会对结果产生太大影响。为此,我尝试在执行特征提取之前标准化我的文本长度。
【问题讨论】:
-
我不了解 bash,但这对我来说听起来不是一个好主意,因为这样可能会丢失重要信息。我将首先使用 TF-IDF 进行特征提取,然后进行卡方检验以保留更少的特征(仅重要的特征)。这将确保为每个文本保留重要特征,无论长度如何。你有这个问题吗?有更好的方法,但我不知道有什么会从原始文本中删除整个单词。
-
@IVlad 分类任务是基于文本复杂度(即可读性),所以缩短文本假定文本的所有部分具有大致相同的复杂度。丢失特定术语不是问题。
标签: bash machine-learning nlp feature-selection normalize