【发布时间】:2015-04-11 11:15:01
【问题描述】:
我有很多文件,('05、'06 和 '07 的 NYTimes 语料库),我想通过 Stanford NER 运行它们,“简单”你可能会想,“只需按照README doc”,但如果你刚才这么想,那你就错了,因为我的情况有点复杂。我不希望它们都输出到乱七八糟的东西中,我想保留每个文件的命名结构,例如,一个文件被命名为1822873.xml,我之前使用以下命令对其进行了处理:
java -mx600m -cp /home/matthias/Workbench/SUTD/nytimes_corpus/stanford-ner-2015-01-30/stanford-ner-3.5.1.jar edu.stanford.nlp.ie.crf.CRFClassifier -loadClassifier classifiers/english.all.3class.distsim.crf.ser.gz -textFile /home/matthias/Workbench/SUTD/nytimes_corpus/1822873.xml -outputFormat inlineXML >> output.curtis
如果我要关注this question,即命令中一个接一个地列出了许多文件,然后将其传送到某个地方,那不就是将它们全部发送到同一个文件吗?这听起来像是最令人头疼的灾难。
有没有办法将每个文件发送到一个单独的输出文件,例如,我们的老朋友1822873.xml 会从这个过程中出现,比如1822873.output.xml,同样对于其他一千个奇怪的文件中的每一个.请记住,我正在努力实现这一目标expeditiously。
我想这应该是可能的,但最好的方法是什么?使用某种终端命令,或者编写一个小脚本?
也许你们当中有人对这类事情有一些经验。
感谢您的考虑。
【问题讨论】:
标签: java bash stanford-nlp