【发布时间】:2019-07-01 17:01:02
【问题描述】:
我想在使用 node.js 的文本文件上使用 NLP 词干提取,然后将其存储在某个输出文件中。如果您需要更多信息,请告诉我。
我正在使用 npm natural 和 PorterStemmer 做同样的事情,但没有成功。
function doStem(data){
var natural = require('natural');
//do procesing using WordTokenizer & PorterStemmer.
return nData;
}
如果我使用了正确的方法,请告诉我,或者如果有任何需要更正的地方,请告诉我。
更新:
function doStemming(data){
var natural = require('natural');
var tokenizer = new natural.WordTokenizer();
var tokens = tokenizer.tokenize(data);
stemmer = natural.PorterStemmer(data);
var nData = stemmer.stem(tokens);
//console.log(nData);
return nData;
}
这就是我正在做的事情。请提供一些关于如何使用标记化和 PorterStemmer 到文本文件而不是任何特定单词的想法
【问题讨论】:
-
问:[我该怎么做] 使用 node.js 对文本文件进行 NLP 词干提取? - 答:找到一个好的图书馆。问:我正在使用 npm natural 和 PorterStemmer 做同样的事情,但没有成功。 A:那么... Q:具体有什么问题?问:你能告诉我们如何在minimal reproducible example 中重现吗?
-
function doStemming(data){ var natural = require('natural'); var tokenizer = new natural.WordTokenizer(); var tokens = tokenizer.tokenize(data); stemmer = natural.PorterStemmer(data); var nData = stemmer.stem(tokens); //console.log(nData);返回 n 数据;这就是我正在做的事情。请提供一些关于如何使用标记化和 PorterStemmer 到文本文件而不是任何特定单词的想法。
-
附加信息会有所帮助。我冒昧地更新了您的原始帖子,并添加了一些标签。我仍然不清楚你想要完成什么,或者你在哪里被阻止。
-
当我运行更新后的代码时,出现以下错误
stemmer = natural.PorterStemmer(data); ^ TypeError: natural.PorterStemmer is not a function at doStemming (/home/vishabh/purify/stemer.js:39:21) at ReadStream.<anonymous> (/home/vishabh/purify/stemer.js:20:21) at emitOne (events.js:116:13) at ReadStream.emit (events.js:211:7) at addChunk (_stream_readable.js:263:12) at readableAddChunk (_stream_readable.js:250:11) at ReadStream.Readable.push (_stream_readable.js:208:10) at fs.read (fs.js:2051:12) -
你已经得到改掉在 cmets 中发布代码/日志 sn-ps 的习惯 :( 请用任何应该“格式化”的内容更新主帖子. 另外:错误消息表明这只是一个 Javascript 编码错误(不是您的词干库有问题,或者与 NLP 或词干本身有关的任何事情)。考虑尝试在一个minimal reproducible example。
标签: node.js nlp stemming porter-stemmer