【发布时间】:2018-07-08 21:52:47
【问题描述】:
我需要使用摘要和支持同义词自动生成出版物的类别。我有 800-900 篇文章的分类数据,可用于训练。此分类数据由制药专家通过阅读非结构化出版物生成。
现有出版物的现有分类类别如下:
- 药物:一些药物,一些其他药物。
- 疾病:某些疾病。
- 作者:一些作者等等..
这些类别目前由人类专家生成。我探索了 node.js 中的 Natural 库和 Java 中的 lingpipe。它有分类器,但我不知道什么是最有效的训练方法,所以我得到了 90% 的准确率。
以下是我心中的方法:
-
我可以一个一个地传递整个出版物的摘要,并告诉它它的类别,如下所示?
var natural = require('natural'); var classifier = new natural.BayesClassifier(); classifier.addDocument('This article is for parcetamol written by Techgyani. Article was written in 2012', 'year:2012'); classifier.addDocument('This article is for parcetamol written by Techgyani. Article was written in 2012', 'author:techgyani'); classifier.train(); -
我可以一句一句地传递它,并告诉它它的类别是什么,这将是手动和耗时的过程。这样当我传递整个摘要时,它会为我自动生成一组类别,如下所示:
var natural = require('natural'); var classifier = new natural.BayesClassifier(); classifier.addDocument('This article is for parcetamol written by Techgyani', 'drug:Paracetamol'); classifier.addDocument('This article is for parcetamol written by Techgyani', 'author:techgyani'); classifier.addDocument('Article was written in 2012', 'year:2012'); classifier.train(); 我还可以从出版物中提取标记并自行搜索我的数据库和图形类别,而无需使用任何 NLP/ML 库。
根据您的经验,解决此问题的最有效方法是什么?我愿意接受任何语言的解决方案,但我更喜欢 Javascript,因为现有堆栈使用 Javascript。
【问题讨论】:
标签: javascript machine-learning nlp