【发布时间】:2014-03-27 18:07:54
【问题描述】:
我正在编写一个网络爬虫,它扫描一组特定的关键字,然后根据我分配给每个关键字的累积分数(programming=1,clojure=2)为它遇到的每个域分配一个全局分数, javascript=-1 等...)。
我已将关键字评分设置为 -10 到 10 的滑动等级,并且我的初始值基于我自己对什么相关和不相关的假设。
我觉得我的评分模型可能存在缺陷,我更愿意将与我试图捕获的标准相匹配的域列表提供给分析工具,并根据某种统计分析优化我的关键字权重。
为“已知良好领域”列表生成最佳评分模型的合适分析技术是什么?这个问题是否适合贝叶斯学习、蒙特卡罗模拟或其他一些技术?
【问题讨论】:
-
基本上你是说你有一组好的域,你想根据内容找到其他相似的域?你也有负面域名吗?这似乎是一个典型的监督学习/文档分类任务,您的目标“文档”是来自给定域的文档集合。
标签: machine-learning statistics modeling