【发布时间】:2018-05-10 16:27:16
【问题描述】:
我正在使用 apache nutch 来抓取网站。当我使用readseg 命令读取段中的内容时,我得到的格式如下:
有没有办法以纯文本格式获取网络数据? when I am using readseg command on parse text I am getting in this way
【问题讨论】:
-
在我看来像文本。你期望得到什么?
-
实际上,我正在从职位门户网站提取职位描述数据。我只想提取作业名称及其描述。但是当我爬行时,我得到了问题中提到的格式。有没有办法像我的要求一样以纯文本格式提取数据?
-
下次在问题中包含您正在执行的命令,否则很难知道您尝试了什么,或者您尝试了哪些标志。
-
感谢您的帮助。我在内容、解析、解析文本、解析数据上使用了 readseg 命令。在任何地方我都只能获取元数据。例如,如果我想读取解析文本,我使用 bin/nutch readseg -dump crawler/stat1/segments/20180509083305 urlcontent -nofetch -nocontent -noparse -noparsedata -nogenerate 之类的命令
标签: html hadoop web-crawler bigdata nutch