【问题标题】:getting data from nutch in plain text format从 nutch 以纯文本格式获取数据
【发布时间】:2018-05-10 16:27:16
【问题描述】:

我正在使用 apache nutch 来抓取网站。当我使用readseg 命令读取段中的内容时,我得到的格式如下:

有没有办法以纯文本格式获取网络数据? when I am using readseg command on parse text I am getting in this way

【问题讨论】:

  • 在我看来像文本。你期望得到什么?
  • 实际上,我正在从职位门户网站提取职位描述数据。我只想提取作业名称及其描述。但是当我爬行时,我得到了问题中提到的格式。有没有办法像我的要求一样以纯文本格式提取数据?
  • 下次在问题中包含您正在执行的命令,否则很难知道您尝试了什么,或者您尝试了哪些标志。
  • 感谢您的帮助。我在内容、解析、解析文本、解析数据上使用了 readseg 命令。在任何地方我都只能获取元数据。例如,如果我想读取解析文本,我使用 bin/nutch readseg -dump crawler/stat1/segments/20180509083305 urlcontent -nofetch -nocontent -noparse -noparsedata -nogenerate 之类的命令

标签: html hadoop web-crawler bigdata nutch


【解决方案1】:

readseg 命令转储(默认情况下)从 URL 获取的 原始 内容。这是传输的整个 HTML 内容。如果要获取文本内容,则需要等到内容被解析后。这意味着您需要执行整个爬网周期(或./bin/nutch parse 命令)。

检查 readseg 命令 (https://wiki.apache.org/nutch/bin/nutch_readseg) 上的不同选项,如果您已经在执行解析步骤,您可能只关心解析后的内容,因此您可以避免打印其他所有内容。

【讨论】:

  • 即使我在每个段目录上使用上面提到的 readseg 命令,我也只能从该 URL 获取元数据,而不是任何文本数据。
  • 如果您指定 -noparse 标志,则表示您不想要解析的数据,即文本。
  • 嘿,你能看到我问题中的图像吗?这就是我在解析文本上使用 readseg 时得到的文本。除了描述之外,我正在获取该网页中的所有文本。你能帮帮我吗?
  • 嘿,我完成了所有进程的注入、生成、获取、解析、updatedb、invertinglinks。请您直接告诉我命令以文本格式查看我的抓取数据,例如在 readseg 之后保留哪些以及不保留哪些,即 -nocontent -nofetch 等....
猜你喜欢
  • 2021-06-11
  • 2012-10-16
  • 2019-04-26
  • 1970-01-01
  • 1970-01-01
  • 2021-05-09
  • 1970-01-01
  • 2021-11-12
  • 2015-12-08
相关资源
最近更新 更多