从 nutch 以纯文本格式获取数据答案

【问题标题】：getting data from nutch in plain text format从 nutch 以纯文本格式获取数据
【发布时间】：2018-05-10 16:27:16
【问题描述】：

我正在使用 apache nutch 来抓取网站。当我使用readseg 命令读取段中的内容时，我得到的格式如下：

【问题讨论】：

在我看来像文本。你期望得到什么？
实际上，我正在从职位门户网站提取职位描述数据。我只想提取作业名称及其描述。但是当我爬行时，我得到了问题中提到的格式。有没有办法像我的要求一样以纯文本格式提取数据？
下次在问题中包含您正在执行的命令，否则很难知道您尝试了什么，或者您尝试了哪些标志。
感谢您的帮助。我在内容、解析、解析文本、解析数据上使用了 readseg 命令。在任何地方我都只能获取元数据。例如，如果我想读取解析文本，我使用 bin/nutch readseg -dump crawler/stat1/segments/20180509083305 urlcontent -nofetch -nocontent -noparse -noparsedata -nogenerate 之类的命令

【解决方案1】：

readseg 命令转储（默认情况下）从 URL 获取的原始内容。这是传输的整个 HTML 内容。如果要获取文本内容，则需要等到内容被解析后。这意味着您需要执行整个爬网周期（或./bin/nutch parse 命令）。

检查 readseg 命令 (https://wiki.apache.org/nutch/bin/nutch_readseg) 上的不同选项，如果您已经在执行解析步骤，您可能只关心解析后的内容，因此您可以避免打印其他所有内容。

【讨论】：

即使我在每个段目录上使用上面提到的 readseg 命令，我也只能从该 URL 获取元数据，而不是任何文本数据。
如果您指定 -noparse 标志，则表示您不想要解析的数据，即文本。
嘿，你能看到我问题中的图像吗？这就是我在解析文本上使用 readseg 时得到的文本。除了描述之外，我正在获取该网页中的所有文本。你能帮帮我吗？
嘿，我完成了所有进程的注入、生成、获取、解析、updatedb、invertinglinks。请您直接告诉我命令以文本格式查看我的抓取数据，例如在 readseg 之后保留哪些以及不保留哪些，即 -nocontent -nofetch 等....