【发布时间】:2010-12-09 09:11:29
【问题描述】:
我想将 HTML 转换为纯文本,但保留最小结构。
- 包含只有浏览器需要查看的内容的所有部分,例如要完全剥离的
- 将所有块标记转换为 并将所有内联标记转换为 或 完全删除内联而不留下空格,并将块级别描述的任何内容转换为带有两个换行符的段落。
这个想法是将随机网页变成适合自然语言文本处理的东西,而不会因为天真地删除标记而人为地打断单词或使不相关的块看起来像句子而留下人工制品。
任何编程语言的任何二进制文件、库或源代码都可以。
是否有一个标准源,最好是机器可读的,其中包含定义哪些是块、哪些内联以及哪些类似于上面的
【问题讨论】:
标签: html filter text-processing text-extraction text-formatting