【问题标题】:what is the command in terminal to extract text from a file终端中从文件中提取文本的命令是什么
【发布时间】:2011-05-29 20:43:01
【问题描述】:

嘿,谁能告诉我在终端中编写命令,使用

  • 、<td>...等标签从 html 文件中提取文本。 .and $var="strings" 和 javascript 函数使用 msgstring.... <p>->我正在考虑将这些标签放在一个文本文件中...</p> <p>->然后我想在终端命令的帮助下匹配标签...</p> <p>->然后我必须将其放入转储文件(文本)...</p> <p>因为...我想用语言偏好更改文本...</p> <p>我也尝试过使用 awk 脚本和 egrep....但结果很差...</p> <p>【问题讨论】:</p> <div class="cmets"> <ul class="comlist"> <li> <div class="comtext"> <div class="combody"> <span class="comcopy"><a href="/default/index/tourl?u=aHR0cDovL3N0YWNrb3ZlcmZsb3cuY29tL2VkaXRpbmctaGVscA%3D%3D" target="_blank" rel="nofollow">stackoverflow.com/editing-help</a></span> </div> </div> </li> </ul> </div> </td>
  • 标签: php javascript html linux terminal


    【解决方案1】:

    这是我的答案。

    egrep -i -r -f myfile.txt [path] > dumpdata.txt
    

    它的工作。但是我不得不通过清理所有的javascript函数和包含字符串的php变量值来解析更多。

    【讨论】:

      【解决方案2】:

      这正是pandoc 的用途。

      pandoc filename.html -f html -t plain -o filename.txt
      

      另外,生成的纯文本格式精美。

      Pandoc Manual

      【讨论】:

        【解决方案3】:

        像这样使用正则表达式:

        perl -pne '/<strong>(.*)?<\/strong>/;' file
        

        当然,我猜你的正则表达式会更复杂。

        【讨论】:

        • 这样会花费很多时间...我必须输入每个标签一次然后解析它...如果我将所有标签都放在一个文本中会更好文件并将该文件与我需要解析的文件匹配....
        【解决方案4】:

        您可能想澄清您的问题(示例输入和预期输出可能会有所帮助)。 “终端中的命令”是指 shell 命令。

        这似乎很重要,您可能需要编写一个 shell 脚本。见Advanced Bash-Scripting Guide。但正如 sleske 所指出的,我也推荐一些更高级的脚本语言(perl/python)。

        【讨论】:

          【解决方案5】:

          使用 awk 和 egrep 可能意味着使用正则表达式来解析 HTML。这是一个坏主意。见this famous answer

          相反,使用 HTML 解析器。有关 HTML 解析器的链接,请参阅上面链接中的其他答案。

          关于解析PHP源码:

          由于它在结构上类似于 HTML,因此您可以使用(宽容的)HTML 解析器。否则,请使用 PHP 解析器。参见例如this answer.

          【讨论】:

          • 我不仅需要解析 html,,php...我认为 egrep 会工作...但我没有得到确切的术语....
          • @codaddict:你试过滚动页面吗? :-)
          猜你喜欢
          • 2014-12-15
          • 2017-02-13
          • 2019-04-14
          • 2023-03-14
          • 1970-01-01
          • 1970-01-01
          • 2020-09-18
          • 2015-05-20
          • 1970-01-01
          相关资源
          最近更新 更多