【问题标题】:Extract text using python使用python提取文本
【发布时间】:2019-02-11 06:47:15
【问题描述】:

我想从文本文件中提取特定部分。

示例 -

PASSED: 1  GETFILE /root/test/misc/ptolemy/erase_flash.csv  
PASSED: 4  MegaSCU -cfgclr -a0  
PASSED: 8  MegaSCU -adphwdevice -read devicetype 5 bus 1 slaveaddr 82 start 0 sz 256 -f SK83100192.vpd -a0  
PASSED: 28  VALUECHECK PACKAGE= 24.0.2-0013 in tty.log for 1 occurances!

我想从上面的文本中提取“GETFILE”、“MegaSCU”、“VALUECHECK”作为我的输出。 该文件很大,这些文本存储为列。

我正在寻找任何可以帮助我提取文本中“PASSED: X”之后的单词的选项

请帮忙。

【问题讨论】:

  • 你尝试了什么?什么没有奏效?请发布您的代码。
  • 原始文本首先在换行符(\n)上拆分,之后我遇到了上述格式。现在我的动机是在“PASSED: X”之后得到这个词
  • 请提供MCVE您遇到的详细问题。 SO 上的一般问题陈述是不够的。

标签: python-3.x text extraction


【解决方案1】:

方法一: 您可以保持简单并执行以下操作:

sample_txt = "PASSED: 1  GETFILE /root/test/misc/ptolemy/erase_flash.csv"

if sample_txt.startswith("PASSED"):
    output = " ".join(sample_txt.split(" ")[2:]).strip()

output 会给出以下结果:

>>> GETFILE /root/test/misc/ptolemy/erase_flash.csv

方法 2:要考虑空格的变化,您可以使用 re 模块

import re

sample_txt = "PASSED: 28  VALUECHECK PACKAGE= 24.0.2-0013 in tty.log for 1 occurances!"

if sample_txt.startswith("PASSED"):
    output = re.split("\\s+", sample_txt)[2]
>>> VALUECHECK

【讨论】:

  • 感谢您的回答,我只想将“GETFILE”作为我的输出。
  • 我已经用另一种方法更新了答案,该方法使用re 模块来解释空格的变化。选择数组中的第三个元素应该返回你想要的文本。
  • 非常感谢。我得到了解决方案
【解决方案2】:

我假设 X 总是一个整数。

因此,您可以删除字符串“PASSED:”的开头,然后读取数字。然后提取直到下一个空格。

【讨论】:

  • 是的,X 是一个整数,它在文本文件中没有排序。我也想排除数字,只是后面的部分是需要提取的。请帮助我的逻辑
猜你喜欢
  • 2015-02-21
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2021-04-20
  • 2017-02-13
  • 2012-09-18
  • 1970-01-01
  • 2010-09-24
相关资源
最近更新 更多