【发布时间】:2015-02-21 13:35:55
【问题描述】:
我有以下代码,我想用它来提取<font color='#FF0000'> and </font> 之间的文本信息。它工作正常,但它只提取一个单元(第一个),而我想提取这些标签之间的所有文本单元。我尝试使用 bash 循环代码来执行此操作,但没有成功。
import os
directory_path ='C:\\My_folder\\tmp'
for files in os.listdir(directory_path):
print(files)
path_for_files = os.path.join(directory_path, files)
text = open(path_for_files, mode='r', encoding='utf-8').read()
starting_tag = '<font color='
ending_tag = '</font>'
ground = text[text.find(starting_tag):text.find(ending_tag)]
results_dir = 'C:\\My_folder\\tmp'
results_file = files[:-4] + 'txt'
path_for_files = os.path.join(results_dir, results_file)
open(path_for_files, mode='w', encoding='UTF-8').write(result)
【问题讨论】:
-
我想如果你想要不止一个,你应该使用 find_all 之类的东西。
标签: python xml bash loops text-extraction