【发布时间】:2021-03-22 19:01:56
【问题描述】:
我抓取了需要格式化为表格的 HTML 文本。我想用粗体标签提取所有内容:<b></b> 我有以下代码:
import pandas as pd
html='<b>HR</b>Shohei Ohtani<br><b>2B</b>Mike Trout(2)/<br><b>SF</b>Billy Bob'
到目前为止,我已尝试将其放入列表,然后放入数据框:
html_list=html.split('br')
html_df=pd.DataFrame(html_list,columns=['content'])
这会产生:
print(html_df)
content
0 <b>HR</b>Shohei Ohtani<
1 ><b>2B</b>Mike Trout(2)/<
2 ><b>SF</b>Billy Bob
我想要这个:
print(html_df)
content var
0 <b>HR</b>Shohei Ohtani< HR
1 ><b>2B</b>Mike Trout(2)/< 2B
2 ><b>SF</b>Billy Bob SF
我尝试使用美丽的汤和 .findall,但无济于事。我对不同的方法持开放态度,包括颠倒我的一些步骤。
【问题讨论】:
标签: html python-3.x pandas selenium-webdriver beautifulsoup