【发布时间】:2021-10-15 04:23:48
【问题描述】:
我有一个我提取的标签列表:
soup.findAll('div', {'class': 'formelement'}):
输出是:
[<div class="formelement">
<label class="libelle" for="field_tit">Etat :</label>
Publié </div>,
<div class="formelement">
<label class="libelle" for="field_tit">Type de produit :</label>
Plaque de plâtre </div>,
<div class="formelement">
<label class="libelle" for="field_tit">Numéro :</label>
PP/48-05 </div>,
<div class="formelement">
<label class="libelle" for="field_tit">Titulaire :</label>
CIA ESPAÑOLA DE AISLAMIENTOS SA </div>,
<div class="formelement">
<label class="libelle" for="field_ref">Usine :</label>
39 </div>,
<div class="formelement">
<label class="libelle" for="field_tit">Date d'admission :</label>
13/07/2017 </div>,
<div class="formelement">
<label class="libelle" for="field_tit">Date de reconduction :</label>
04/02/2021 </div>,
<div class="formelement">
<label class="libelle" for="field_tit">Date de fin de validité :</label>
04/05/2022 </div>,
<div class="formelement">
<label class="libelle" for="field_tit">Certificat PDF :</label>
<a href="application/docs/certificats/PP_48_05.pdf" target="_blank">
<img src="public/images/pdf.gif" title="Télécharger le certificat au format PDF"/>
</a>
</div>]
我的目标是有一个 dict :
product_data = {
"Numéro": "PP/48-05",
"Titulaire": "CIA ESPAÑOLA DE AISLAMIENTOS SA",
"Usine": "39",
"Date de fin de validité": "04/05/2022",
"Certificat PDF": "application/docs/certificats/PP_48_05.pdf"
}
我试过了
for div in soup.findAll('div', {'class': 'formelement'}):
product_data[div.text] = div.next_sibling
但它会获取标签内的所有字符串(显然)并且找不到任何方法来分别获取 div 内的两个字符串。如何单独获取这些字符串?
我希望我的问题足够明确。
【问题讨论】:
标签: python dictionary web-scraping beautifulsoup