【发布时间】:2020-02-18 23:45:59
【问题描述】:
我正在制作一本字典,用于查找西班牙语中的单词并为我提供相应的英文翻译。我是BeautifulSoup 的新手,所以我利用这个机会学习网络抓取。
网页链接是https://www.spanishdict.com/translate/rojo。 我只是输入了“rojo”作为示例。
但是,在我成功提取翻译后,我也想提取一些例句,但在这里我遇到了一个问题。我无法提取 <span> WITHOUT 类名中的任何一个句子。
我试过了
soup.find_all(name='div', class_='indent--FyTYr')
但是该类中弹出了许多不必要的信息。
我还注意到the link 提到previous_sibling 的帖子中的一个答案,但它没有用。
示例 html 代码如下所示:
<div class="indent--FyTYr">
<div>
<span>The sky turned red at sundown.</span>
<span class="dash--SIa20"></span>
<em class="exampleDesktop--3n1hN">El cielo se tornó rojo al atardecer.</em>
</div>
...
</div>
我想从上面的 html 示例代码中提取句子。但是我还没有找到任何有用的方法来定位和提取。
日落时天空变红了。
【问题讨论】:
标签: python html web-scraping beautifulsoup