如何在使用 python 抓取网站时获取标签的价值？答案

【问题标题】：How do I get value of tags while scraping a website with python?如何在使用 python 抓取网站时获取标签的价值？
【发布时间】：2020-08-06 02:29:38
【问题描述】：

我正在尝试抓取一个网站，这是 HTML 代码

<h2>Information</h2>
<div>
  <span class="dark_text">Type:</span>
  <a href="https://myanimelist.net/topanime.php?type=tv">TV</a>
</div>
<div class="spaceit">
  <span class="dark_text">Episodes:</span>
  12
</div>
<div class="spaceit">
  <span class="dark_text">Duration:</span>
  25 min. per ep.
</div>

我正在尝试在完整的 html 代码中获取 Episodes: & 12 和 Duration: & 25 min. per ep. 以及更多类似的内容。

我希望这些值作为字符串

我的python代码是

page_soup = soup(page_html, "html.parser")

spaceit = page_soup.findAll("div",{"class": "spaceit"})

我不知道如何找到span 和div 的值

【问题讨论】：

到底是什么问题？你有没有尝试过，做过任何研究？ BeautifulSoup 上有很多可用的信息，是什么让这种情况特别？请参阅How to Ask、help center。
stackoverflow.com/questions/5999407/…, stackoverflow.com/questions/16835449/…
这能回答你的问题吗？ Python BeautifulSoup extract text between element

标签： python beautifulsoup

【解决方案1】：

使用 select 然后运行 for 循环

例子

from bs4 import BeautifulSoup

html = '<h2>Information</h2>' \
       '<div>' \
       '<span class="dark_text">Type:</span>' \
       '<a href="https://myanimelist.net/topanime.php?type=tv">TV</a>' \
       '</div>' \
       '<div class="spaceit">' \
       '<span class="dark_text">Episodes:</span>12</div>' \
       '<div class="spaceit">' \
       '<span class="dark_text">Duration:</span>25 min. per ep.</div> '

page_soup = BeautifulSoup(html, features="lxml")
elements = page_soup.select('div.spaceit')

for element in elements:
    print(element.get_text())

【讨论】：

谢谢！我不知道谷歌如何找到 get_text() 函数。
stackoverflow.com/questions/5999407/…, stackoverflow.com/questions/16835449/…