【问题标题】:Having trouble extracting text from inside scraped html tags using beautiful soup使用漂亮的汤从刮掉的 html 标签中提取文本时遇到问题
【发布时间】:2017-10-14 06:03:50
【问题描述】:

我用来抓取内容的代码

class Scraper(object):
# contains methods to scrape data from curse

def scrape(url):
    req = request.Request(url, headers={"User-Agent": "Mozilla/5.0"})
    return request.urlopen(req).read()

def lookup(page, tag, class_name):
    parsed = BeautifulSoup(page, "html.parser")
    return parsed.find_all(tag, class_=class_name)

这将返回一个包含与此类似的条目的列表

<li class="title"><h4><a href="/addons/wow/world-quest-tracker">World Quest Tracker</a></h4></li>

在这种情况下,我正在尝试提取 href 标记之间的文本

World Quest Tracker

我怎样才能做到这一点?

【问题讨论】:

    标签: python web-scraping beautifulsoup urllib


    【解决方案1】:

    试试这个。

    from bs4 import BeautifulSoup
    
    html='''
    <li class="title"><h4><a href="/addons/wow/world-quest-tracker">World Quest Tracker</a></h4></li>
    '''
    soup = BeautifulSoup(html, "lxml")
    for item in soup.select(".title"):
        print(item.text)
    

    结果:

    World Quest Tracker
    

    【讨论】:

      【解决方案2】:
      html_doc = '<li class="title"><h4><a href="/addons/wow/world-quest-tracker">World Quest Tracker</a></h4></li>'
      soup = BeautifulSoup(html_doc, 'html.parser')
      print soup.find('a').text
      

      这将打印出来

      u'世界任务追踪器'

      【讨论】:

        【解决方案3】:

        我正在尝试提取 href 标记之间的文本

        如果您确实想要href 属性中的文本,而不是&lt;a&gt;&lt;/a&gt; 锚点包裹的文本内容(您的措辞有点不清楚),请使用get('href')

        from bs4 import BeautifulSoup
        
        html = '<li class="title"><h4><a href="/addons/wow/world-quest-tracker">World Quest Tracker</a></h4></li>'
        soup = BeautifulSoup(html, 'lxml')
        soup.find('a').get('href')
        
        '/addons/wow/world-quest-tracker'
        

        【讨论】:

          猜你喜欢
          • 1970-01-01
          • 1970-01-01
          • 2019-09-06
          • 2015-11-19
          • 2017-08-15
          • 2020-02-13
          • 1970-01-01
          • 1970-01-01
          • 1970-01-01
          相关资源
          最近更新 更多