【问题标题】:python beautifulsoup4 extract specefic datapython beautifulsoup4 提取特定数据
【发布时间】:2018-05-10 01:43:48
【问题描述】:

大家好,我想提取一些这样的数据,我正在使用 python 3.6 和 BeautifulSoup4,感谢您的帮助:

from bs4 import BeautifulSoup

source = html_data = """
        <span class="some_data">
            title 1 : data 1
            <br/>
            title 2 : data 2
            <br/>
            title 3 : data 3
            <br/>
            <span class="meta_data">
                other additional data
            </span>
        </span>
    """

soup = BeautifulSoup(source, 'lxml')

data = soup.find("span", class_="some_data").text

print(data)

# how to get only this : title 1 : data 1 / title 2 : data 2  / title 3 : data 3
# without  :    <span class="meta_data">
#                   other additional data
#               </span>

【问题讨论】:

  • 酷...我想成为宇宙的主人。那么你的问题是什么?你的代码在哪里?
  • @Andersson 很好,我已经放了代码
  • 我不确定您是否可以使用 BeautifulSoup 获得所需的输出,但您可以使用 lxml.html 和 XPath //span[@class="some_data"]/text() 获得它

标签: python-3.x web-scraping beautifulsoup


【解决方案1】:

谢谢我已经解决了我的问题,这里是代码:

from lxml.html import fromstring

source = fromstring(source)

result = source.xpath("//span[@class='some_data']/text()")

for i in result :
    print(i.strip())

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2020-09-26
    • 1970-01-01
    • 2016-03-21
    • 1970-01-01
    • 2020-07-13
    • 2019-08-12
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多