【问题标题】:BS4 webscraping to CSV file, think i am grabbing too may rows ('tr')sBS4 网页抓取到 CSV 文件,我想我也抓取了可能的行('tr')
【发布时间】:2019-12-30 05:02:01
【问题描述】:

我的网页抓取代码抓取的数据行比我需要的多。我想为每个玩家抓取行,看起来这些“tr”都包括:-

<tr class="diff-row evTabRow bc"  

我想要获取的 TD 数据也是:-
数据-odig=
从下表数据列表中:-

<td class="bc bs o" data-bk="B3" data-odig="9" data-o="8" data-hcap="" data-fodds="9.0" data-ew-denom="4" data-ew-places="5" xpath="1"><p>9</p></td>

代码正在提取
数据-o=
td 这对我来说是有问题的,因为有时表示为分数。

任何建议表示赞赏

我是编码新手,python 是我的第一次尝试。 我的代码主要是根据我从 youtube 上获取的内容编写的,并复制了其他人试图满足我的需求。我试图编辑以具体说明要包含的表行和数据的类型,但找不到有效的答案(许多语法错误)。我怀疑我有一两行也没有做任何事情。

url = 'https://www.oddschecker.com/golf/the-masters/2020-us-masters/winner'

r = requests.get(url,headers = header)
soup = BeautifulSoup(r.text,'lxml')
table = soup.findAll("table")[1]

rows_list = []

for rows in table.findAll('tr'):
    cell_list = []
    for cell in rows.findAll('td'):
        text=cell.text
        cell_list.append(text)
    rows_list.append(cell_list)

【问题讨论】:

  • 感谢 martineau - 你已经解决了我的表格行问题。
  • 如何从以下数据中获取 data-odig= 值我想从这个示例中检索值 9 -

    9

标签: python web-scraping html-table beautifulsoup export-to-csv


【解决方案1】:

find()findAll()/find_all() 可以获取其他参数来过滤结果

findAll('tr', {'class': 'diff-row evTabRow bc'})

findAll('tr', class_='diff-row evTabRow bc')

如果属性必须存在但它可能有不同的值,你可以使用True

findAll('td', {'data-o': True})

BeautifulSoup 的文档中查看更多信息

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2021-01-28
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多