【发布时间】:2019-08-07 09:54:08
【问题描述】:
我正在尝试抓取this Wikipedia page。
我遇到了一些问题,希望得到您的帮助:
有些行有多个名称或链接,我希望将它们全部分配到正确的国家/地区。反正我能做到吗?
我想跳过“名称(本地)”列。我该怎么做?
如果我正在抓取“名称(本地)”列。我得到了一些乱码,无论如何要编码吗?
import requests
from bs4 import BeautifulSoup
import csv
import pandas as pd
url = 'https://en.wikipedia.org/wiki/List_of_government_gazettes'
source = requests.get(url).text
soup = BeautifulSoup(source, 'lxml')
table = soup.find('table', class_='wikitable').tbody
rows = table.findAll('tr')
columns = [col.text.encode('utf').replace('\xc2\xa0','').replace('\n', '') for col in rows[1].find_all('td')]
print(columns)
【问题讨论】:
标签: python pandas python-2.7 beautifulsoup wikipedia