【发布时间】:2016-11-04 10:39:18
【问题描述】:
我正在尝试抓取 http://emojipedia.org/emoji/ ,但我不确定最有效的方法是什么。我想抓取的内容在表 class="emoji_list" 中。我想将每个“td”中的内容保存在单独的列中。输出将如下所示,其中每行代表一个表情符号:
Col1_Link Col2_emoji Col3_Comment Col4_UTF
"/emoji/%F0%9F%98%80/" ???? Grinning Face U+1F600
到目前为止,我已经编写了以下代码,但我不确定最好的方法是什么。
import requests
from bs4 import BeautifulSoup
import urllib
import re
url = "http://emojipedia.org/emoji/"
html = urllib.urlopen(url)
soup = BeautifulSoup(html)
soup.findAll('tr', limit=2)
非常感谢您的帮助。
【问题讨论】:
标签: python web-scraping beautifulsoup python-requests