【发布时间】:2012-12-26 13:20:07
【问题描述】:
我正在处理一些 html 解析,并且我很难定义一种方法来处理所提取的信息。
例如,考虑像这样的页面http://www.the-numbers.com/movies/1999/FIGHT.php。我想处理每个内容,例如The Numbers Rating、Rotten Tomatoes、Production Budget、Theatrical Release 等,以便存储每个“键”可能假设的值。
提取过程为我解决了,我不确定存储这些内容的正确方法。正如我所说,它们就像“钥匙”一样工作,所以dictionary 是一个非常直接的答案。我仍然很想在我正在构建的类中为每个“键”添加一个成员。
问题是,考虑到代码编写,在访问这些内容期间,哪种方法效果更好,以及这些方法是否是解决这个问题的最佳方法。
对于第一种情况,我会是这样的:
class Data:
def __init__(self):
self.data = dict()
def adding_data(self):
self.data["key1"] = (val1, val2)
self.data["key2"] = val3
self.data["key3"] = [val4, val5, val6, ...]
第二个:
class Data:
def adding_data(self):
self.key1 = (val1, val2)
self.key2 = val3
self.key3 = [val4, val5, val6, ...]
我考虑这个的原因是我正在使用BeautifulSoup API,我非常赞同他们在生成的“汤”上处理每个标签的方式。
soup = BeautifulSoup(data)
soup.div
soup.h2
soup.b
您认为哪种方式更人性化?有没有更好的方法来做到这一点?
【问题讨论】:
标签: python user-interface user-friendly