BeautifulSoup：如何从包含一些嵌套 <ul> 的 <ul> 列表中提取所有 <li>？答案

【问题标题】：BeautifulSoup: How do I extract all the <li>s from a list of <ul>s that contains some nested <ul>s?BeautifulSoup：如何从包含一些嵌套 <ul> 的 <ul> 列表中提取所有 <li>？
【发布时间】：2011-05-20 18:20:11
【问题描述】：

我是一名新手程序员，试图通过构建一个脚本来抓取http://en.wikipedia.org/wiki/2000s_in_film 并提取“电影标题（年份）”列表，从而进入 Python。我的 HTML 源代码如下所示：

<h3>Header3 (Start here)</h3>
<ul>
    <li>List items</li>
    <li>Etc...</li>
</ul>
<h3>Header 3</h3>
<ul>
    <li>List items</li>
    <ul>
        <li>Nested list items</li>
        <li>Nested list items</li></ul>
    <li>List items</li>
</ul>
<h2>Header 2 (end here)</h2>

我想要在第一个 h3 标记之后并在下一个 h2 标记处停止的所有 li 标记，包括所有嵌套的 li 标记。

firstH3 = soup.find('h3')

...正确地找到了我想开始的地方。

firstH3 = soup.find('h3') # Start here
uls = []
for nextSibling in firstH3.findNextSiblings():
    if nextSibling.name == 'h2':
        break
    if nextSibling.name == 'ul':
        uls.append(nextSibling)

...给我一个列表 uls，每个列表都有我需要的 li 内容。

uls 列表摘录：

<ul>
...
    <li><i><a href="/wiki/Agent_Cody_Banks" title="Agent Cody Banks">Agent Cody Banks</a></i> (2003)</li>
    <li><i><a href="/wiki/Agent_Cody_Banks_2:_Destination_London" title="Agent Cody Banks 2: Destination London">Agent Cody Banks 2: Destination London</a></i> (2004)</li>
    <li>Air Bud series:
        <ul>
            <li><i><a href="/wiki/Air_Bud:_World_Pup" title="Air Bud: World Pup">Air Bud: World Pup</a></i> (2000)</li>
            <li><i><a href="/wiki/Air_Bud:_Seventh_Inning_Fetch" title="Air Bud: Seventh Inning Fetch">Air Bud: Seventh Inning Fetch</a></i> (2002)</li>
            <li><i><a href="/wiki/Air_Bud:_Spikes_Back" title="Air Bud: Spikes Back">Air Bud: Spikes Back</a></i> (2003)</li>
            <li><i><a href="/wiki/Air_Buddies" title="Air Buddies">Air Buddies</a></i> (2006)</li>
        </ul>
    </li>
    <li><i><a href="/wiki/Akeelah_and_the_Bee" title="Akeelah and the Bee">Akeelah and the Bee</a></i> (2006)</li>
...
</ul>

但我不确定从这里去哪里。

更新：

最终代码：

lis = []
    for ul in uls:
        for li in ul.findAll('li'):
            if li.find('ul'):
                break
            lis.append(li)

    for li in lis:
        print li.text.encode("utf-8")

if...break 会抛出包含 UL 的 LI，因为嵌套的 LI 现在是重复的。

现在的打印输出是：

102 斑点狗(2000)

10th & Wolf (2006)

11:14(2006)

12:08 布加勒斯特以东(2006)

13 继续 30(2004)

1408(2007)

...

【问题讨论】：

你问错问题了。您已经完成了问题标题中的内容，并且正在询问如何填写表格/对象/某物。请更新您的问题以反映这一点（并说明您所说的表格是什么意思 - 数据库表格或字典或其他内容，或者您不知道）。
我并不是想用最后一句话来混淆我的问题，所以我会澄清一下。现在我有一个带有子
的