【发布时间】:2013-05-22 22:59:53
【问题描述】:
在 joksnet 的程序 here 的帮助下,我设法获得了我正在寻找的纯文本 Wikipedia 文章。
返回的文本包括标题的 Wiki 标记,例如,Albert Einstein article 的部分返回如下:
==Biography==
===Early life and education===
blah blah blah
我真正想做的是将检索到的文本提供给一个函数,并将所有顶级部分用粗体 html 标记包装,将第二级部分用斜体包装,如下所示:
<b>Biography</b>
<i>Early life and education</i>
blah blah blah
但恐怕我什至不知道如何开始,至少不会使功能变得幼稚。我需要使用正则表达式吗? 任何建议都非常感谢。
PS 对不起,如果“解析”这个词对于我在这里尝试做的事情来说太强了。
【问题讨论】:
-
为什么还要制作另一个解析器?难道你不能只 get the HTML from the API 并使用 JavaScript/CSS 更改/设置 h2 和 h3 标签的样式吗?
标签: python parsing mediawiki wikipedia