【问题标题】:extracting and parsing wikipedia articles提取和解析维基百科文章
【发布时间】:2013-11-02 22:17:52
【问题描述】:

我有 xml 格式的维基百科文章,我只需要提取项目文章中的单词。我在 XML 解析方面没有经验。有没有提取所有单词的工具或库?

【问题讨论】:

  • 最好的开始方式是谷歌搜索 extracting and parsing wikipedia article 并添加您选择的编程语言的名称。
  • @Pekka웃 这里又快又脏:bit.ly/16WJEPo

标签: html xml-parsing


【解决方案1】:

如果您喜欢 Python,Beautiful Soup 是一个不错的选择。

如果您不喜欢 Python,请了解 Python。

【讨论】:

    【解决方案2】:

    Nokogiri 是一个强大的 Ruby 库,可以满足您的需求。

    它允许您遍历 XML 和 HTML 文档并使用 xpath 或 CSS3 选择器来选择某些元素,例如文章文本。

    【讨论】:

    • 也是一个不错的选择。我碰巧认为如果你是从零开始,Python 的入门门槛比 Ruby 低,但如果你喜欢 Ruby(我也喜欢),这是一个不错的选择。
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2012-01-09
    • 1970-01-01
    • 2012-01-31
    • 2011-04-22
    • 2011-05-26
    • 2012-12-07
    相关资源
    最近更新 更多