提取和解析维基百科文章

【问题标题】：extracting and parsing wikipedia articles提取和解析维基百科文章
【发布时间】：2013-11-02 22:17:52
【问题描述】：

我有 xml 格式的维基百科文章，我只需要提取项目文章中的单词。我在 XML 解析方面没有经验。有没有提取所有单词的工具或库？

【问题讨论】：

最好的开始方式是谷歌搜索 extracting and parsing wikipedia article 并添加您选择的编程语言的名称。
@Pekka웃 这里又快又脏：bit.ly/16WJEPo

标签： html xml-parsing

【解决方案1】：

如果您喜欢 Python，Beautiful Soup 是一个不错的选择。

如果您不喜欢 Python，请了解 Python。

【讨论】：

【解决方案2】：

Nokogiri 是一个强大的 Ruby 库，可以满足您的需求。

它允许您遍历 XML 和 HTML 文档并使用 xpath 或 CSS3 选择器来选择某些元素，例如文章文本。

【讨论】：

也是一个不错的选择。我碰巧认为如果你是从零开始，Python 的入门门槛比 Ruby 低，但如果你喜欢 Ruby（我也喜欢），这是一个不错的选择。

猜你喜欢

1970-01-01
1970-01-01
1970-01-01
2012-01-09
1970-01-01
2012-01-31
2011-04-22
2011-05-26
2012-12-07

相关资源

下载 2022-12-28
下载 2021-06-06
下载 2022-12-26

最近更新更多

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode