【问题标题】:Parse Wiktionary解析维基词典
【发布时间】:2011-12-05 23:38:12
【问题描述】:

是否有任何 .Net 库来解析我通过 mediawiki api 检索到的页面?一个标准的 mediawiki 解析器可以只给出标题和纯数据中的数据就可以了,但我宁愿有一个特别适合维基词典的,一个可以给我它是什么类型的词和所有定义的。

我不想为此编写自己的解析器。有什么建议吗?

【问题讨论】:

  • 您从 API 使用哪种输出格式?目前有 9 个可供选择...
  • @Alex 有很多例子,从这里开始:mediawiki.org/wiki/API:Parsing_wikitext
  • 我不知道有任何 API 或客户端库会以结构化格式(与 HTML 或原始维基文本相反)提供维基词典数据。再说一次,我也没怎么看。
  • 我说得太早了——刚刚发布了上面的评论,我发现this answer 提到了JWKTL。不过,它是用 Java 编写的,而不是 C#。

标签: c# .net wiki mediawiki-api wiktionary


【解决方案1】:

dbnary 项目以 RDF 形式提供来自维基词典的解析信息。

如果您想进一步处理某些内容,我会提供从 dbnary 数据生成的 SQLite 和 TEI 文件,作为我的 WikDict 项目的一部分 download.wikdict.com

这并不能真正回答 .net 库的问题,但我相信您会很容易找到可以读取 XML (TEI)、SQLite 或 RDF 的库。

【讨论】:

    【解决方案2】:

    如果您以 JSON 格式获取输出,则可以使用许多选项,包括 .NET 内置和框架本身的外部选项。

    如果您以 XML 形式获得输出,那么 .NET 框架本身和框架之外都有强大的 XML 操作类。

    您必须更具体——提供格式和一些示例输出。

    【讨论】:

    • 我用这个:en.wiktionary.org/w/… 它带有 wiki 代码,与您在 mediawiki 中输入以创建页面的代码相同。
    猜你喜欢
    • 1970-01-01
    • 2011-02-15
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2010-10-07
    • 2011-04-22
    • 2011-12-22
    • 2013-03-15
    相关资源
    最近更新 更多