【问题标题】:Somebody knows about Wiktionary XML file structure?有人知道维基词典 XML 文件结构吗?
【发布时间】:2015-09-10 20:41:40
【问题描述】:

我将用多种语言(英语、日语等)解析一个维基词典文件。从这里 (Parse Wiktionary XML data dump into MySQL database using PHP) 我看到了它的基本结构。但我的问题是这些元素代表什么?

例如,我认为页面元素下的标题是词汇表中的一个单词。但是它在其他语言中的翻译在哪里?它的同义词在哪里?

【问题讨论】:

    标签: xml wiktionary


    【解决方案1】:

    “……翻译成其他语言?它的同义词在哪里?”

    要告诉你三个坏消息。

    1. 所有这些信息(翻译、同义词)都是维基词典文章的纯文本。

    2. 不同的维基词典有不同的词典条目结构。比如比较English WiktioinaryRussian Wiktionary中的文章结构。

    3. 在 XML 文件中没有显示维基词典文章的结构,它只是一个简单的纯文本,请参阅第 1 项。因此您需要解析此文本以提取同义词或翻译。

    欢迎您阅读我关于将维基词典文章的文本转换(解析)为机器可读数据库的论文:http://arxiv.org/abs/1011.1368

    【讨论】:

    • 不错!希望能帮助到你!现在我只需将每一行读入 Python 并提取信息。但似乎异常无处不在,很难使用规则来提取它们。嗯……
    猜你喜欢
    • 2011-05-05
    • 1970-01-01
    • 2020-01-26
    • 1970-01-01
    • 1970-01-01
    • 2011-03-31
    • 1970-01-01
    • 2022-12-20
    • 1970-01-01
    相关资源
    最近更新 更多