【发布时间】:2016-01-20 10:41:15
【问题描述】:
我正在尝试抓取一个俄罗斯网站。但是我坚持尝试将俄语西里尔字母转换为 DateTime 对象。
我们以这段 html 片段为例:
<div class="medium-events-list_datetime">22 января весь день</div>
我可以使用 lxml 获取这个 div 的内容,即:
date = root.xpath('/html/body/div[1]/div/div[2]/text()')[0].strip()
所以这个字符串的相关部分是 22 января,即日和月。
为了获得这部分,我使用.split() 方法
现在问题出在这里,我正在尝试将其转换为 DateTime。 我尝试使用 DateParser:https://dateparser.readthedocs.org/en/latest/ ,应该支持俄语。
但是,当我将此字符串传递给 dateparser.parse() 时,它会返回 None
有没有人遇到过类似的问题?我正在用头撞墙。任何帮助表示赞赏:)
【问题讨论】:
标签: python-2.7 datetime encoding lxml non-latin