【发布时间】:2020-12-30 14:50:19
【问题描述】:
我正在训练语言模型。我的输入是 XML 格式的字幕。我需要从中获取纯文本并保存到文本文件中,以便我可以使用它。
输入
<?xml version="1.0" encoding="utf-8"?> <document> <s id="1"> <time id="T1S" value="00:00:14,660" /> <w id="1.1">-</w> <w id="1.2">Všetko</w> <w id="1.3">v</w> <w id="1.4">poriadku</w> <w id="1.5">.</w> </s></document>
输出
- Všetko v poriadku .
【问题讨论】:
-
你能举一些例子来说明你拥有的数据以及你想从中提取什么吗?
-
你确实需要详细描述你想做什么。
xml无论如何都是基于文本的格式,所以你想要做什么是模棱两可的。 -
@juanpa.arrivillaga 等。 al:他说他正在训练一个语言模型,因此他对没有标记的文本感兴趣。他可以使用 lxml 和 XPath 轻松获取任何元素的字符串值,甚至是文档根目录,正如我展示的 below。
标签: python xml data-processing txt language-model