【发布时间】:2009-05-26 09:54:22
【问题描述】:
我对 Python 很陌生,所以我的问题可能很愚蠢,但即使阅读了很多线程,我也没有找到问题的答案。
我有一个混合源文档,其中包含 html、xml、latex 和其他文本格式,并且我尝试将其转换为纯乳胶格式。
因此,我使用 python 将不同的命令识别为正则表达式,并用适当的 latex 命令替换它们。到目前为止一切都很好。
现在我留下了一些“原始类型”的 Unicode 符号,例如希腊字母。不幸的是,手工完成的工作太多了。因此,我也在寻找一种聪明的方法来做到这一点。 Python有没有办法识别/读取它们?以及如何告诉 python 识别/读取例如Pi 写成希腊字母?
我使用的代码的最小示例是:
fh = open('SOURCE_DOCUMENT','r')
stuff = fh.read()
fh.close()
new_stuff = re.sub('READ','REPLACE',stuff)
fh = open('LATEX_DOCUMENT','w')
fh.write(new_stuff)
fh.close()
我不确定这是否是重要信息,但我使用的是在 Windows 上运行的 Python 2.6。
如果有人可以给我提示,我会非常高兴,至少在哪里可以找到相关信息或这可能如何工作。或者我是否完全错了,Python 无法完成这项工作......
非常感谢。
干杯,
布丽塔
【问题讨论】:
-
请举例说明您所说的“原始类型 Unicode 符号”。我敢肯定,世界上没有人用过或听过这个词。
-
“识别”是什么意思? Python 非常有能力处理 unicode 字符串,但你没有解释你想用它们做什么,以及目前什么不起作用。
-
是latex不喜欢Unicode字符的问题吗?如果是这样,this question 可能会有所帮助。
标签: python string unicode readability