【发布时间】:2020-02-13 15:26:41
【问题描述】:
我正在尝试编写几个程序来处理多种语言的文本分析,包括拉丁语、古希腊语和普通话。其中一个旨在分析拉丁语中的一个单词并将其分解为其组成音节,然后找出哪个音节是重读的,并在该音节的元音上添加一个重音。对于长元音,例如“ā”,这需要使用组合的锐音符“́”来产生“ā́”。但是,当我将组合重音 ('\u0301') 的 unicode 值放在我希望添加到的字符之后的字符串中时,它不会像打印字符串时那样组合字符,而是将它们放在下一个分别给对方。此外,当我尝试显示非西方 Unicode 字符(如日文平假名、片假名或 CJK 统一表意文字)时,我得到的只是系统无法正确显示字符时出现的方框中的问号符号。在其他地方组合字符或 CJK 统一表意文字时,我没有这些问题,因为它们在 Google Chrome 或 Microsoft Word 中工作得很好。我在装有 Windows 10 的 64 位笔记本电脑上运行 Python3。另外,如果他们提出 Sqlite3,我该如何处理这些问题?
【问题讨论】:
标签: python python-3.x unicode utf-8 python-unicode