【发布时间】:2018-02-10 22:41:40
【问题描述】:
使用 python,考虑到包含非 ascii 字符的 string = "Tiësto & Sevenn - BOOM (Artelax Remix)",我如何使用 unidecode 来修复字符串,从而去除非 ascii 字符?
string = random.choice(list(open('data.csv'))).rstrip()
print "[+] Starting search for:", string
artistname = string.rsplit(' - ', 1)[0]
songname = string.rsplit(' - ', 1)[1]
上面的片段给了我: 艺术家姓名 = Tiësto & Sevenn 歌曲名 = BOOM (Artelax Remix)
如您所见,艺术家名称仍然包含非 ASCII 字符。如何使用 unidecode 解决此问题?
【问题讨论】:
-
你读过usage examples吗?你有没有any试图弄清楚如何使用unidecode?span>
-
到目前为止你尝试过什么?您是要删除它们还是替换它们?在您的示例中,您想要
"Tiesto & Sevenn"或"Tisto & Sevenn"还是其他? -
是的。我试过 unidecode(u'string')。我希望将 ë 字符更改为 e,而不是将其全部删除。
-
unidecode 就是这样做的。
标签: python non-ascii-characters