【发布时间】:2010-08-21 22:34:23
【问题描述】:
我正在评估数十万个 html 文件。我正在寻找文件的特定部分。文件的创建方式可能存在细微差异
例如,在一个文件中我可以有一个节标题(在我将其转换为大写并拆分然后加入文本以消除可能不一致的空白之后:
u'KEY1A\x97RISKFACTORS'
我可以在另一个文件中:
'KEY1ARISKFACTORS'
我正在尝试创建一个可能响应的字典,并且我想比较这两个并得出结论它们是相等的。但是我尝试运行第一个字符串以删除 '\97 的每次替换似乎都不起作用
有相当多的键变体具有各种实体表示,所以我真的很想或多或少地自动创建一个字典,所以我有类似的东西:
key_dict={'u'KEY1A\x97RISKFACTORS':''KEY1ARISKFACTORS',''KEY1ARISKFACTORS':'KEY1ARISKFACTORS',. . .}
我假设从我跑步的时候开始
S1='A'
S2=u'A'
S1==S2
我明白了
True
一旦处理了 html 实体,我应该能够比较这些
我特别想做的是
new_string=u'KEY1A\x97RISKFACTORS'.replace('|','')
我遇到了一个错误
对不起,我从昨晚开始就在这里了。 SLott 指出了一些东西,我发现我使用了错误的标签,希望这更有意义
【问题讨论】:
-
“我假设因为如果 S1='A' S2=u'A' S1==S2 True”?你为什么假设这个?为什么不测试它是否真的是真的?
标签: python html unicode entities