我建议,假设您可以指望名称之间没有重复,例如:
class Node(object):
byname = {}
def __init__(self, name, parent=None):
self.name = name
self.parent = parent
self.children = []
self.byname[name] = self
if parent is None: # root pseudo-node
self.code = 0
else: # all normal nodes
self.parent.children.append(self)
self.code = len(self.parent.children)
def get_codes(self, codelist):
if self.code:
codelist.append(str(self.code))
self.parent.get_codes(codelist)
root = Node('')
def get_code(nodename):
node = Node.byname.get(nodename)
if node is None: return ''
codes = []
node.get_codes(codes)
codes.reverse()
return '.'.join(codes)
您是否还想查看 Python 代码,了解如何在给定名称的分层序列(例如 ['Africa', 'North Africa', 'Morocco'])的情况下添加节点?我希望考虑到上述结构,它会很清楚,所以你可能想自己做一个练习,但当然要问你是否更愿意看到一个解决方案;-)。
从文本行(字符串)中获取名称的分层序列取决于分隔符是什么——在您的示例中,它看起来只是出于与排列列相关的纯粹审美原因而添加的一堆空格(如果这是在这种情况下,我会推荐一个简单的基于re 的方法来拆分两个+ 空格的序列),但如果它实际上是(例如)制表符作为分隔符,Python 标准库中的csv 模块会更好地为您服务。我只是无法从您在 Q 中发布的简短示例中看出!-)
编辑:OP 说他们可以很好地获取名称序列,但希望查看添加相关节点的代码 - 所以,这里开始!-)
def addnodes(names):
parent = root
for name in names:
newnode = Node.byname.get(name)
if newnode is None:
newnode = Node(name, parent)
parent = newnode
了解为什么节点名称是唯一的对于使上述类正常工作很重要?由于Node.byname 是每个类的单个dict,它只能为每个给定名称记录一个“对应节点”——因此,在层次结构中的两个或多个位置重复的名称将“冲突”并且只有一个两个或多个节点中的一个将被正确记录。
但是话又说回来,OP 所说的函数get_code 是如果名称可能模棱两可,整个设备无法按预期工作的主要原因,因为 OP 的规范要求它只返回 one 字符串。所以,一些地理列表,如
America United States Georgia
Europe Eastern Europe Georgia
(其中两个完全不相关的区域恰好都被命名为'Georgia'——不幸的是,这种事情在现实世界的地理中经常发生,如上例所示!-)会破坏整个方案(取决于 get_code 的规范如何更改以处理不明确的名称参数,当然,类结构肯定可以相应地更改并适应新的、截然不同的规范!)。
将这些设计决策封装在一个类中的好处(尽管在这种情况下有几个附带的函数——当然,它们可以优雅地制成类方法,但是 OP 的规范严格要求 get_code是一个函数,所以我决定,在这种情况下,addnodes 也可能是一个!-) 是具体的设计决策大多隐藏在其余代码中,因此可以很容易地改变(只要规范当然,永远不要改变——这就是为什么花时间和注意力来定义一个人的 API 规范如此重要的原因,比设计和编码的任何其他部分更重要!-)重构内部行为(例如用于优化、易于调试/测试等),同时保持 API 指定的语义完整,从而使应用程序的所有其他部分保持原始状态(实际上甚至不需要重新测试,当然只要实现的部分API 经过了非常彻底的单元测试——不难做到,因为它们很好地隔离和独立!-)。