项目场景
有两个集合,每次运算时,都需要对两个集合取差集找出两个集合的差异,或者取并集用来去重,其中的元素都是复杂类型的对象。
问题描述
众所周知,集合是无序的,且没有重复的。在本例中,定义了一个class,然后创建对象,每次往定义的结合中加元素时,同样的元素,加到集合却可以无限添加,通过调试发现,每次添加的元素Hash值是不同的。
首先定义一个Person类,用于测试,
| class Person: def __init__(self, name, age): self.name = name self.age = age def get_name(self): return self.name def get_age(self): return self.age
|
在main.py中新建一个集合,向集合中添加Person类型的对象,在person_list
中是所有将要添加的对象,其中有一个是重复的,是为了验证是否可以去重专门添加的,
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
| from Model.Person import Person
def main(): person_set = set() person_list = [ Person("张三", 24), Person("李四", 15), Person("王五", 28), Person("张麻子", 30), Person("二营长", 19), Person("张三", 24) ]
for p in person_list: person_set.add(p)
print("Person set") for p in person_set: print(p)
if __name__ == '__main__': main()
|
运行后,结果如下,可以看到,在集合person_set
中添加了6个对象,每个集合的hash值都是不一样的,
此时,再加一个test_person_set
,用来
1 2 3 4 5 6 7 8 9 10
| test_person_list = [ Person("李四", 15), Person("王五", 28), Person("张麻子", 30), ]
test_person_set = set()
for person in test_person_list: test_person_set.add(person)
|
与person_set
做差,
1 2 3 4
| result_set = person_set - test_person_set print("Result Person set") for p in result_set: print(p)
|
此时,输出运行结果,还是person_set
中的6个元素,
原因分析
在Python的对象中,有__str__
方法,用来将对象转换成字符串,相当于java的toString()
方法,__eq__
方法,提供两个对象的比较运算,当使用==
运算符连接两个对象时触发,而最关键的是__hash__
方法,获取对象的hash值。
在Python的集合操作中,判断两个元素是否相等,应该是用对象的hash值来判断是否是同一个对象(只是猜测,并未找到实质证据,也未找到Python的源码)
,并且来使用eq来判断是否两个元素相等。
解决方案
基于以上猜测,我在Person
类中加入了eq
和hash
方法,两者任意一个缺失都不能解决这个问题,Person
类的对象最终如下,
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19
| class Person: def __init__(self, name, age): self.name = name self.age = age
def get_name(self): return self.name
def get_age(self): return self.age
def __str__(self): return self.get_name() + str(self.get_age())
def __eq__(self, other): return self.name == other.name and self.age == other.age
def __hash__(self): return hash(self.name+str(self.get_age()))
|
此时再次运行main.py
,运行结果就正确了,
完整代码
目录结构
main.py
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36
| from Model.Person import Person
def main(): person_set = set() person_list = [ Person("张三", 24), Person("李四", 15), Person("王五", 28), Person("张麻子", 30), Person("二营长", 19), Person("张三", 30) ]
test_person_list = [ Person("李四", 15), Person("王五", 28), Person("张麻子", 30), ]
test_person_set = set()
for person in test_person_list: test_person_set.add(person)
for p in person_list: person_set.add(p) result_set = person_set - test_person_set print("Result Person set") for p in result_set: print(p)
if __name__ == '__main__': main()
|
person.py
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19
| class Person: def __init__(self, name, age): self.name = name self.age = age
def get_name(self): return self.name
def get_age(self): return self.age
def __str__(self): return self.get_name() + str(self.get_age())
def __eq__(self, other): return self.name == other.name and self.age == other.age
def __hash__(self): return hash(self.name+str(self.get_age()))
|