【发布时间】:2021-11-18 11:25:23
【问题描述】:
假设有两个数据库存储人们的用户名和网络(关注者和关注者)。两个数据库都包含以下表格:
Users | Relation
------------------------------------------
- id (Primary Key) | - id (Primary Key)
- username (unique) | - follower_id (Foreign key references users id)
| - following_id (Foreign key references users id)
假设两个数据集中的一些用户名相同,一些用户名在另一个数据库中不存在,一些用户名不同但指的是同一个人。此外,他们的网络有相似的趋势,但可能略有不同。
是否有任何已知或建议的方法可以在用户名及其网络上进行一些相似性,以将它们与其他数据库中的个人资料相关联或与无相关联(如果没有)?
我正在使用 python,但任何伪代码、一般答案或如何解决此问题的想法就足够了。
【问题讨论】:
-
Relation表的id是什么? -
some usernames are different but refer to the same person,Also, their network have similar tendencies- 这意味着两个数据库中的数据完全不相关。没有任何相似之处。你应该重新考虑你的目标。
标签: python database algorithm similarity