【发布时间】:2022-09-23 20:44:21
【问题描述】:
所以我想根据其他 11 个与参考数据帧之间的匹配值创建一个数据帧。 并且 11 个数据帧有一个名为“序列号”的列,我想将其与参考数据帧上的序列号列进行比较。
由于我没有想到将所有 12 个 excel 文件循环到单独的变量中的方法。我刚刚写了下面的代码。
导入所有需要的库
import pandas as pd
from matplotlib import pyplot as plt
from google.colab import drive
drive.mount(\'/content/drive\')
指定所有excel文件的存储路径
directory = \'/content/drive/MyDrive/Colab Notebooks/Ursa project\'
并且为所有 12 个文件做了filename = pd.read_excel(\'path\')
现在我创建了所有数据框对象,我需要找出这 11 个数据框中的哪些行在序列号列与参考数据框中的序列号列之间具有匹配值。
我失败的尝试是对每个数据帧执行以下操作:
for i in reference_df[\'Serial ID\']:
df_matches = df1[df1[\'Serial number\'] == i]
df_matches
P.S.:我正在使用 Colab
我正在使用的其中一个 excel 文件太长,所以这里有一个指向序列号和序列号的驱动器链接:https://drive.google.com/drive/folders/1BBTnQY1Be6vHtrrPQyXE18eVPkGU_X5N?usp=sharing
-
你的预期结果是什么?
-
我认为我遇到的问题之一是,尽管“序列号”列和“序列号”列之间存在匹配,但这些匹配并不完全匹配。因此,假设两列上都存在 1001,但在序列号单元格中我们有 \"s/n:1001\" 并且在序列号单元格中我们只有 \"1001\" 代码赢了\'无法将其理解为匹配,那么我该如何过滤这些小差异呢?
-
也许您可以添加示例数据供我们尝试?我们会更好地帮助您