【发布时间】:2021-09-29 03:05:10
【问题描述】:
以下代码显示来自 JSON Line 文件的数据。
import pandas as pd
import numpy
start = time.time()
with open('stela_zerrl_t01_201222_084053_test_edited.json', 'r') as fin:
df = pd.read_json(fin, lines=True)
parsed_data = df[["SRC/Word1"]].drop_duplicates().replace('', np.NAN).dropna().values.tolist()
print(parsed_data)
输出是:
[[' '], ['E1F25701'], ['E15511D7']]
有没有办法删除空白数据、重复数据并将其存储为数组?
【问题讨论】:
-
drop_duplicates 删除重复项,boolean indexing 过滤掉空白行,to_numpy 转换为 numpy 数组