【发布时间】:2015-12-04 13:22:42
【问题描述】:
我有一个来自下面csv 内容的DataFrame
NAME,VENUE_CITY_NAME,EVENT_LANGUAGE,EVENT_GENRE
satya,Pune,Hindi,|COMEDY|DRAMA|
Amit,National Capital Region,English,|ACTION|ADVENTURE|SCI-FI|
satya,Mumbai,Hindi,|COMEDY|DRAMA|
atul,Bangalore,Tamil,|DRAMA|THRILLER|
atul,Pune,Others,|SPORTS|
alex,Hyderabad,Telugu,|ACTION|ROMANCE|THRILLER|
satya,Bangalore,Malayalam,|DRAMA|SUSPENSE|
dave,Hyderabad,Hindi,|COMEDY|
chris,Bangalore,Telugu,|ACTION|ROMANCE|THRILLER|
satya,Pune,Others,|SPORTS|
dave,Kanpur,Hindi,|COMEDY|DRAMA|
alex,Bangalore,Telugu,|COMEDY|ROMANCE|
amit,Bangalore,Telugu,|ACTION|ROMANCE|THRILLER|
atul,Chennai,Tamil,|COMEDY|ROMANCE|
dave,Bangalore,Telugu,|ACTION|ROMANCE|THRILLER|
alex,Pune,Others,|SPORTS|
chris,Hyderabad,Telugu,|DRAMA|ROMANCE|
satya,National Capital Region,Hindi,|ACTION|COMEDY|
dave,Pune,Others,|SPORTS|
amit,National Capital Region,Others,|SPORTS|
我必须按级别(使用多节点)过滤数据帧并使用多处理
LEVEL_1 按城市过滤(可能在不同根节点的多个城市上)
LEVEL-2 然后在该数据框上按语言过滤(多个子节点)
按类型值筛选级别 3
好吧,我承认,这可以通过程序方式逐步过滤来完成。
但原因是我的实际数据框大小很大,我被要求考虑内存管理(所以多处理/排队),减少处理时间,脚本应该是动态和通用的(所以类和对象)......同样有很多挑战.
所以我想在第一级过滤主数据框(因为可以有这么多城市要过滤这么多个节点,应该由多处理处理),
然后在第二级 2 或多个子/子节点可以根据语言过滤条件找到。所以过滤后我需要在第一级删除主数据框。
在第 3 层应该像第 2 层一样做同样的事情,结果数据帧应该通过排队机制返回到一个基础。
【问题讨论】:
标签: python multithreading class pandas multiprocessing