【发布时间】:2017-08-08 16:29:06
【问题描述】:
我是一名商业智能分析师,开始使用 python 进行数据分析。
我正处于编写营销分析应用程序供内部使用(营销分析师)的早期阶段,无需使用 MS Excel 进行计算。
主要目标是:
提示选择原始文件
读取 csv/xlsx 数据
清理(删除空值、删除总行、格式化数字和日期等)
转换(创建指标,例如每次点击成本、每千 每个渠道的展示次数、每条线索、广告支出回报率,例如 facebook、youtube、google 搜索等)
分析(按通道、类型突出显示最佳和最差性能 目标、网址等)加载(在屏幕上打印并在 xlsx 上书写 文件)
目前我将项目分为两个文件:main.py(主要功能和打印)和data_prep.py(与数据清理和转换相关的功能) .
我相信必须有一个框架或某种模型以逻辑和有组织的方式破坏文件,我想在早期阶段应用它以避免返工并构建更可靠且易于维护的应用程序。
PS:在这个线程中,我关心的是文件/目录结构,而不是我需要使用的库。
【问题讨论】:
-
您可能想查看pandas.pydata.org
-
您是否正在尝试为 1 号构建基于 Web 的 UI?如果是这样,您将需要在前端处理上传。对于数字 2 和 3,您可以使用以下库:csv(python 附带)、xlrd(用于读取可能具有格式的 excel 文件)和 pandas(将对您的大部分任务有所帮助)。对于数字 3-5,pandas 可能是最有用的库。你可以在这里阅读更多信息:pandas.pydata.org
-
我觉得我在这里错过了你的问题。
-
感谢 Kevin.K。 SandPiper,我添加了一个注释,可能会澄清我的问题。
标签: python analytics data-analysis data-science