如何将 python 数据分析代码分解为模块？答案

【问题标题】：How can I break a python data analytics code into modules?如何将 python 数据分析代码分解为模块？
【发布时间】：2017-08-08 16:29:06
【问题描述】：

我是一名商业智能分析师，开始使用 python 进行数据分析。

我正处于编写营销分析应用程序供内部使用（营销分析师）的早期阶段，无需使用 MS Excel 进行计算。

主要目标是：

提示选择原始文件
读取 csv/xlsx 数据
清理（删除空值、删除总行、格式化数字和日期等）
转换（创建指标，例如每次点击成本、每千每个渠道的展示次数、每条线索、广告支出回报率，例如 facebook、youtube、google 搜索等）
分析（按通道、类型突出显示最佳和最差性能目标、网址等）加载（在屏幕上打印并在 xlsx 上书写文件）

目前我将项目分为两个文件：main.py（主要功能和打印）和data_prep.py（与数据清理和转换相关的功能） .

我相信必须有一个框架或某种模型以逻辑和有组织的方式破坏文件，我想在早期阶段应用它以避免返工并构建更可靠且易于维护的应用程序。

PS：在这个线程中，我关心的是文件/目录结构，而不是我需要使用的库。

【问题讨论】：

您可能想查看pandas.pydata.org
您是否正在尝试为 1 号构建基于 Web 的 UI？如果是这样，您将需要在前端处理上传。对于数字 2 和 3，您可以使用以下库：csv（python 附带）、xlrd（用于读取可能具有格式的 excel 文件）和 pandas（将对您的大部分任务有所帮助）。对于数字 3-5，pandas 可能是最有用的库。你可以在这里阅读更多信息：pandas.pydata.org
我觉得我在这里错过了你的问题。
感谢 Kevin.K。 SandPiper，我添加了一个注释，可能会澄清我的问题。

标签： python analytics data-analysis data-science

【解决方案1】：

只要文件位置一致（共享文件夹、集群文件夹、Web 服务 API 派生位置），我认为没有“最佳”方式来组织您的文件或目录。标签要清晰，您应该能够将所有数据集中在一个地方。像这样的文件结构：

/Marketing/Analysis/dev/
  ./source <- for csv files to be kept
  ./prog <- for your .py files (actual code)
  ./result <- output from your process
  ./notes <- for anything non-functional (ie, release notes or project requests)

您的代码是否有 stash 或 bitbucket 存储库？如果是这样，请将其用于草稿，并仅将当前代码保留在 ./prog 中。

如果您使用 GoogleAnalytics，您可能想尝试直接从 Python 进行 API 调用，而不是将 csv 文件下载到 ./source。它只会将变量的数量减少一个。

【讨论】：

非常感谢！我正在使用 bitbucket。