【问题标题】:Exporting to CSV files in Julia在 Julia 中导出为 CSV 文件
【发布时间】:2021-01-23 18:52:34
【问题描述】:

警告:这些都是菜鸟问题,因为我真的是 Julia 的新手。

在 R 中,有一个相当“统一”的函数可以用read.table() 导出(几乎)任何类型的对象。看起来 Julia 中的情况稍微复杂一些。如果我理解得很好:

  1. 某些标准类型(例如,数组、字典和元组)始终可以使用 writedlm 导出,但并非总是使用 CSV.write。相反,DataFrames 总是可以用CSV.write 导出,但不能用writedlm 导出。它是否正确?因此,不存在类似于 R 的write.table() 的“通用出口商”?

  2. 除了编写 CSV 文件外,CSV.write 似乎还返回了导出文件的名称。相反,writedlm 没有。这对我来说是个问题。实际上,我需要一种将 DataFrame 导出到 CSV 文件中的方法,该文件具有 not 返回值的函数,即只有副作用的函数,例如 writedlm。有没有办法在 Julia 中实现这一点?

    编辑:更详细地说,我的问题是在CSV.write 之后,ans 指向导出文件的名称; writedlm 并非如此。插图herehere。即使有@Przemyslaw Szufel 给出的想法,我也无法摆脱这一点。 (这是一个非常微妙的问题,但我实际上是在尝试为 Julia 编写一个 emacs lisp 后端。这种不一致,例如不知道 ansnothing 还是导出对象后的文件名,添加了一些这次冒险中的更多痛苦... :-) 理想情况下,我只是希望CSV.write 可以保持沉默。)

谢谢!

【问题讨论】:

    标签: dataframe csv julia export-to-csv


    【解决方案1】:

    我从第二个问题开始,因为它很短。只需在行尾使用分号;,不会返回任何值!

    CSV.write(file, table);
    

    但是,如果您想确定 ans 没有任何价值,请在末尾添加 nothing

    CSV.write(file, table);nothing;
    

    如果你愿意,你可以把它打包成一个函数:

    function my_write(file, table)
        CSV.write(file, table)
        nothing
    end
    

    或者,如果您想要一个单行代码,请将其包装成 lambda:

    julia> (() -> begin;CSV.write("file.csv", df);nothing;end)()
    
    julia> ans == nothing
    true
    

    在每种情况下都不会观察到副作用(返回值)。

    第一个问题比较棘手。用于在文件中存储数据的可能格式显然需要取决于数据的格式。基本上,Julia 最常见的选项包括(我从最通用的选项开始,最后是最具体的选项):

    • 通过serialize命令序列化
    • 通过BSON.jl 包的二进制JSON
    • JSON 通过JSON.jl 或稍新的JSON3.jl 包(从今天开始都是不错的选择)
    • JSONTables.jl 用于存储为 JSON 的表格数据
    • DelimitedFiles 用于存储 Arrays
    • CSV.jl 用于存储 DataFrames

    现在,特定套餐的选择将取决于您的目标。序列化是杀手级机制 - 最快和最通用的。任何对象都可以在尽可能短的时间内以这种方式存储。没有什么是没有代价的——当你更新 Julia 版本或你的包时,你可能无法读回你的对象。所以它是为短期存储而设计的。

    中间是基于 JSON 的存储系统。基本上,所有内容都可以存储为 JSON,以后可以用 Julia 或其他编程语言读取。基于文本的 JSON 也可以在简单的文本编辑器中打开。

    最后,CSV.jlSerialization 可以分别用于表和数组。但是,将DataFrame 转换为Array 或将Array 转换为DataFrame 很容易:

    julia> df = DataFrame(a=1:3, b=rand(3),c=["a","b","c"])
    3×3 DataFrame
    │ Row │ a     │ b        │ c      │
    │     │ Int64 │ Float64  │ String │
    ├─────┼───────┼──────────┼────────┤
    │ 1   │ 1     │ 0.440796 │ a      │
    │ 2   │ 2     │ 0.44232  │ b      │
    │ 3   │ 3     │ 0.282064 │ c      │
    
    julia> Matrix(df)
    3×3 Array{Any,2}:
     1  0.440796  "a"
     2  0.44232   "b"
     3  0.282064  "c"
    

    您可以看到,在此过程中唯一丢失的是类型信息,如果您通过DelimitedFiles 导出数据,这并不重要。

    其他方式的转换也很简单:

    julia> rand(3,3) |> Tables.table |> DataFrame
    3×3 DataFrame
    │ Row │ Column1  │ Column2   │ Column3  │
    │     │ Float64  │ Float64   │ Float64  │
    ├─────┼──────────┼───────────┼──────────┤
    │ 1   │ 0.326649 │ 0.0278134 │ 0.111221 │
    │ 2   │ 0.769378 │ 0.996156  │ 0.237821 │
    │ 3   │ 0.802094 │ 0.726497  │ 0.619013 │
    

    总之,如您所见,一切都可以在 Julia 中完成。

    【讨论】:

    • 非常感谢您的出色回答!我的第一个问题现在有了一个完美的解释,我现在已经有了我需要的一切;-) 但是,我的第二个问题似乎比我认为的更棘手......我编辑了我的原始帖子,提供了更多细节和示例。
    • 这个好答案的两个小问题:1) CSV.jl 一般适用于表格 - 不仅适用于DataFrame。 2) 一般来说,应使用Tables.table 函数将矩阵转换为表格(因为不同的矩阵以不同的方式专门处理它们作为表格的处理方式+Tables.table 是非分配的)。跨度>
    猜你喜欢
    • 2021-07-01
    • 2019-03-24
    • 2018-11-12
    • 1970-01-01
    • 1970-01-01
    • 2017-03-12
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多