【问题标题】:Load utf-8 encoded text into H2OFrame将 utf-8 编码文本加载到 H2OFrame
【发布时间】:2018-12-21 11:09:06
【问题描述】:

我有一个 utf-8 编码的 .csv 文件,我使用 Python 3.7 将其加载到 H2O.ai

h2o.load_dataset("my.csv")

斯堪的纳维亚字符显示不正确。如果我将 H2OFrame 保存到磁盘并使用 utf-8 在编辑器中打开,同样的问题仍然存在。如何让 H2O.ai 理解 utf-8?

非常感谢。

【问题讨论】:

  • 您能否发布一个示例,说明您的特殊字符的外观以及运行 h2o-3 时代码如何中断,请参阅此问题以了解有人如何制作可重现的示例 stackoverflow.com/questions/53863717/…。谢谢!
  • @Lauren 谢谢!代码没有中断 - 唯一的问题是斯堪的纳维亚字符显示不正确,如上所示,当我将数据写入磁盘上的 .csv 时,问题仍然存在。
  • 我完全编辑了这个问题,因为似乎问题出在 H2O.ai 加载 utf-8 编码文本。
  • @rize 谢谢!你能用斯堪的纳维亚语发表一个句子,这样我就可以把它保存为一个文件并尝试重现这个问题?

标签: text utf-8 h2o


【解决方案1】:

我使用您提供的字符进行了快速测试,并且能够在 H2O-3 版本 3.20.0.8 和 python 3.5 上正确显示所有内容,因此希望新版本也能正常工作。

In [7]: dd = ["Tässä vähän tekstiä åäö"]

In [8]: h2o.H2OFrame(dd)
Parse progress: |█████████████████████████████████████████████████████████████████████████████| 100%
Out[8]:
C1
-----------------------
Tässä vähän tekstiä åäö

[1 row x 1 column]

我还创建了一个将字符串作为第一个单元格的 csv,它似乎可以正确显示。

In [12]: hhf = h2o.import_file('Scandinavians.csv', header=-1)
Parse progress: |████████████████████████████████████████████████████████████████████████████| 100%

In [13]: hhf
Out[13]:
C1      C2     C3       C4
------  -----  -------  ----
Tässä  vähän  tekstiä  åäö

[1 row x 4 columns].

(如果这些代码 sn-p 没有帮助,我可以尝试更新我的回复)

【讨论】:

    猜你喜欢
    • 2011-06-24
    • 2019-08-16
    • 1970-01-01
    • 2018-06-16
    • 1970-01-01
    • 2012-09-27
    • 2013-07-04
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多