Google Prediction API 的训练文件 language_id.txt 不可用答案

【问题标题】：training file language_id.txt for Google Prediction API unusableGoogle Prediction API 的训练文件 language_id.txt 不可用
【发布时间】：2014-09-23 22:55:47
【问题描述】：

我正在关注 Google Prediction API 的 Hello Prediction example。

不幸的是，培训文件language_id.txt 似乎以某种方式损坏了？我测试使用谷歌浏览器和火狐下载它，结果相同，见截图：

我认为，因此我的测试不起作用，我总是返回 English 1.0 作为 Muy Bueno 示例字符串的分数。

  ...
  {
   "label": "English",
   "score": "1.000000"
  },
  ...

我从哪里获得可用的 language_id.txt 测试文件，或者我还能做些什么？

编辑：我的猜测是，该文件尚未以 UTF-8 格式存储在 Google 服务器上？

【问题讨论】：

我也有同样的经历，它把 Muy Bueno 预测为英语。但是，带有小 b 的 Muy bueno 对西班牙语效果很好。

标签： utf-8 google-api google-prediction

【解决方案1】：

该文件采用 UTF-8 格式，但未声明编码，因此在浏览器中查看它假定默认 HTTP 字符集 ISO-8859-1。

我不确定为什么您实际上得到了一个损坏的副本（如果我在 Chrome 中查看它，它似乎已损坏，但保存它会生成正确的 UTF-8 编码文件），但也许您可以尝试另一个下载机制？

【讨论】：

如果您能够以正确的格式下载它，请将其作为文本文件添加到您的答案中。谢谢。
我不完全确定如何将文件附加到答案中，无论如何，您将拥有与服务器上已有的内容相同的内容。另一种选择：您实际上可以在查看字符集时覆盖它。在 Chrome 中，打开汉堡菜单，然后是工具 > 编码 > UTF-8（首选）。如果您遇到的问题与浏览器有关，这应该会有所帮助。
太棒了！谢谢！我不知道那个选项，就是这样！将编码从 Western (ISO-8859-1) 更改为 Unicode (UTF-8) 就成功了！