【发布时间】:2015-03-03 21:56:38
【问题描述】:
我们有一个由完全静态的英语内容组成的“网站”。 该网站的 HTML 文件总数约为 300MB 数据(即不包括图像,仅 HTML 文本文件。)
内容通常在一个简单的网络服务器设备中离线使用,用于没有互联网可用的偏远地区学校。
如果我从 Internet 上的网络服务器提供相同的内容,并提供 Google 翻译网站的 URL,那么翻译结果会非常好,我们可以通过链接在网站上浏览,就像在原始网站中一样。
所以我们知道谷歌翻译会很好地翻译内容,并且通过在线谷歌翻译服务自动完成。
我的问题是如何最好地使用 Google 翻译服务或其他类似服务将 HTML 文件批量翻译成其他几种语言。
翻译显然必须识别 HTML 并只翻译实际的英语语言内容,而在线 Google 翻译服务可以完美地做到这一点。
这似乎是一个相当普遍的要求,但我找不到关于如何去做的简单答案。
如果有任何建议,我将不胜感激。
提前致谢。
【问题讨论】:
-
Google 翻译会忽略 html 标记,您只需将文件发送到他们的 API。 API 仅花费 20 美元/百万字符,因此您可能会为整个站点花费 500-750 美元。您可以通过编写一个 sax 样式的 html 解析器来将其减半,该解析器通过将数据发送到 api 来处理数据