【问题标题】:How will search engines react to different unicode?搜索引擎将如何对不同的 unicode 做出反应?
【发布时间】:2013-04-14 00:24:32
【问题描述】:

我正在开发一个格鲁吉亚语的网站。格鲁吉亚字母有自己的 Unicode 范围,但也有一些特殊字体,用格鲁吉亚字形代替英文字符,有点像“Symbol”和“Dingbats”字体。

例如,字符串“saqarTvelo”将使用这些字体呈现为“საქართველო”。所以现在我有两个选择,不知道该怎么办:

  1. 为我的网站使用格鲁吉亚 Unicode,但问题是所有字体都是为英语 Unicode 创建的,不适用于格鲁吉亚 Unicode。

  2. 使用带有英语 Unicode 的格鲁吉亚字体。但我不知道搜索引擎会如何反应。

请告诉我该怎么做,我累了!

【问题讨论】:

  • 格鲁吉亚语没有“自己的 Unicode”。只有一个 Unicode(线索就在名字里!),每个人都一样。
  • @Kerrek SB 那你的意思是什么?如果我想搜索“საქართველო”这个词,谷歌会显示我的网站吗?即使只有单词“saqarTvelo”,也就是单词“საქართველო”,但只有字体。
  • @KerrekSB:挑出他糟糕的英语技能并没有帮助。他的问题就像旧的“Symbol”和“Dingbats”字体的问题一样,这些字体将 ASCII 范围重新用于其他符号。这对于在 Unicode 被接受之前不使用拉丁脚本的语言来说非常常见。
  • 我投票结束这个问题,因为 SEO 主题是题外话

标签: unicode character-encoding fonts seo search-engine


【解决方案1】:

简短的回答是,使用您在选项 1 中的意思的方法,搜索引擎会将您的文本中的“საქართველო”一词视为“saqarTvelo”,因此正常搜索将失败。

这个问题似乎是指在网页上使用格鲁吉亚字母的两种不同方式:

  1. 使用 Unicode 编码,因此字符将使用 Unicode 编码字体(这是大多数字体,但大多数字体不包含格鲁吉亚字母)呈现。
  2. 使用非标准的“私有”编码,通常将 256 个不同的代码位置(8 位组合)映射到某些目的所需的任何字符。这假定文本是使用以相同方式编码的字体呈现的。

方法 2 可以被描述为wrong approach,但它从早期就已经在网络上使用(即使 CSS 不可用并且不得不求助于<font face=...> 来设置字体),尤其是在早期。除非用户的计算机具有特定的“私人”编码字体(或某些字体编码完全相同的方式),否则它确实不起作用。由于搜索引擎与字体无关,它们只看到 8 位代码并尝试以页面声明或隐含的编码来解释它们,而不是“私有”编码(无法声明,因为它没有公布的定义和没有标准名称,或任何名称)。

方法 1 的问题是,要使其工作,用户的计算机需要具有支持所使用字符的 一些(Unicode 编码字体)。如今,这可以通过@font-face 使用可下载字体(网络字体)很好地解决。 Fonts that support Georgian letters 包括一些有用的免费字体,如 DejaVu 字体、GNU Freefont 字体和 Quivira。有关此方法的更多信息,请参阅我的 Guide to using special characters in HTML

使用方法 1,搜索引擎将正确地看到格鲁吉亚字母,前提是文档的编码(通常为 UTF-8)已正确声明或可由搜索引擎推断。

【讨论】:

  • 非常感谢您的帮助。我打算使用格鲁吉亚字体,但字符设置为英文 unicode,所以你能告诉我可以使用哪个程序将 unicode 从英文更改为格鲁吉亚文吗?
  • 没有“English unicode”与“Georgian unicode”之类的东西。您应该简单地使用一个程序,让您输入格鲁吉亚字符并将它们保存为 Unicode 编码(实际上是 UTF-8 编码)。如果您的数据现在采用“私有”编码,依赖于特定的私有编码字体进行渲染,那么您将需要该字体的文档,然后您可以编写一个简单的表格驱动转换器。
猜你喜欢
  • 2020-09-12
  • 1970-01-01
  • 2022-01-25
  • 1970-01-01
  • 2014-04-04
  • 2013-10-09
  • 2011-10-10
  • 2016-06-09
  • 2020-08-13
相关资源
最近更新 更多