【问题标题】:Large corpus of Hindi text in Roman script [closed]罗马文字印地语文本的大型语料库[关闭]
【发布时间】:2017-06-25 12:01:30
【问题描述】:

我在哪里可以找到这样的语料库?我需要它来在标记(单词)级别构建印地语和英语之间的语言检测器。

例如,罗马字母中的印地语维基百科之类的内容会非常有用。还是短篇小说、社交媒体帖子或推文或博客?有什么想法吗?

据我所知,现有的音译引擎并不是那么好。如果有好的,也会考虑使用。

【问题讨论】:

  • 滚动您自己的音译实用程序,例如遵循International Alphabet of Sanskrit Transliteration 的规则。 AFAIK,印度语文本几乎从未用拉丁字母书写;音译仅用于名称,以及以非印度字母语言编写的书籍中的孤立单词或短片段。
  • 在过去十年中,“Romanagiri”(罗马脚本印地语)在即时通讯和社交媒体中无处不在。但是,确实没有该语言的书籍或更结构化的文本。您的建议确实是我的基线,但它不够好,因为它与音译不够相似。
  • 参见“Romanagari Detection in Twitter”,作者是 Hrishikesh Terdalkar 和 Shubhangi Agarwal,IIT Kanpur (2015);也许关于数据集的部分可以提供帮助。作者的电子邮件地址在poster 上提供。
  • @ashu 你找到语料库了吗?我也在找它:)
  • @ArshadAnsari 一个想法是寻找包含用罗马文字书写的印地语文章的博客。找不到一些我找到的链接,当我得到它们时会在这里添加。

标签: translation hindi transliteration latin devanagari


【解决方案1】:

通过在https://translate.google.co.in/ 上选择“文本”选项进行搜索时,Google 翻译会提供音译结果。

但是,有一个问题。它的字符数限制为 5k。令人惊讶的是,谷歌在翻译其他任何地方时不提供此功能。 (谷歌文档,gmail等) 如果您能够找到更可行和更强大的解决方案来解决您的问题,请告诉我。

【讨论】:

  • 我没有。感谢您指出了这一点。我现在不记得我当时选择了什么
猜你喜欢
  • 2011-01-05
  • 2015-11-21
  • 1970-01-01
  • 2011-08-20
  • 2018-12-27
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多