【发布时间】:2017-06-25 12:01:30
【问题描述】:
我在哪里可以找到这样的语料库?我需要它来在标记(单词)级别构建印地语和英语之间的语言检测器。
例如,罗马字母中的印地语维基百科之类的内容会非常有用。还是短篇小说、社交媒体帖子或推文或博客?有什么想法吗?
据我所知,现有的音译引擎并不是那么好。如果有好的,也会考虑使用。
【问题讨论】:
-
滚动您自己的音译实用程序,例如遵循International Alphabet of Sanskrit Transliteration 的规则。 AFAIK,印度语文本几乎从未用拉丁字母书写;音译仅用于名称,以及以非印度字母语言编写的书籍中的孤立单词或短片段。
-
在过去十年中,“Romanagiri”(罗马脚本印地语)在即时通讯和社交媒体中无处不在。但是,确实没有该语言的书籍或更结构化的文本。您的建议确实是我的基线,但它不够好,因为它与音译不够相似。
-
参见“Romanagari Detection in Twitter”,作者是 Hrishikesh Terdalkar 和 Shubhangi Agarwal,IIT Kanpur (2015);也许关于数据集的部分可以提供帮助。作者的电子邮件地址在poster 上提供。
-
@ashu 你找到语料库了吗?我也在找它:)
-
@ArshadAnsari 一个想法是寻找包含用罗马文字书写的印地语文章的博客。找不到一些我找到的链接,当我得到它们时会在这里添加。
标签: translation hindi transliteration latin devanagari