文本文件规范化和模式匹配答案

【问题标题】：Text file normalization and pattern matching文本文件规范化和模式匹配
【发布时间】：2016-07-04 07:56:41
【问题描述】：

我得到了一个用一种元语言编写的文件，它描述了验证某些数据所需的过程。我需要生成验证函数来验证数据。数据已经存储在结构中

我做的步骤：

使用 char like(' . , ; == >= ) 将文本拆分为字符串 []
删除冠词、介词...
规范化文本（如何？）
使用正则表达式或文本匹配将单词与标记匹配
使用 Token 类型匹配模式
根据匹配的模式规则生成函数

您会在第 3 步或一般情况下使用什么来改进此过程？

【问题讨论】：

是什么输入法？英语？代码？一些常规模式的数据？
如果没有正确的输入/预期的输出，将很难提供任何帮助。就问题而言，它有点像在黑暗中闲逛......

标签： regex text pattern-matching normalization text-normalization

【解决方案1】：

引用自wiki，正则表达式是实现“文本规范化”的技术之一：

用于简单的、与上下文无关的规范化，例如移除非字母数字字符或变音符号、正则表达式就足够了。例如，sed 脚本 sed -e "s/\s+/ /g" inputfile 会将空白字符的运行规范化为单个空间。更复杂的归一化需要相应复杂的算法，包括语言和词汇的领域知识被规范化。在其他方法中，文本规范化已经建模为对文本流进行标记和标记的问题 [5] 和作为机器翻译的一个特例。[6][7]

在我看来，数据涉及语言注释。您可以查看The IMS Open Corpus Workbench (CWB) 等工具。此外，还有一个您可能会觉得有用的网站（带有示例代码）：What Is Text Normalization?。

【讨论】：