您如何检测消息是否说“谢谢”？答案

【问题标题】：How do you detect if a message says 'Thank you'?您如何检测消息是否说“谢谢”？
【发布时间】：2015-01-17 23:47:30
【问题描述】：

我有各种各样的消息，我想知道消息的本质是不是在说“谢谢”。这会忽略显示“谢谢”并包含问题的消息。

【问题讨论】：

搜索子串“Thank you”??
您所需要的只是一个小型研究团队和几年的深入研究。
您可以使用bayes classifier 并使用手动标记的数据集对其进行训练:-)
这是一个重要的问题，您不能简单地调用内置函数来解决。如果您需要的只是字符串“谢谢”的存在，请按照@OMGtechy 的建议进行搜索。如果不需要，您需要在表示“谢谢”的表达式上标记训练数据，那么您可以训练分类器并随后对新实例进行分类

标签： parsing nlp

【解决方案1】：

由于您使用了“本质”一词，因此这是一个极其难以详尽而完整地回答的问题。

让我们退后一步：在一个称为情感分析的相关问题上已经做了很多工作。在某些方面，这是该问题的一个有趣的子集，因为它的定义要好得多。

反对者：定义更好！？为什么，情绪分析的定义非常明确。这是从文本到某种评论分数的地图。这是某种如意算盘……

那个反对者的批评的问题在于，那里给出的情绪概念确实没有明确定义。 “星级”是什么意思？这怎么可能和语言有关？目前还不是很清楚，现有的方法在某些方面一直在努力解决这个问题。

“表达感谢”实际上比“表达情感”要清晰得多。我们可以将感谢视为一种特殊类型的情感，事实上，一种非常具体的情感——我怀疑，人类注释者可以可靠地标记出来。如果人类能够可靠地标记一种现象，那么计算和语料库语言学家就会认为这是“真实”的充分标准。

您可以在这里采取两种方法。一个会更快；一个会更有启发性。

首先是想出你能想到的所有与感恩相关的字符串，然后搜索这些字符串。换句话说，这是@OMGtechy 的尖刻评论的扩展版本。显然有“谢谢”，但也有“谢谢”、“我（真的）感激（d）”、“你的好意”、“太好了”、“我很感激”。您可能很快就能很好地覆盖您的数据。

第二个有点困难，但它的优势在于挑战你的直觉。获取消息列表，并标记它们是否“感谢”。在每条消息中，标记表明该人表示感谢的部分。您可以从这部分获取结果并使用它们来支持第一部分。

怀着感激之情，我怀疑这些模式非常有规律。在表达感激之情时，我们经常输入一个特定的语言使用记录，并且有——根据我的“第一部分”直觉——我们使用的一组词相当有限。不需要花哨的 NLP —— 只需要详尽的模式匹配。如果是这样的话，这里就有一些有趣的语言学在起作用。

【讨论】：