法律文本的 NLP？答案

【问题标题】：NLP of Legal Texts?法律文本的 NLP？
【发布时间】：2016-05-13 00:09:33
【问题描述】：

我有一个包含几十万份法律文件（主要来自欧盟）的语料库——法律、评论、法庭文件等。我正在尝试通过算法来理解它们。

我已经对已知的关系（时间、这个-改变-那个等）进行了建模。但在单文档级别，我希望我有更好的工具来快速理解。我对想法持开放态度，但这里有一个更具体的问题：

例如：是否有 NLP 方法来确定文档的相关/有争议的部分而不是样板文件？最近泄露的 TTIP 论文有数千页的数据表，但那里的一句话可能会毁掉一个行业。

我过去曾尝试过 google 的新 Parsey McParface 和其他 NLP 解决方案，但虽然它们的效果令人印象深刻，但我不确定它们在分离含义方面有多好。

【问题讨论】：

标签： nlp stanford-nlp parsey-mcparseface syntaxnet

【解决方案1】：

为了使文档有意义，您需要执行某种语义分析。他们的例子有两种主要的可能性：

使用帧语义： http://www.cs.cmu.edu/~ark/SEMAFOR/

使用语义角色标签 (SRL)： http://cogcomp.org/page/demo_view/srl

一旦您能够从文档中提取信息，您就可以应用一些后处理来确定哪些信息是相关的。查找哪些信息是相关的与任务相关，我认为您找不到提取“相关”信息的通用工具。

【讨论】：

【解决方案2】：

我看到你有一个有趣的用例。您还提到了语料库的存在（这是一个非常好的优点）。让我讲述一个我为从研究论文中提取症结而草拟的解决方案。

要理解文档，您需要触发器来告诉（或训练）计算机寻找这些“触发器”。您可以使用监督学习算法在最基本的级别上简单实现文本分类问题来解决此问题。但这需要事先的工作，最初需要领域专家的帮助，以便从文本数据中识别“触发器”。有一些工具可以提取句子的要点——例如，在句子中提取名词短语，根据共现分配权重并将它们表示为向量。这是您的训练数据。这是将 NLP 整合到您的领域的一个非常好的开始。

【讨论】：

【解决方案3】：

不要使用触发器。您需要的是词义消歧和域适应。您想要理解文档中的内容，即理解语义以找出含义。您可以以 skos 或 json-ld 格式构建术语的合法本体，在知识图中将其本体表示，并将其与依赖解析（如 tensorflow/parseymcparseface）一起使用。或者，您可以使用基于 kappa 的架构来流式传输您的文档——例如使用 CoreNLP/Tensorflow/UIMA 添加中间 NLP 层的 kafka-flink-elasticsearch，使用 redis 在 flink 和 elasticsearch 之间缓存您的索引设置以加快进程。要了解相关性，您可以在搜索中应用特定案例。此外，应用情绪分析来确定意图和真实性。您的用例是信息提取、摘要和语义网络/链接数据之一。由于欧盟有不同的法律体系，您需要首先概括什么是真正的法律文件，然后将其缩小到与主题或地区相关的特定法律概念。您还可以在此处使用来自 LDA 或 Word2Vec/Sense2Vec 的主题建模技术。此外，Lemon 还可以帮助将词汇转换为语义，将语义转换为词汇，即 NLP->ontology ->ontology->NLP。本质上，将聚类提供给命名实体识别的分类。您还可以使用聚类来帮助您构建本体或使用余弦相似度查看文档或文档集中的词向量。但是，为了做到这一切，最好可视化文档的单词稀疏性。常识推理 + 深度学习之类的东西也可能对您有所帮助。

【讨论】：