从文档中提取内容答案

【问题标题】：Extracting content from documents从文档中提取内容
【发布时间】：2018-06-01 03:22:48
【问题描述】：

我想从具有 NLP 技能、认证、工作经验等各个部分的简历中提取内容，并根据其类别对其进行标记。虽然我可以编写基本规则来提取各种标点符号上的文本，但在某些情况下可能不起作用。在这种情况下将Automatic segmentation 帮助。解决这个问题的正确方法是什么？

SKILL SET 
    Machine learning, Deep learning, Python, Julia, NLP

CERTIFICATIONS   
Coursera: R Programming, The Data Scientist Toolbox  2015
Galvanize: Data science & big data analytics 2017

PROFESSIONAL TRAINING 
    MIT Professional education program in MACHINE LEARNING and text processing

PROFESSIONAL RECOGNITIONS        
   Microsoft Cheers Award, Microsoft Excellence award

PROFESSIONAL ROLES AND RESPONSINBILITIES   
    Building scalable system architecture for distributed applications
    Training junior developers in advance ML
    Prototyping and testing data driven products

【问题讨论】：

标签： python nlp topic-modeling spacy text-segmentation

【解决方案1】：

我使用字典来查找简历中出现的常用标题，然后根据是否出现该词对文本进行分段。此解决方案将需要不同部分的字典，通常出现在简历中。

【讨论】：

【解决方案2】：

如果您的用例是按类别对简历进行细分。您可以尝试使用无监督聚类机器学习算法。因为制作字典和规则需要更多的时间准备。
我将推荐以下步骤来实现您的用例：

创建简历数据库： 开发人员、devops、数据科学家、全栈等。
训练 K-means 模型
上传用户简历并预测用户集群、与质心的距离等。
显示结果

【讨论】：

嗨@Bhuvanesh，问题是重新分级从简历中提取内容，而不是为简历分配类别。
@joe 如果部分的类型（以及它们的数量）是固定的，您可以对部分标题进行聚类（基于一些矢量表示）。如果您设法收集一些标记数据，您甚至可以训练分类器。