【信息检索】【概念构建一览表】

文章目录

检索语言的含义

检索语言的分类
按信息标识的组合使用方法（先组式语言、后组式语言和散组式语言）

检索语言的理论基础 (概念逻辑、知识分类和术语学)

概念逻辑
概念间的关系
概念逻辑方法

知识分类
术语学

分类检索语言/分类法

体系分类法
体系分类法的结构分为微观结构和宏观结构。
主要体系分类法介绍

《中国图书馆分类法》：简称《中图法》
《杜威十进分类法》
《国际十进制分类法》
组配分类法
《冒号分类法》

主题检索语言/主题法

主题检索语言与分类检索语言的相同点
分类主题一体化检索语言
《中国分类主题词表》
网络信息检索语言

自然语言在信息检索中的应用

自然语言信息检索系统与受控语言信息检索系统相比

检索语言的含义

【信息检索】【概念构建一览表】

检索语言的分类

【信息检索】【概念构建一览表】

分类语言，用分类号来表达各种概念，将各种概念按学科性质进行分类和系统编排。

主题语言，是采用表达某一事物或概念的名词术语，用于标引、存储、检索的一种检索语言

代码语言，一般只是就事物的某一方面特征，用某种代码系统来加以标引和排列。

引文语言，是利用文献之间的相互引证关系而建立的一种自然语言，其标引词来自文献的主要著录项目。它具有选词方便、词汇丰富等特点。

按信息标识的组合使用方法（先组式语言、后组式语言和散组式语言）

先组式语言指表达信息主题概念的标识在编制词表时就已固定组配好，信息存储和检索人员在标引和查找信息时，依据词表选用组配好的主题标识进行操作
（体系分类法和标题词法）

后组式语言指在词表编制和标引信息时不规定表达主题标识的组配关系，在检索时再根据需要将各个标识进行组配，来表达较为复杂的主题概念。
（叙词语言和单元词语言）

散组式语言是指对于复杂的主题标识，在词表中不组配，而是在标引阶段将表达主题概念的若干个标识，根据一定的的规则组配在一起的检索语言，如《冒号分类法》。

检索语言的理论基础 (概念逻辑、知识分类和术语学)

概念逻辑

检索语言都是表达一系列概括信息内容的概念及其相互关系的概念标识系统。

概念逻辑，是一种科学思维方法，通过明确各种概念及其相互关系而揭示事物的本质属性及各种事物之间的联系与区别。

概念是事物本质属性的概括。

任何概念都有其内涵与外延。某一概念的内涵指其反映事物的本质属性；外延指其反映事物的范围，它们之间存在着反变关系

概念间的关系

概念之间的关系，按其外延是否有相同部分，可归结为相容关系与不相容关系

如果两个概念的外延至少有一部分相重合，则两者之间是相容关系
如果两个概念的外延没有相重合的部分，则两者之间是不相容关系。【信息检索】【概念构建一览表】

概念逻辑方法

【信息检索】【概念构建一览表】
①概念的划分与概括（分类）：对概念进行划分（缩小）或概括（扩大），形成更为专指或更为泛指的新概念，并利用划分或概括过程中所产生的概念隶属关系和并列关系，建立概念等级体系。

体系分类法

②概念的分析与综合（组配）：即利用在概念的交叉关系中两个概念外延的相同部分可以形成一个新概念，并且它与原来的两个概念具有隶属关系的这种性质，进一步发展为将一个内涵较深的概念分解为两个或两个以上内涵较浅的概念的一种概念逻辑方法，即概念组配体系。

叙词语言与组配分类法

知识分类

其实质是划分知识单元、组织知识体系
包括学科分类和事物分类。
学科分类是以信息的学科属性为分类标准
事物分类是根据事物属性的异同将事物划分成类

学科分类是知识分类的主题，事物分类是知识分类的基础。

知识分类应当遵循的两条基本原则是客观性和发展性。
客观性原则即应依据知识对象固有的、客观存在的区别和联系。
发展性原则是指知识分类应按照学科或事物的发展规律

术语学

术语是在特定学科领域用来表示概念的称谓的集合，约定性语言符号。

研究概念、概念定义和概念命名基本规律的学科即术语学。

检索语言是由概念标识系统组成的，而概念是由术语来表达的，因此，术语是分类表、词表的基本组成要素，检索语言其实就是一个经过精细组织的术语集。

概念逻辑是检索语言的基础，则知识分类便是概念逻辑的基础。

检索语言中的体系分类法、组配分类法、叙词法等，都在不同程度上反映了知识分类。

分类检索语言/分类法

通过标记符号（分类号）来代表各级类目和固定其先后次序的分类体系。

分类法按学科、专业集中文献信息，并从知识分类角度揭示各类文献信息在内容上的区别和联系，提供从知识分类检索文献信息的途径。

（体系分类法和组配分类法）

体系分类法

等级列举式分类法。是基于概念的划分与概括，以学科分类为基础的等级结构体系。具有代表性的体系分类法有《杜威十进分类法》、《美国国会图书馆分类法》、《中国图书馆分类法》、《中国人民大学图书馆图书分类法》等。

体系分类法的主要特点是：
①按学科、专业属性构建类目体系
②采用等级列举式的概念标识系统来揭示概念之间的相互关系
③采用分类号作为主题的标识，不受语种的限制。

体系分类法的结构分为微观结构和宏观结构。

①微观结构
微观结构指分类法中类目的构成结构。

按照类目之间的关系建立起来的类目集合称为类目体系，类目体系是分类法的核心，它的建立涉及类目的划分、引用次序、类目的排列、类名的确定、类目之间的相互关系的处理等。

②宏观结构
按功能分，一般由以下四部分构成：类目体系、标记系统、说明与注释、类目索引。
1)类目体系：类目体系是按照类目之间关系建立起来的类目集合。
2）标记系统：标记系统是分类语言所有标记符号的集合。
3)说明与注释：说明与注释是对分类表结构及使用方法的揭示
4)类目索引：类目索引是从类目名称字顺查找相应分类号的类表辅助工具

主要体系分类法介绍

【信息检索】【概念构建一览表】

《中国图书馆分类法》：简称《中图法》

它是由国家图书馆等单位组织全国力量，以学科分类为基础，并结合图书的特性所编制的分类法。它将学科分成五大部类，基本序列是：马克思主义、列宁主义、毛泽东思想、邓小平理论，哲学，社会科学，自然科学，综合性图书，由5大部类、22个大类组成一个完善的分类体系标记制度。

《杜威十进分类法》

四卷本。卷一为编制说明和通用复分表，卷二、卷三为类表，卷四为索引和使用手册。它依据哲学家培根的知识分类思想，将图书分为十大类：总论，哲学，宗教，社会科学，语言学，自然科学，技术科学，美术，文学，史地。在美国，大部分的公共图书馆及学校图书馆都在使用这种分类法。

《国际十进制分类法》

《国际十进制分类法》（UDC）也称《通用十进分类法》。UDC是一种文献分类表，其分类对象为各种类型文献，包括小册子、科技报告和期刊论文等。目前，UDC主要用于欧洲各国的专业图书馆、文献中心和情报机构。
UDC的主表是在DDC基本结构的基础发展起来的一个层层展开的十进制系统，其基本大类序列如下：0总论、科学与知识；1哲学、心理学；2宗教、神学；3社会科学；4（暂空）5数学、自然科学；6应用科学、医学、技术；7艺术、文娱、体育；8语言、语言学、文学；9地理、传记、历史。

组配分类法

（1）组配分类法的定义：分面分类法或分面组配分类法，是基于概念的可分析性和可综合性，将一个复杂的文献主题概念用若干个表达简单概念的标识组配来表达的一种文献分类法
（2）组配分类法的分类：可分为全分面分类法和半分面分类法两种。《冒号分类法》、《布利斯书目分类法》等，这种分类法一般是综合性或者多学科的分类法。

（4）组配分类表
组配分类表是由编制说明、基本类表、分面类表和分面公式以及通用辅表组成，它的建立，主要采用了分面分析法。

《冒号分类法》

《冒号分类法》提出了五个基本范畴的理论。它们依次是：本体personality、物质material、动力energy、空间space、时间time。通过这五个基本范畴来分析、归纳和组织文献。每个基本范畴都采用特定的指示符表示P/M/E/S/T。在第7版中，又将物质面进一步分解成3个方面：物质M, 物质性质MP,物质方法MM。冒号分类法创立了分面标记制度，使每一特定的主题有一个特定的类号，并在号码中把主题的组成要素反映出来，针对列举式的类表和单线式的标记还提出了一些其他的标记方法，如八分法、百分法（双位法）等。

主题检索语言/主题法

（1）主题检索语言的含义：主题检索语言又称主题法。它采用语词直接作为文献主题标识，按字顺排列主题标识，提供各种检索词语的途径。

主题检索语言可分为标题词语言、单元词语言、叙词语言和关键词语言。
①标题词语言
标题词语言是一种先组定组式语言，它选择标题词作为文献内容的标识和检索依据，具体表现为标题词表的利用。比较典型的标题词表有《工程标题词表》。

②单元词语言
单元词语言是以单元词作为语词标识对文献进行标引与检索的主题检索语言，是一种后组式语言。单元词法采用后组配的方式，在标引时不组配单元词，在检索时才对单元词下所列的文献号进行对比，号码相同的就表示有组配关系。

③关键词语言
是直接从原文的标题、摘要或全文中抽选出来，具有实质意义的，未经规范化处理的自然语言词汇。

④叙词语言
1）叙词语言的原理
叙词语言是以表示单元概念的规范化语词为基础，以概念组配为基本原理，对文献主题进行描述的后组式检索语言。
叙词是指一些以概念为基础的、经过规范化的、具有组配功能并可以显示词间关系和动态性的词或词组

叙词表是叙词语言的核心体现。叙词表一般由一个主表和若干个附表构成。

（4）主要主题词表介绍
目前，国内外的主题词表有许多，如国外使用最广的综合标题词表《美国国会图书馆主题词表》、专业叙词表《医学主题词表》，国内比较有影响的主题词表有《汉语主题词表》、《中国分类主题词表》、《社会科学检索词表》《中国档案主题词表》等。其中，《汉语主题词表》在国内的影响最大。

《汉语主题词表》是我国第一部大型的综合性的叙词表。由中国科技信息研究所和北京图书馆负责主持，分为社会科学、自然科学和附表3卷，共10个分册。其结构体系比较全面，由主表（字顺表）、附表、词族索引、范畴索引和英汉对照索引组成。主表（字顺表）包括社会科学和自然科学两部分，是词表的主体部分，由全部正式叙词款目和非正式叙词款目组成，所有款目严格按汉语拼音音序排列。每一个叙词款目的结构包括叙词、汉语拼音、英文译名、范畴号、注释项及其语义关系项等。附表包括4种专有词汇表：世界各国政区名称、自然地理区划名称、组织机构名称和人物。词族索引又称族系索引、等级索引，是将主表中具有属分关系的正式主题词集中在一起，显示词间从属关系的一种索引系统。词族索引用来揭示主题词之间族系关系，满足族性检索的需要。范畴索引是主表中全部叙词的分类索引。它将全部叙词和非叙词按社会科学和自然科学两大范畴划分为58个大类，方便人们从分类角度查找与某一范围内容相关的主题词。英汉对照索引是将主表和附表中的正式和非正式主题词的英文按字母顺序排列的一种索引，是通过英译名来选择主题词的辅助工具。

主题检索语言与分类检索语言的相同点

【看相关论文：主题法与分类法的比较】
（1）主题检索语言与分类检索语言同样都是表现文献内容特征的检索语言；
（2）描述和揭示的对象都是各种各样的文献；
（3）它们都是建立在概念逻辑、知识分类和术语学的基础上，即利用区分概念的各种逻辑规则来显示词与词之间的关系，利用概念分析与综合的逻辑方法来构造标引语词；
（4）在应用知识分类方面主要是应用事物分类原理。

分类主题一体化检索语言

分类主题一体化检索语言/分类主题一体化词表，是指在一个检索语言系统中，对它们的分类表部分和叙词表部分的术语、参照、标识及索引实施统一的控制，使两者有机地融合为一体，从而能够同时满足分类和主题标引、检索的需要，发挥其最佳的整体效应。

按照兼容互换的方式，可分为三种类型：分面叙词表、分类表—叙词表对照索引和集成词表。
①分面叙词表：是以艾奇逊等主编的世界上第一部一体化词表的名称命名的，它也是最典型，影响最大的分类主题一体化检索语言。一般由分类表和叙词表两大部分组成，有的还附有轮排索引及英汉对照索引。分类表和叙词表通过分类号相联系，分类表主要起字顺索引的作用，而叙词表则不仅起着传统叙词表范畴和词族索引的作用，还可以直接用于主题标引。
我国编制出版的分面叙词表有《教育主题词表》、《农业科学叙词表》、《音像资料叙词表》等。
②分类表—叙词表对照索引：通常由分类号与主题词对应表、主题词与分类号对应表两部分组成。

我国编制出版的《中国分类主题词表》、《中图法教育专业分类表》等就属于此类型的词表。

③集成词表：是将某些特定主题领域的若干叙词表和分类表汇编而成的一种词表，可以用于联合分类标引和主题标引，用于实现分类表和叙词表之间的兼容互换。

《中国分类主题词表》

《中国分类主题词表》是在《中图法》第三版和《汉语主题词表》的基础上编制的我国第一部分类检索语言和主题检索语言相互兼容对照索引式的一体化词表。

全表共分两卷6册，包括《分类号—主题词对应表》和《主题词—分类号对应表》两部分。

第1卷《分类号—主题词对应表》以《中图法》的类目体系为基础，将《汉语主题词表》的全部主题词以及增加的主题词兼容对应于各级类目之下，可视为一部以主题词作注释的新版《中图法》。其主要功能是文献分类标引和通过分类的途径查找主题词。进而进行主题标引。

第2卷《主题词—分类号对应表》是从主题词到分类号的对照索引体系。它按主题词的字顺排列，其后列出对应的分类号。其主要功能是进行文献主题标引和通过主题查找相关的分类号，作为分类标引的辅助手段。

（优点）《中国分类主题词表》是分类与主题、先组式检索语言与后组式检索语言相结合的一体化检索语言体系。

同时，由于分类号和主题词之间建立了对应联系，有利于在检索系统中实现分类号与主题词之间的相互转换，从而提高检索效率。

（不足）《中国分类主题词表》也存在一些不足，如没有编制主题词轮排索引和英汉对照索引，标引组配不够灵活，而且，在分类号和主题词的对应过程中，受到主观因素的影响，也很难做到完全的科学和准确。

网络信息检索语言

（一）检索语言面临的网络环境

（1）信息类型的变化
（2）信息数量与质量的变化
（3）信息检索技术的变化
（4）信息用户的变化

（二）网络环境下的分类检索语言
（1）在形式上，实现了电子化和体系结构的多维化
①分类法的电子化。
②分类体系结构的多维化。
（2）在内容上，编制方法作了很大的调整，主要表现为聚类标准的主题化、类目划分的随意性、类目排列的非逻辑性和类名的通俗化等。

（三）网络环境下的主题检索语言

（1）传统主题检索语言在网络信息检索系统中的应用
传统主题检索语言在网络信息检索中的应用主要表现在标题语言、叙词语言和关键词语言在网络信息检索系统中的应用。
（2）辅助词表的应用
辅助词表的主要类型有后控词表、禁用词表、同义字词典和反义字词典等。
①后控词表：也称为词间关系表，是利用受控语言的基本原理和方法编制的自然语言检索用词表。

②禁用词表：也称停用词表、禁用词典、禁用单元词表等，是将一些单独使用时无检索意义，或者出现频率过高的词作为检索系统的非检索用词，以对检索词的有效性进行控制。

③同义字词典和反义字词典：是根据把用户检索标识转换成规范性叙词，或者扩展出所有可能出现的同义词、近义词和反义词以提高查全率的目的编制，基于主题语言，显示概念等同关系原理而产生的。

自然语言在信息检索中的应用

自然语言指直接取自文献本身，不经加工和规范的语言

自然语言信息检索系统与受控语言信息检索系统相比

受控语言信息检索系统是在信息需求输入系统之前进行控制，控制的工具是人工编制的词表或分类表，而且需要主观的思考和分析

但自然语言信息检索系统主要是在输入系统之后，在系统内部进行控制，文献信息输入时基本不做处理，而主要依赖后控，即将自然语言转换为系统的提问，并对同义、近义、相关等关系的词进行组织。同时，自然语言检索系统与计算机自动标引和自动分词等技术紧密地联系在一起。

自然语言在信息检索中的应用主要表现为使用关键词的全文检索。全文检索是指不经过任何标引，而直接通过计算机以自然语言的形式在文本中进行匹配查找。文本中任何字符和字符串均可作为检索入口。因此，全文检索是一种不依赖叙词表而直接使用自由词的检索方法

国外著名的全文检索系统有：ProQuest系列数据库、EBSCO数据库、SpringerLink全文数据库、Alta Vista全文搜索引擎等。

国内比较著名的全文检索系统主要有：《中国期刊全文数据库》、《中文科技期刊数据库》、万方数据资源系统等。