自然语言叙词表自动构建研究(情报检索语言与智能信息处理丛书) 7564119136/978756411

配送至
$ $ USD 美元

《自然语言叙词表自动构建研究》内容简介:叙词表是提高网络信息检索效率的重要工具。信息环境的改变要求传统词表编制模式过渡到自动化编表阶段。在借鉴国内外词表编制经验和相关研究的基础上,《自然语言叙词表自动构建研究》提出了中文叙词表自动构建方案,通过实证分析系统阐述了词表构建各个阶段的原理、方法和相关技术,并对所构建的词表进行测评和自动标引实验。本文结构清晰,论述简明详尽,可作为信息组织和情报检索研究的参考用书。
编辑推荐
《自然语言叙词表自动构建研究》:情报检索语言与智能信息处理丛书
作者简介
杜慧平,1980年生,河北省秦皇岛人,2004年毕业于南京农业大学信息管理与信息系统专业,获管理学学士学位,2007年于南京农业大学获得情报学硕士学位,2009年进入南京大学信息管珲系攻读博士学位。现在上海师范大学图书馆工作,主要研究方向足信恩兰}{织和信息柃索,曾参加一项国家社会科学基金项目的研究工作,目前已经发表专业学术论文十余篇。 仲云云,女,1979年9月出生于江苏省东海县,中共党员。2001年6月在南京农业大学信息管理专业获理学学士学位:并留校执教。2007年1月获情报学专业管理学硕士学位。2008年8月至今,西安交通大学经济与金融学院区域经济学专业在读博士,师从袁晓玲教授。研究方向为信息检索、区域经济发展等。先后参与国家社会科学基金及西安交通大学985工程等项目研究,已发表专业论文数篇。
目录
第1章 绪论 1.1 网络信息检索现状 1.2 叙词表编制及应用面临的主要问题 1.3 本文研究的主要内容及意义 1.4 本章小结 第2章 叙词表编制和应用概述 2.1 叙词表在网络环境中的应用现状和趋势 2.2 叙词表编制方式概述 2.3 国外词表管理软件简介 2.4 本章小结 第3章 叙词表自动构建研究进展 3.1 国外叙词表自动构建研究进展 3.2 中文叙词表编制技术研究进展 3.3 中文叙词表自动构建可行性分析 3.4 本章小结 第4章 叙词表自动构建理论 4.1 叙词表自动构建理论依据 4.2 叙词表自动构建原则 4.3 叙词表自动构建研究方法和技术 4.4 本章小结 第5章 自然语言叙词表自动构建方案 5.1 “内核受控,外壳非控”的自然语言叙词表模式 5.2 自然语言叙词表收词与选词 5.3 关联概念空间生成 5.4 自然语言叙词表词间关系自动识别 5.5 自然语言叙词表的存储与显示 5.6 自然语言叙词表的更新与维护 5.7 本章小结 第6章 基于词聚类的等级关系识别 6.1 词聚类研究概述 6.2 基于相似度矩阵的词聚类算法 6.3 词素聚类方法 6.4 本章小结 第7章 系统设计与词表测评 7.1 系统设计思路 7.2 系统流程设计 7.3 系统总体设计 7.4 试验数据描述 7.5 自然语言叙词表的性能评价 7.6 本章小结 第8章 自然语言叙诃表与自动标引 8.1 自动标引概述 8.2 基于自然语言叙词表的自动标引 8.3 自动标引结果测评 8.4 本章小结 附录1 内核主题词字顺表(样例) 附录2 词间关系表(样例) 附录3 自动标引与人工标引结果比较(样例) 名称索引 主题索引 后记 图表目次 图2-1 叙词表编制机构分布 图2-2 叙词表编制年代分布 图2-3 英国文化遗产图示叙词表 图2-4 思维导图可视化词典 图3-1 传统手工编表模式 图3-2 一体化词表编制模式 图5-1 “内核受控,外壳非控”词表模式的使用 图5-2 关联概念空间生成流程 图5-3 新词识别流程 图5-4 新词识别模块 图6-1 聚类过程描述
序言
将检索语言中的词汇控制方法引入文本检索,是改进网络环境下自然语言检索系统性能的重要手段。如何结合自然语言处理技术,通过人机结合的方式进行词间关系的处理,则是其中的关键环节之一。本书正是针对这一迫切需要解决的问题进行的研究和探索。显然,本书中所说的自然语言叙词法已经不是传统意义上的叙词法,而是指以文本中数量巨大的自、然语言词汇为对象,采用传统叙词法词间关系的控制形式,包括按等级、等同和相关关系等建立的词汇系统,以便据此在网络环境下的文本检索中结合使用。这使得本书的研究更加具有普遍意义。 作为国内第一本系统探索叙词表自动编制理论和方法的专著,本书做了大量开创性的工作。首先,本书对国内外自动编制的理论方法做了较好’的梳理,并且详细标注了相关引用参考文献,可供研究者在此基础上进一步扩大阅读;其次,书中采用了实证研究的方式,以财税领域词表构建为例,提出中文叙词表自动构建方案,对词表构建各个阶段的理论、方法和相关技术系统进行阐述,言之有据,便于理解;此外,书中的许多探索,从自然语言叙词表概念的提出,到基于词聚类的等级关系识别方法的探索等,均颇具新意。尽管从目前应用的角度看,书中提出的一些新的理念与其实现方式,以及技术方法方面的试验改进,有待在今后的实践中进一步发展和完善,但它们对这一领域探索中的启发作用是不言而喻的。
后记
侯汉清教授于2003年在《电子政务词表编制方案和编制规则》手稿中提出了“内核受控,外壳非控”的信息检索系统模型。在此基础上,本文提出了一种自然语言叙词表自动构建思路和方法,并实现了该系统。对于词表内核部分词汇,通过构建关联概念空间并采用词聚类算法挖掘关联概念空间内潜在词汇等级关系和相关关系;并利用模式匹配方法同时结合使用词面相似度算法识别同义词,构建词间等同关系,从而自动构建了一部“内核受控,外壳非控”的财税领域自然语言词表,并利用该词表进行自动标引实验。 可以说,该词表模式是网络环境下自然语言与受控语言较为合理、可行的结合方式之一,能够有效提高网络信息检索的效率。另外,本文提出一种基于相似度矩阵的词聚类方法,用于词间等级关系识别。这有效克服了单独采用字面成族原理聚类等级词汇方法的弊端,能把字面上无相似性的等级关系词汇聚集在一起。 当然,本系统还存在一些不足和缺陷,在此一并总结并提出如下改进建议: (1)在词表收词阶段,由于资源所限无法统计和收录用户检索用语,在贯彻“用户保障性原则”上不足。在实际应用中,构建某领域词表系统时获得该领域相关机构网站的支持并提供检索日志,是个很好的词汇收集来源,可以弥补以上不足。 (2)词聚类算法性能还有待提高。主要表现在两点:聚类结果中存在部分噪音;算法运行比较慢。
文摘
插图: (1)编表速度快,费用低,时效性强。以前,叙词表完全靠手工编制,虽能够精确把握词间关系,结构复杂可靠,但是需要投入大量具有特殊要求的专业人员,成本高,构建速度慢,不易维护,而且无法克服知识获取瓶颈,即对标引员或领域专家具有创建叙词表的认知要求,因此词表编制是一项知识密集型劳动,工作量大,历时长。网络时代信息增长迅速,更新快,新词不断涌现,单纯靠手工编制词表是不现实的,这是叙词表在网络时代得不到推广使用的重要原因之一。自动构建叙词表,采用统计方法和自然语言处理技术,主要通过知识挖掘理论和方法识别潜在于语料库中的词汇语义关系,减轻编表人员的智力负担,基本保证词表质量,也能及时收录专业领域内的新概念和术语,用于词表更新。它弥补了手工编制词表的不足,具有良好的发展前景。 (2)词汇直接来源于本领域文本语料库,能客观真实地反映该领域的知识框架,提高专业领域信息检索的效率。自动构建的自然语言叙词表能够克服现有叙词表应用在网络信息检索系统中所遇到的困难。其收词一般直接来源于领域自然语言语料库,更能代表本领域的知识框架,概念更专指,能有效克服“嵌入迷失问题”(词表过大导致用户迷失了方向)和“艺术博物馆现象”(用户花了很多时间却没有找到任何有用信息)。所以用自动生成叙词表的方法,有针对性地构建专业领域叙词表,是改进信息检索效果的有效途径。另外自动构建叙词表对于新兴领域尤其适用。(3)符合网络环境中普通大众的检索习惯。随着网络的普及,信息载体逐渐从纸质文献向网页转移,人们逐渐习惯于上网搜索自己所需的知识。
ISBN7564119136/978756411
出版社东南大学出版社
作者杜慧平
尺寸32