| 开本:16开 |
| 纸张:胶版纸 |
| 包装:精装 |
| 是否套装:否 |
| 国际标准书号ISBN:9787522538464 |
| 所属分类:图书>医学>其他医学读物 |
新华书店正版,关注店铺成为会员可享店铺专属优惠,团购客户请咨询在线客服!重磅推荐
内容简介
本书聚焦于科技文献中学术图表的语义增强标注问题,旨在分析海量数据环境下科技文献中学术图表的精准、细粒度语义发现问题。本书完整阐述科技文献中学术图表语义增强标注的理论支撑、图表语义组织模型、图表语义标注方法等内容,形成一整套学术图表语义增强标注研究理论体系,这一体系能够为相关研究人员进行学术图表语义标注、语义发现等研究提供理论支撑。本书构建科技文献中学术图表本体表示模型,实现图表异构类型统一描述、图表所含信息全面组织、建立图表一论文一人一机构一基金一项目一补充数据集的有效关联,为异构学术资源的精准、细粒度发现提供新的技术研究思路和问题解决方案。
作者简介
丁培男,深圳大学,副研究馆员。毕业于中国科学院大学图书馆学专业,博士,研究方向知识组织与发现、科研数据管理。先后在《图书情报工作《图书馆论坛》《现代情报》等期刊上发表多篇论文,获第十一届深圳市哲学社会科学优秀成果奖“知网中国高被引学者”等荣誉。
目 录
导论
第一节研究缘起与意义
第二节研究思路与方法
第三节研究重点与难点
第四节研究创新及不足
第一章图表与论文
第一节图表的前世今生
第二节论文中的学术图表
第三节学术图表发现的历史和现在
第二章学术图表的信息组织
第一节学术图表元数据组织
第二节图表分类组织
第三节图表本体组织
第四节知识图谱组织导论
第一节研究缘起与意义
第二节研究思路与方法
第三节研究重点与难点
第四节研究创新及不足
第一章图表与论文
第一节图表的前世今生
第二节论文中的学术图表
第三节学术图表发现的历史和现在
第二章学术图表的信息组织
第一节学术图表元数据组织
第二节图表分类组织
第三节图表本体组织
第四节知识图谱组织
第三章学术图表本体构建
……
显示全部信息
媒体评论
导论 第一节研究缘起与意义 一、研究背景 科学数据的开放、共享与重用,已然成为全球高度重视的问题。 近年来,国外诸多科研资助机构、大学、数据中心、出版商、图书馆等都积极开展科学数据管理的实践活动。美国科学基金会、英国人文研究委员会、美国国家海洋和大气管理局等机构明确要求科研项目提供数据管理计划;牛津大学、霍普金斯大学、纽约大学、莫纳什大学等纷纷出台数据管理政策,要求科研人员提交并妥善保存科学数据;世界数据中心系统、千人基因组计划数据库、癌症基因组学中心等大型数据中心大力推行数据开放获取;期刊要求作者在文章正式发表前将相关数据公开,并存储至图书馆或数据中心的数据存储库中,出版集团于年月推出杂志《科学数据》;新墨西哥大学图书馆、康奈尔大学图书馆、普渡大学图书馆等也积极开展数据监护服务。这些实践举措有力地推动了科学数据的进一步开放,极大地提高了数据的可发现性和重用性。 科技文献中的学术图表是一类特殊的科学数据呈现形式。学术图表广泛存在于科技文献中,已然成为科技文献的基本构成元素。等人采集分析了和中的万篇科技文献,发现的论文仅没有图,而的文件仅没有图。等人从万篇文献中抽取了万张图片(其中复合图占比以上),平均每篇文献包含张以上图表,图表类型占比为:图像、照片、表格、等式、数据图。此外,作者还发现影响力越大的论文通常会包含更多的图表。生物医学领域,几乎每篇期刊文献都包含图像,而图像相较于任何其他类型信息更能体现医学文献中的证据内容。 学术图表是一系列、多步骤科学研究过程的最终产物,也是科学数据的部分内容展示。它被作者用于不同的用途,如多维度展示指标(表格)、呈现复杂结果(复合图)、展示特殊对象图)、直观呈现实验情况(照片、成像图),突出数据的对比、趋势、统计特征等内容,帮助读者更直观地理解论文,提供比摘要更多的信息。在科技论文论文)里,重要的科学研究成果通常借助图表予以解释说明。另一方面,读者通过阅读与查看文献中的学术图表来评判文档相关性,利用图表信息提高检索效率。同时,多数学术图表与学术研究过程中产生的科学数据同源,甚至是科学数据精华所在,因而学术图表是有效关联科技文献和科学数据的关键纽带。总之,学术图表对于科学研究及教育都是非常重要且不可或缺的内容,需要对其进行有效发现。 现有学术搜索引擎及学术论文数据库检索工具中,部分平台尝试在小范围的文献中通过人工构建图表的元数据索引,实现基于关键词的图表—文献关联发现,如早期剑桥科学文摘
的尝试;部分平台以图表注释、标题等内容为描述,借助实体识别技术抽取主题或者关键词,提供基于主题或关键词的学术图表发现,如能检索标题和图注中包含特定关键词的学术图,再如可基于标题关键词检索表格。这些实践在推动学术图表精准发现方面进行了有益尝试。 学术图表精准发现是指通过给定信息内容,查找及直接定位到学术图表,并展示图表的语义知识内容。相较于目前主流且成熟的学术文本内容发现,学术图表的精准发现还有较大进步空间。例如,目前只在数个特定平台实现图表检索,图表发现的深度停留在图表整体展示和简单文本描述内容(如图表标题、注释等)提供。研究发现,阻碍图表精准发现实现的关键原因是学术图表强语义内容和弱语义表示间存在较大差距。学术图表以非文本形式存在于或格式的论文中,现器发现多数仅仅识别图表为一个整体学术对象,描述简单,这意味着图表对机器理解而言是弱语义表达。而事实上,学术图表具有表现类型多样化、信息内容高度浓缩、与科学文献内容高度相关的特征,它是一个学术知识内容高度浓缩的学术对象。它不仅含有丰富的视觉语义内容,还有大量文本语义内容和外部关联语义内容,这些潜在的语义内容在当前图表发现实践中未能得到较好的表示。因此,如何让机器理解图表潜在的语义内容,进而帮助实现大规模学术图表精准发现,这成为亟待解决的问题。 未来学术知识服务体系需要细粒度知识组织,基于语义的知识关联,面向全类型资源的知识发现以及支持智能问答、精准刻画意图的认知计算。学术图表作为重要的学术知识表示对象,要融入未来学术知识服务体系。当前基于关键词搜索、相关度排序算法、显示分面的文献全文检索发现已经十分成熟,而在语义出版浪潮推动下,学术文本借助强语义表示(如文本主题词、文本的语篇单元分类)建立不同文本知识间的语义关联,这使得机器对学术文本的理解更为深入,进而有效提高学术文本精准、细粒度发现效果。这样的做法也为学术图表的精准、细粒度发现提供了很好的思路。 因此,本研究聚焦科技文献中学术图表的语义增强标注问题,深入研究学术图表语义表示模型、语义标注及其应用等内容,旨在借助学术图表的语义增强标注实现学术图表精准发现。 二、研究意义 本研究的核心研究问题聚焦科技文献中学术图表的语义增强标注,旨在解决海量数据环境下科技文献中学术图表的精准、细粒度语义发现问题。通过对学术图表进行形式化组织,多角度、深度揭示学术图表所含语义知识的类型及相互关系,便于机器及研究人员理解图表。同时建立学术图表—论文—人—机构—基金—项目—补充数据集等科学实体间语义关联,利于异构资源的统一发现。研究过程中产生的模型、方法、工具等,如学术图表本体模型、学术图表本体进化方法、基于本体的学术图表语义标注方法和学术图表发现平台等,具备良好的理论和技术应用价值。 (一)理论本研究在归纳总结当前国内外相关工作的基础上,完整阐述了科技文献中学术图表语义增强标注的理论支撑、图表语义组织模型、图表语义标注方法等内容,进而构建起一整套学术图表语义增强标注研究理论体系。该体系能够为从事相关研究的人员开展学术图表语义标注、语义发现等研究工作提供理论支撑。 (二)应用当前,学术图表的发现以元数据组织、元数据标注为主要特征,这难以满足海量异构学术知识精准、细粒度发现的需求。本研究构建科技文献中学术图表本体表示模型,实现对图表异构类型的统一描述、对图表所含信息的全面组织以及图表—论文—人—机构—基金—项目—补充数据集之间有效关联的建立,为异构学术资源的精准、细粒度发现提供新的技术研究思路和问题解决方案。 (三)领域本研究可以广泛应用于以下领域场景。应用于学术搜索引擎或数据库检索工具,满足研究人员检索学术图表数据的需求。研究人员可基于图表类型、图表上下文涵盖的主题词、实验信息(例如某方法、某设备)、图表结论等内容检索学术图表。例如检索应用方法的显微镜成像图,或检索支持“基因表达”结论的图表。结合图像识别技术可以实现以图查图,以图找文。应用于特定学科领域,帮助开展领域研究工作。学术图表语义增强标注可以帮助挖掘领域深度知识。例如在水稻领域内,基于标注数据,可以发现防治稻飞虱图表,而基于图表上下文的标注内容,可以归纳出水稻稻飞虱防治的基因表型、防治效果、种植生态模型、稻田环境、药物等不同图表内容。应用于异构信息资源发现系统。基于本体中所构建的学术图表—论文—人—机构—基金—项目—补充数据集语义桥梁,能实现异构信息资源的关联发现。例如研究人员能一站式发现论文、图表以及相关数据集。应用于学术查重系统。目前图表的查重系统尚未成熟,本研究通过细粒度的组织和标注学术图表,一定范围内能帮助学术图表查重,防止图表的不正规重用及数据造假。例如,在不同论文中发现包含同样数据对象和数据维度的图表,则需要警惕。为数据自动问答奠定框架基础。本研究虽未对图表中的数值数据实施语义增强,但对图表数值所关联的对象和维度进行了定义,未来可支持特定对象特定维度的数值问答,例如种类水稻在印度地区年的产量,或者基因在疾病中的参与度。图表摘要生成。作者有时候会忽略在论文中为他们的数字提供有意义的说明,本研究提出的图表描述框架及图表标注方法可以帮助生成直指图表实验信息内容的文本摘要。 第二节研究思路与方法 一、研究思路 为实现上述研究内容和目标,首先,对研究背景、研究意义和研究目标进行阐述。鉴于现有学术图表发现与未来融合论文-图表-数据的细粒度、精准知识发现需求之间存在矛盾,进而提出本研究需要解决的科学问题,即对学术图表进行语义增强标注。随后,将该问题分解为三个子问题,分别是构建学术图表本体模型、开展基于本体的学术图表语义增强标注、搭建本体驱动的学术图表知识发现平台。 针对每一个研究子问题,进一步分解其解决方案,运用不同的研究方法,得到相关的研究成果。 (一)学术图表本体模型部分 运用文献调研法、专家法、对比分析法、实验分析法等,研究本体构建理论,分析学术图表独有语义特征,本体复用,本体对象、属性及关系定义,本体进化等内容,最终形成学术图表本体、本体五步构建法、本体进化理论及实证等成果。 (二)基于本体的学术图表语义增强标注部分 主要运用文献调研和实验分析方法,从人工标注及自动标注两个维度切入,研究学术图表本体应用于学术图表语义增强标注的效果及其技术实现过程,形成学术图表异构信息内容抽取方法、学术图表自动语义标注方法等系列成果。 (三)本体驱动的学术图表知识发现实验性平台部分 运用实验分析法和对比分析法,研究基于学术图表本体的学术图表知识库构建及基于语义知识库数据的图表发现平台构建,以此验证学术图表语义增强标注用于学术图表发现时的可行性及有效性。 二、研究方法 本书所涉及的研究方法有以下几种(一)文献调研法 通过广泛且深入地调研国内外相关研究成果,对学术图表发现的历史演变进程、图表组织模型、图表信息抽取以及图表标注等内容进行总结梳理,描绘出“构建学术图表本体—基于本体的图表语义增强标注—基于图表语义增强标注的图表发现应用”的整体路线与方案。 (二)对比分析法 针对元数据、图表分类、本体这三种图表信息组织模式及其应用模式,从多个角度深入对比分析三者各自的优势与劣势,选择适合本研究目标的模型、特征、方法。 对比分析本研究所构建的学术图表发现实验性平台和现有不同类型图表发现平台,验证本研究所采用方法的先进性。 (三)专家访谈法 在学术图表本体构建环节,采用专家访谈方式,对学术图表本体模型中的概念及关系设计进行优化调整。 (四)实验分析法 在本体构建研究中开展人工标注实验,依据实验反馈情况,调整本体中的概念及关系设计,促使学术图表本体不断完善。 在自动语义增强标注研究中,以水稻领域文献为例,实验验证基于学术图表本体的自动信息抽取、自动语义标注技术的可行性,并在此基础上确定特征选取策略、分类算法。 在语义增强标注应用部分,构建水稻领域文献的学术图表语义知识发现实验性平台,借助该平台对本书构建的本体模型、基于学术图表本体的语义增强标注技术路线、方法等进行全面验证。 第三节研究重点与难点 本研究以科技文献中的学术图表作为研究对象,主要解决学术图表在机器理解中的弱语义表达和图表本身强语义内容间差距所导致的图表发现效果不佳这一应用问题。以解决应用问题为导向,本研究指出,揭示学术图表丰富的潜在语义内容,并将其表示为语义形式化内容,是实现图表精准发现的有效方法,由此提出本研究需要解决的科学问题,即对学术图表进行语义增强标注。 本书的研究目标是通过构建学术图表的本体模型,借助信息抽取、图像识别、机器学习、等语义标注技术,将学术图表所含的潜在语义信息及关联语义信息标注为机器能够理解和发现的语义标注内容,进而实现学术图表语义精准发现。 基于以上研究内容和研究目标,本书需要研究并解决三个关键问题。其一,如何构建一个能够支持机器自动语义信息提取和增强标注的学术图表本体,具体包括本体构建方法的选择、本体内容的确定、本体的动态更新等;其二,如何将本体模型应用于学术图表语义增强标注,包括标注技术路线、标注数据集构建、标注特征选择等;其三,学术图表语义增强标注如何实现图表精准语义发现,包括标注数据转换为学术图表语义知识库、本体驱动的学术图表知识发现系统构建等。 针对上述三个问题,本书具体开展以下内容研究(一)学术图表本体模型研究 学术图表信息组织模型是学术图表标注的基础。梳理国内外学术图表发现现状,深入研究现有学术图表不同信息组织方式,从语义来源、实现方式、应用效果等维度详细对比不同组织模式下图表发现的效果,进而确定本研究以本体方式来构建学术图表的信息组织模型;研究本体构建相关理论,确定适用的本体构建方法、流程及工具;分析学术图表不同于学术文本的独有语义特征,定义本体应用于图表发现的场景,基于的模式构建学术图表本体,形成描述完整、关系清晰、可实用的学术图表本体模型以下简称本体);为确保本体的可持续性,基于人工语义标注任务对学术图表本体实施本体进化。 (二)基于本体的学术图表语义增强标注研究 学术图表本体解决学术图表的知识组织表示与关联问题,为学术图表语义增强标注提供语义框架。基于本体的学术图表语义增强标注还需要解决信息抽取和实例标注问题。 从人工标注及自动标注两个维度,分别研究学术图表本体如何应用于学术图表语义增强标注过程。对数据库中水稻领域篇论文中的个学术图表实施基于学术图表本体的学术图表人工语义增强标注,以此验证学术图表本体框架有效性;结合文献研究与人工标注实践经验,明确学术图表自动语义增强标注流程包含以下三个步骤:图表定位及抽取、图表信息抽取、图表语义实例标注,区分两类学术文献格式、中学术图表自动语义增强标注的相关技术点;在格式论文中开展实验,进行基于本体的学术图表自动信息抽取、基于规则的语义增强标注及基于掩藏句子算法模型机器学习的语义增强标注,为大规模学术图表语义增强标注的实现铺垫技术基础。 (三)基于本体的学术图表语义增强标注应用研究 基于本体的学术图表语义增强标注的最终目的是服务于学术图表的精准发现。描绘学术图表语义增强标注应用框架,深入研究应用框架中学术图表知识库的构建流程,涵盖转换、存储、索引、查询等环节,并在人工语义标注数据集中进行实践,构建水稻领域学术图表语义知识库;以水稻学术图表语义知识库为底层数据,构建本体驱动的学术图表知识发现实验性平台,并从资源揭示、语义关联发现、系统架构等方面,将其与现有学术图表发现平台进行对比,验证学术图表语义增强标注用于学术图表发现应用的可行性及有效性。
显示全部信息
商品详情
内容简介
本书聚焦于科技文献中学术图表的语义增强标注问题,旨在分析海量数据环境下科技文献中学术图表的精准、细粒度语义发现问题。本书完整阐述科技文献中学术图表语义增强标注的理论支撑、图表语义组织模型、图表语义标注方法等内容,形成一整套学术图表语义增强标注研究理论体系,这一体系能够为相关研究人员进行学术图表语义标注、语义发现等研究提供理论支撑。本书构建科技文献中学术图表本体表示模型,实现图表异构类型统一描述、图表所含信息全面组织、建立图表一论文一人一机构一基金一项目一补充数据集的有效关联,为异构学术资源的精准、细粒度发现提供新的技术研究思路和问题解决方案。
作者简介
丁培男,深圳大学,副研究馆员。毕业于中国科学院大学图书馆学专业,博士,研究方向知识组织与发现、科研数据管理。先后在《图书情报工作《图书馆论坛》《现代情报》等期刊上发表多篇论文,获第十一届深圳市哲学社会科学优秀成果奖“知网中国高被引学者”等荣誉。
目 录
导论
第一节研究缘起与意义
第二节研究思路与方法
第三节研究重点与难点
第四节研究创新及不足
第一章图表与论文
第一节图表的前世今生
第二节论文中的学术图表
第三节学术图表发现的历史和现在
第二章学术图表的信息组织
第一节学术图表元数据组织
第二节图表分类组织
第三节图表本体组织
第四节知识图谱组织导论
第一节研究缘起与意义
第二节研究思路与方法
第三节研究重点与难点
第四节研究创新及不足
第一章图表与论文
第一节图表的前世今生
第二节论文中的学术图表
第三节学术图表发现的历史和现在
第二章学术图表的信息组织
第一节学术图表元数据组织
第二节图表分类组织
第三节图表本体组织
第四节知识图谱组织
第三章学术图表本体构建
……
显示全部信息
媒体评论
导论 第一节研究缘起与意义 一、研究背景 科学数据的开放、共享与重用,已然成为全球高度重视的问题。 近年来,国外诸多科研资助机构、大学、数据中心、出版商、图书馆等都积极开展科学数据管理的实践活动。美国科学基金会、英国人文研究委员会、美国国家海洋和大气管理局等机构明确要求科研项目提供数据管理计划;牛津大学、霍普金斯大学、纽约大学、莫纳什大学等纷纷出台数据管理政策,要求科研人员提交并妥善保存科学数据;世界数据中心系统、千人基因组计划数据库、癌症基因组学中心等大型数据中心大力推行数据开放获取;期刊要求作者在文章正式发表前将相关数据公开,并存储至图书馆或数据中心的数据存储库中,出版集团于年月推出杂志《科学数据》;新墨西哥大学图书馆、康奈尔大学图书馆、普渡大学图书馆等也积极开展数据监护服务。这些实践举措有力地推动了科学数据的进一步开放,极大地提高了数据的可发现性和重用性。 科技文献中的学术图表是一类特殊的科学数据呈现形式。学术图表广泛存在于科技文献中,已然成为科技文献的基本构成元素。等人采集分析了和中的万篇科技文献,发现的论文仅没有图,而的文件仅没有图。等人从万篇文献中抽取了万张图片(其中复合图占比以上),平均每篇文献包含张以上图表,图表类型占比为:图像、照片、表格、等式、数据图。此外,作者还发现影响力越大的论文通常会包含更多的图表。生物医学领域,几乎每篇期刊文献都包含图像,而图像相较于任何其他类型信息更能体现医学文献中的证据内容。 学术图表是一系列、多步骤科学研究过程的最终产物,也是科学数据的部分内容展示。它被作者用于不同的用途,如多维度展示指标(表格)、呈现复杂结果(复合图)、展示特殊对象图)、直观呈现实验情况(照片、成像图),突出数据的对比、趋势、统计特征等内容,帮助读者更直观地理解论文,提供比摘要更多的信息。在科技论文论文)里,重要的科学研究成果通常借助图表予以解释说明。另一方面,读者通过阅读与查看文献中的学术图表来评判文档相关性,利用图表信息提高检索效率。同时,多数学术图表与学术研究过程中产生的科学数据同源,甚至是科学数据精华所在,因而学术图表是有效关联科技文献和科学数据的关键纽带。总之,学术图表对于科学研究及教育都是非常重要且不可或缺的内容,需要对其进行有效发现。 现有学术搜索引擎及学术论文数据库检索工具中,部分平台尝试在小范围的文献中通过人工构建图表的元数据索引,实现基于关键词的图表—文献关联发现,如早期剑桥科学文摘
的尝试;部分平台以图表注释、标题等内容为描述,借助实体识别技术抽取主题或者关键词,提供基于主题或关键词的学术图表发现,如能检索标题和图注中包含特定关键词的学术图,再如可基于标题关键词检索表格。这些实践在推动学术图表精准发现方面进行了有益尝试。 学术图表精准发现是指通过给定信息内容,查找及直接定位到学术图表,并展示图表的语义知识内容。相较于目前主流且成熟的学术文本内容发现,学术图表的精准发现还有较大进步空间。例如,目前只在数个特定平台实现图表检索,图表发现的深度停留在图表整体展示和简单文本描述内容(如图表标题、注释等)提供。研究发现,阻碍图表精准发现实现的关键原因是学术图表强语义内容和弱语义表示间存在较大差距。学术图表以非文本形式存在于或格式的论文中,现器发现多数仅仅识别图表为一个整体学术对象,描述简单,这意味着图表对机器理解而言是弱语义表达。而事实上,学术图表具有表现类型多样化、信息内容高度浓缩、与科学文献内容高度相关的特征,它是一个学术知识内容高度浓缩的学术对象。它不仅含有丰富的视觉语义内容,还有大量文本语义内容和外部关联语义内容,这些潜在的语义内容在当前图表发现实践中未能得到较好的表示。因此,如何让机器理解图表潜在的语义内容,进而帮助实现大规模学术图表精准发现,这成为亟待解决的问题。 未来学术知识服务体系需要细粒度知识组织,基于语义的知识关联,面向全类型资源的知识发现以及支持智能问答、精准刻画意图的认知计算。学术图表作为重要的学术知识表示对象,要融入未来学术知识服务体系。当前基于关键词搜索、相关度排序算法、显示分面的文献全文检索发现已经十分成熟,而在语义出版浪潮推动下,学术文本借助强语义表示(如文本主题词、文本的语篇单元分类)建立不同文本知识间的语义关联,这使得机器对学术文本的理解更为深入,进而有效提高学术文本精准、细粒度发现效果。这样的做法也为学术图表的精准、细粒度发现提供了很好的思路。 因此,本研究聚焦科技文献中学术图表的语义增强标注问题,深入研究学术图表语义表示模型、语义标注及其应用等内容,旨在借助学术图表的语义增强标注实现学术图表精准发现。 二、研究意义 本研究的核心研究问题聚焦科技文献中学术图表的语义增强标注,旨在解决海量数据环境下科技文献中学术图表的精准、细粒度语义发现问题。通过对学术图表进行形式化组织,多角度、深度揭示学术图表所含语义知识的类型及相互关系,便于机器及研究人员理解图表。同时建立学术图表—论文—人—机构—基金—项目—补充数据集等科学实体间语义关联,利于异构资源的统一发现。研究过程中产生的模型、方法、工具等,如学术图表本体模型、学术图表本体进化方法、基于本体的学术图表语义标注方法和学术图表发现平台等,具备良好的理论和技术应用价值。 (一)理论本研究在归纳总结当前国内外相关工作的基础上,完整阐述了科技文献中学术图表语义增强标注的理论支撑、图表语义组织模型、图表语义标注方法等内容,进而构建起一整套学术图表语义增强标注研究理论体系。该体系能够为从事相关研究的人员开展学术图表语义标注、语义发现等研究工作提供理论支撑。 (二)应用当前,学术图表的发现以元数据组织、元数据标注为主要特征,这难以满足海量异构学术知识精准、细粒度发现的需求。本研究构建科技文献中学术图表本体表示模型,实现对图表异构类型的统一描述、对图表所含信息的全面组织以及图表—论文—人—机构—基金—项目—补充数据集之间有效关联的建立,为异构学术资源的精准、细粒度发现提供新的技术研究思路和问题解决方案。 (三)领域本研究可以广泛应用于以下领域场景。应用于学术搜索引擎或数据库检索工具,满足研究人员检索学术图表数据的需求。研究人员可基于图表类型、图表上下文涵盖的主题词、实验信息(例如某方法、某设备)、图表结论等内容检索学术图表。例如检索应用方法的显微镜成像图,或检索支持“基因表达”结论的图表。结合图像识别技术可以实现以图查图,以图找文。应用于特定学科领域,帮助开展领域研究工作。学术图表语义增强标注可以帮助挖掘领域深度知识。例如在水稻领域内,基于标注数据,可以发现防治稻飞虱图表,而基于图表上下文的标注内容,可以归纳出水稻稻飞虱防治的基因表型、防治效果、种植生态模型、稻田环境、药物等不同图表内容。应用于异构信息资源发现系统。基于本体中所构建的学术图表—论文—人—机构—基金—项目—补充数据集语义桥梁,能实现异构信息资源的关联发现。例如研究人员能一站式发现论文、图表以及相关数据集。应用于学术查重系统。目前图表的查重系统尚未成熟,本研究通过细粒度的组织和标注学术图表,一定范围内能帮助学术图表查重,防止图表的不正规重用及数据造假。例如,在不同论文中发现包含同样数据对象和数据维度的图表,则需要警惕。为数据自动问答奠定框架基础。本研究虽未对图表中的数值数据实施语义增强,但对图表数值所关联的对象和维度进行了定义,未来可支持特定对象特定维度的数值问答,例如种类水稻在印度地区年的产量,或者基因在疾病中的参与度。图表摘要生成。作者有时候会忽略在论文中为他们的数字提供有意义的说明,本研究提出的图表描述框架及图表标注方法可以帮助生成直指图表实验信息内容的文本摘要。 第二节研究思路与方法 一、研究思路 为实现上述研究内容和目标,首先,对研究背景、研究意义和研究目标进行阐述。鉴于现有学术图表发现与未来融合论文-图表-数据的细粒度、精准知识发现需求之间存在矛盾,进而提出本研究需要解决的科学问题,即对学术图表进行语义增强标注。随后,将该问题分解为三个子问题,分别是构建学术图表本体模型、开展基于本体的学术图表语义增强标注、搭建本体驱动的学术图表知识发现平台。 针对每一个研究子问题,进一步分解其解决方案,运用不同的研究方法,得到相关的研究成果。 (一)学术图表本体模型部分 运用文献调研法、专家法、对比分析法、实验分析法等,研究本体构建理论,分析学术图表独有语义特征,本体复用,本体对象、属性及关系定义,本体进化等内容,最终形成学术图表本体、本体五步构建法、本体进化理论及实证等成果。 (二)基于本体的学术图表语义增强标注部分 主要运用文献调研和实验分析方法,从人工标注及自动标注两个维度切入,研究学术图表本体应用于学术图表语义增强标注的效果及其技术实现过程,形成学术图表异构信息内容抽取方法、学术图表自动语义标注方法等系列成果。 (三)本体驱动的学术图表知识发现实验性平台部分 运用实验分析法和对比分析法,研究基于学术图表本体的学术图表知识库构建及基于语义知识库数据的图表发现平台构建,以此验证学术图表语义增强标注用于学术图表发现时的可行性及有效性。 二、研究方法 本书所涉及的研究方法有以下几种(一)文献调研法 通过广泛且深入地调研国内外相关研究成果,对学术图表发现的历史演变进程、图表组织模型、图表信息抽取以及图表标注等内容进行总结梳理,描绘出“构建学术图表本体—基于本体的图表语义增强标注—基于图表语义增强标注的图表发现应用”的整体路线与方案。 (二)对比分析法 针对元数据、图表分类、本体这三种图表信息组织模式及其应用模式,从多个角度深入对比分析三者各自的优势与劣势,选择适合本研究目标的模型、特征、方法。 对比分析本研究所构建的学术图表发现实验性平台和现有不同类型图表发现平台,验证本研究所采用方法的先进性。 (三)专家访谈法 在学术图表本体构建环节,采用专家访谈方式,对学术图表本体模型中的概念及关系设计进行优化调整。 (四)实验分析法 在本体构建研究中开展人工标注实验,依据实验反馈情况,调整本体中的概念及关系设计,促使学术图表本体不断完善。 在自动语义增强标注研究中,以水稻领域文献为例,实验验证基于学术图表本体的自动信息抽取、自动语义标注技术的可行性,并在此基础上确定特征选取策略、分类算法。 在语义增强标注应用部分,构建水稻领域文献的学术图表语义知识发现实验性平台,借助该平台对本书构建的本体模型、基于学术图表本体的语义增强标注技术路线、方法等进行全面验证。 第三节研究重点与难点 本研究以科技文献中的学术图表作为研究对象,主要解决学术图表在机器理解中的弱语义表达和图表本身强语义内容间差距所导致的图表发现效果不佳这一应用问题。以解决应用问题为导向,本研究指出,揭示学术图表丰富的潜在语义内容,并将其表示为语义形式化内容,是实现图表精准发现的有效方法,由此提出本研究需要解决的科学问题,即对学术图表进行语义增强标注。 本书的研究目标是通过构建学术图表的本体模型,借助信息抽取、图像识别、机器学习、等语义标注技术,将学术图表所含的潜在语义信息及关联语义信息标注为机器能够理解和发现的语义标注内容,进而实现学术图表语义精准发现。 基于以上研究内容和研究目标,本书需要研究并解决三个关键问题。其一,如何构建一个能够支持机器自动语义信息提取和增强标注的学术图表本体,具体包括本体构建方法的选择、本体内容的确定、本体的动态更新等;其二,如何将本体模型应用于学术图表语义增强标注,包括标注技术路线、标注数据集构建、标注特征选择等;其三,学术图表语义增强标注如何实现图表精准语义发现,包括标注数据转换为学术图表语义知识库、本体驱动的学术图表知识发现系统构建等。 针对上述三个问题,本书具体开展以下内容研究(一)学术图表本体模型研究 学术图表信息组织模型是学术图表标注的基础。梳理国内外学术图表发现现状,深入研究现有学术图表不同信息组织方式,从语义来源、实现方式、应用效果等维度详细对比不同组织模式下图表发现的效果,进而确定本研究以本体方式来构建学术图表的信息组织模型;研究本体构建相关理论,确定适用的本体构建方法、流程及工具;分析学术图表不同于学术文本的独有语义特征,定义本体应用于图表发现的场景,基于的模式构建学术图表本体,形成描述完整、关系清晰、可实用的学术图表本体模型以下简称本体);为确保本体的可持续性,基于人工语义标注任务对学术图表本体实施本体进化。 (二)基于本体的学术图表语义增强标注研究 学术图表本体解决学术图表的知识组织表示与关联问题,为学术图表语义增强标注提供语义框架。基于本体的学术图表语义增强标注还需要解决信息抽取和实例标注问题。 从人工标注及自动标注两个维度,分别研究学术图表本体如何应用于学术图表语义增强标注过程。对数据库中水稻领域篇论文中的个学术图表实施基于学术图表本体的学术图表人工语义增强标注,以此验证学术图表本体框架有效性;结合文献研究与人工标注实践经验,明确学术图表自动语义增强标注流程包含以下三个步骤:图表定位及抽取、图表信息抽取、图表语义实例标注,区分两类学术文献格式、中学术图表自动语义增强标注的相关技术点;在格式论文中开展实验,进行基于本体的学术图表自动信息抽取、基于规则的语义增强标注及基于掩藏句子算法模型机器学习的语义增强标注,为大规模学术图表语义增强标注的实现铺垫技术基础。 (三)基于本体的学术图表语义增强标注应用研究 基于本体的学术图表语义增强标注的最终目的是服务于学术图表的精准发现。描绘学术图表语义增强标注应用框架,深入研究应用框架中学术图表知识库的构建流程,涵盖转换、存储、索引、查询等环节,并在人工语义标注数据集中进行实践,构建水稻领域学术图表语义知识库;以水稻学术图表语义知识库为底层数据,构建本体驱动的学术图表知识发现实验性平台,并从资源揭示、语义关联发现、系统架构等方面,将其与现有学术图表发现平台进行对比,验证学术图表语义增强标注用于学术图表发现应用的可行性及有效性。
显示全部信息
商品详情