信息检索技巧复习资料(部分)
信息检索基本知识
基本概念
信息
定义
没有任何约束条件的本体论层次,即信息是一种客观存在的现象,是事物运动状态及其变化方式的表现形式
受主体约束的认识论层次,即信息就是主体所感知或所表述的事物运动状态及其变化方式。其概念涵盖:
①语法信息
②语义信息
③语用信息
对本课程而言,更有意义的是认识论层次上的信息定义,即信息是认识主体所感知或表达的事物运动状态及其变化方式
分类
按信息产生的客体性质分
自然信息、生物信息、机器信息和社会信息
按信息所依附的载体分
文献信息、口头信息、电子信息等
信息源
- 定义
信息的来源,包括一切产生、记载、持有或传递信息的媒介、个人和机构
信息管理领域:“人们在科研活动、生产经营活动和其它一切活动中所产生的成果和各种原始记录,以及对这些成果和原始记录加工整理得到的成品”,又可进一步分为文献信息源和非文献信息源(包括口头信息源、实物信息源)
- 分类(根据对信息源加工的层次和集约程度)
一次信息源(本体论信息源):所有物质
二次信息源:主要存在于人的大脑中,经传播、咨询等活动能被感知的信息
三次信息源(再生信息源):文献信息、电子信息、实物信息等加工过的信息(经过人类加工处理即成为可利用的信息资源)
四次信息源(集约信息源):文献信息或实物信息的集约化和系统化,如档案馆、图书馆、数据库、博物馆、样品室、展览馆、标本室等
信息资源
附加了人类劳动的信息
对文献信息和非文献信息进行加工和集成,构成相应的信息资源
信息检索(Information Retrieval)
通过一定的方法,从任一信息集合中查出特定信息的过程。——徐云,张婧《医学信息检索》
从大规模非结构化数据(通常是文本)的集合(通常保存在计算机上)中找出满足用户需求的资料(通常是文档)的过程——克里斯托夫·曼宁《信息检索导论》
文献
文献检索
- 获取有关的图书报刊、缩微资料、声像资料和数据库文献的过程
文献分类
文献的级次是根据文献加工深度的不同来区分的,各具一定的用途:
一次文献是作者的原始论文,带有创造性。
二次文献是在一次文献基础上汇集而成的检索工具,带有浓缩性。
三次文献是在一次文献及二次文献基础上分析概括出的成果,带有综合性。
所以,从一次文献到三次文献,是一个由分散到集中、由无序化到系统化的过程。
1)一次文献(primary document)
又称原始文献,是作者以自己研究的科研成果、科学实验的总结和新产品的设计为依据、创作或写成的原始论文,作为新技术、新知识、新发明、新创造进行报道,它们无论是手稿、印刷品、声像制品还是复品都称为一次文献。专利说明书及期刊上发表的论文一般都属于一次文献。是文献检索最终查寻的结果。
2)二次文献(secondary document)
又称检索工具,二次文献是将分散无序一次文献,按一定规则进行浓缩、加工、整理和组织而形成的目录、索引、文摘、题录等。它能够全面、系统、广泛、完整地报道某学科、某专业或某一专题的一次文献资料,为读者了解某学科的进展、概貌,以及查找一次文献提供方便。
读者可以通过二次文献查找一次文献(即原始文献)的出处。也就是说:一次文献发表在先,二次文献发表在后。文献检索课就主要是介绍二次文献——检索工具的一般规律及使用方法。
3)三次文献(tertiary document)
又称综述文献,三次文献是有目的地在利用二次文献的基础上,选用大量一次文献的内容,进行分析、综合、评述等再度加工产生的文献。一般要求系统地综合和分析某学科、专业或专题的发展历史,以及已取得的科学成就、发展趋势。通过评价、筛选,以简练的文字扼要地论述出来,是科技文献的高度浓缩。如:综述、信息预测、百科全书、年鉴等。
百科全书:记录人类过去积累一切知识门类或某一知识门类的工具书。
一般指非公开出版的文献,是对一组特殊类型文献的总称
- 非公开出版的政府文献、学位论文
- 不公开发行的会议文献、科技报告、技术档案
- 不对外发行的产品资料、企业文件和工作文件
- 未刊稿及内部刊物(即内部征订或部分赠阅、交换的定期或不定期出版物),包括手稿、译稿、赠阅资料及学术往来函件
- 贸易文献,包括产品说明书和相关机构印发的动态性资料
文献特征
外部特征
定义:指的是文献的形式、结构和出版等方面的特征,它们通常可以从文献的表面直接观察到。
作用:可以帮助我们识别、定位和获取文献,也可以反映文献的质量、权威性和时效性。
示例:文献的题名(书名、篇名)、作者(责任者)、出版者(出版社)、出版日期、出版地、卷期、页码、报告号、专利号等等。
报告号
一种用于标识和检索文献的特征,它通常由文献的出版机构或编制机构按照一定的规则编制。
可以反映文献的类型、来源、年份、顺序等信息,有助于文献的管理和利用。
一般位于文献的封面或封底,也可以在文献的题名页或版权页找到。
报告号的格式因文献的不同而有所差异,但通常包括以下几个部分:
- 前缀:指示文献的类型或来源,如“科技部”、“国防科工委”、“中科院”等。
- 年份:指示文献的出版年份或编制年份,如“2023”、“2022”等。
- 分类号:指示文献所属的学科或领域,如“A”、“B”、“C”等。
- 顺序号:指示文献在同一类型或来源下的排列顺序,如“001”、“002”、“003”等。
例如,报告号“科技部2023A001”表示这是科技部在2023年出版或编制的第一份属于A类学科或领域的文献。
ISBN和ISSN (International Standard Book/Serial Number)
对象类型:
- ISBN: 用于标识图书,包括书籍、教材、参考书等。
- ISSN: 用于标识连续出版物,如期刊、杂志、报纸等。
用途:
- ISBN: 主要用于图书的管理、检索和销售。每种不同的图书都被分配一个独特的ISBN,以便在全球范围内准确地识别和定位图书。
- ISSN: 主要用于连续出版物的管理和检索。与ISBN不同,ISSN标识的是具有连续出版周期的出版物,而不是独立的图书。
结构:
- ISBN: 通常由13位数字组成(自2007年开始),前三位表示国别或语言地区,后面是唯一标识图书的数字。例如,978-0-123456-78-9。
- ISSN: 通常由两组四位数字组成,之间用短横线隔开。例如,1234-5678。
发放机构:
- ISBN: 在国际上由国际ISBN机构负责管理和分配。
- ISSN: 由国际标准连续出版物号中心负责管理和分配。
总的来说,ISBN用于标识独立的图书,而ISSN用于标识具有连续出版周期的出版物。这两种标识系统都有助于在全球范围内准确地区分和管理出版物。
内容特征
- 文献的内容特征是指与文献信息主题内容密切相关的信息,它可以反映文献所论述的内容、主题和观点等方面的特征,也可以帮助我们评价、比较和利用文献。
- 文献的内容特征主要包括以下几个方面:
- 主题词:指用一个或几个词语来表示文献所涉及的主题或核心概念的一种标识符,它可以反映文献的内容要旨,也可以作为检索文献的关键词。例如,一篇关于新冠肺炎疫情的文献,可能有以下主题词:新冠肺炎、
COVID-19
、流行病学、防控措施等。 - 分类号:指用一定的代码来表示文献所属的学科或领域的一种标识符,它可以反映文献的学科属性,也可以作为检索文献的分类途径。分类号通常由编目者或索引者根据一定的分类法和分类表从文献中确定或分配。例如,一篇关于新冠肺炎疫情的文献,可能有以下分类号:
R512.99
(中图法)、WC100
(医学主题标引法)、616.988
(国际十进制分类法)等。 - 特征词:指用一个或几个词语来表示文献所涉及的特殊名词或术语的一种标识符,它可以反映文献的专业性和创新性,也可以作为检索文献的辅助词。特征词通常由编目者或索引者根据一定的规则和标准从文献中提取或构造,也可以由作者自己提供。例如,一篇关于新冠肺炎疫情的文献,可能有以下特征词:
SARS-CoV-2
、RT-PCR
、ACE2
、中和抗体等。 - 其他:除了上述三种常见的内容特征外,还有一些其他形式的内容特征,如摘要、引用文献、图表、公式分子式、关键词、类名等,它们也可以反映文献的内容信息,也可以作为检索文献的辅助途径。
- 特征词和关键词都是用于标识和检索文献的一种标识符,但它们有以下几点区别:
- 定义:特征词是指用一个或几个词语来表示文献所涉及的特殊名词或术语的一种标识符,它可以反映文献的专业性和创新性,也可以作为检索文献的辅助词;关键词是指用一个或几个词语来表示文献所涉及的主题或核心概念的一种标识符,它可以反映文献的内容要旨,也可以作为检索文献的关键词。
- 角色:特征词是对文献内容的补充描述,它可以帮助检索者了解文献所涉及的专有名词或化合物等,也可以帮助检索者缩小检索范围,提高查准率。关键词是对文献内容的概括描述,它可以帮助检索者了解文献所论述的主题或核心概念等,也可以帮助检索者扩大检索范围,提高查全率。
- 主题词:指用一个或几个词语来表示文献所涉及的主题或核心概念的一种标识符,它可以反映文献的内容要旨,也可以作为检索文献的关键词。例如,一篇关于新冠肺炎疫情的文献,可能有以下主题词:新冠肺炎、
一般程序
分析检索问题
- 要查找某一特定的文献,或与某一主题、学科内容相关的文献,考虑全文数据库或文献检索类工具书(二次文献)
- 要查找具体的事实,如统计数据、人名、地址、机构概况、法律条文、术语等,考虑专为解决这些类型问题而设计的工具书(三次文献)
- 明确检索条件和检索目标,选择最合适的检索工具
选择检索工具
制定检索表达式
- 选择检索途径
确定检索词
构造检索式
根据搜索结果修正调整检索策略
| 结果太多 缩检 | 结果太少 扩检 |
| —————————————— | ——————————————————— |
| 增加字词 | 减少字词 |
| 用更专指的词 | 用更泛指的词 |
| 使用限定词 | 同义词、近义词、拼写形式 |
| 布尔逻辑 and/not | 布尔逻辑 or |
| 限定学科或主题范围 | 扩大或不限定学科或主题范围 |
| 限定日期范围 | 扩大或不限定日期范围 |
| 限定文献类型 | 多文献类型 |
| 限定检索字段,如题名字段 | 采用较宽范围的字段检索,如主题字段 |
| …… | …… |获取文档内容
效果评价(查准率和查全率)
- 查全率指的是检出的相关文献量与系统文献库中相关文献总量的比率,它反映该系统文献库中实有的相关文献量在多大程度上被检索出来。
查全率 =(检索出的相关信息量/系统中的相关信息总量)× 100%
- 查准率指的是指检出的相关文献量与检出文献总量的比率,是衡量信息检索系统检出文献准确度的尺度。
查准率=(检索出的相关信息量/检索出的信息总量)× 100%
查全率与查准率在一定程度上是成反比关系的,为了提高查全率就要以牺牲部分查准率为代价,反之亦然。
通俗来讲,要想“查准率”高,要把标准卡的严苛一些。但同时,因为通过的文献较少,占总的精准文献的比例必然降低,即,“查全率”会降低。反过来,如果标准卡的松些,更多的好文献被挑了出来,“查全率”提高了。但是,漏网之鱼也更多了,“查准率”自然会降低。
族性检索和特性检索
族性检索:对具有某种共同性质或特征的众多事物、概念的检索族性检索。一般认为,从学科、专业出发的范围较广泛的检索要求是族性检索。分类搜索引擎是族性检索的首选工具。分类途径尤其适用于族性检索,能够保证较高的查全率。
特性检索:则是从事物出发的、范围较狭窄的检索要求。主题词途径尤其适用于特性检索,能够保证查准率。
文献类型简称
普通图书M, 会议录C, 汇编G, 报纸N, 期刊 J, 学位论文D, 报告R,标准S,专利P,数据库DB,计算机程序CP,电子公告EB;联机文献OL
图书报刊检索
购买纸本
出版机构(不推荐)
网上书店
发布的图书信息并不限于一家出版社
不受上架周期的限制
能够帮助用户检索到特定图书出版的信息,在某种程度上起到联机书目的作用
有的书店还提供书评信息以及绝版图书的信息,并提供二手书供应渠道信息,扩大了传统书目的功能
主要目的是经营
书评网站、读书俱乐部
面向读者,是图书市场信息的来源
了解新书介绍、销售排行榜、订购服务项目等
还可以通过读者的反馈和书评了解读者的类型层次、阅读习惯、兴趣和热点等信息
这类网站同时还大量收集作者的信息,包括传记、谈话录等,使读者对推荐的书及作者的思想有更深的了解
书评网站
以上6个为书评网站,仅在豆瓣书评找到购买入口,但也是链接到其它网站。
读书俱乐部
红泥巴俱乐部 (可以买书)
由国内著名少儿网站红泥巴村创办,面向0~18岁少年儿童与童真常葆的”超龄儿童”提供专业读书引导和图书销售服务
Good Readers (网站很正规全面,与亚马逊联系很大,有购买渠道)
列出了小说、儿童文学、宗教、体育、经济、娱乐、历史、计算机等十几类读书俱乐部的链接
出版行业组织
出版信息服务商
-
外国网站
成立于1984年,是寻找奇书、绝版书销售商的公司
用户可以免费在网上查询,查到后同书商联系
每次单本查询,每次查询需要输入详细个人信息和详细书籍信息
-
外国网站
按照学科、新书、预出版书籍、推荐书籍等组织书目
提供书的详细信息,并链接到书商或书店网址,提供购买渠道
信息很详细,但是目前没找到购买渠道
借阅纸本
图书馆藏目录
国家图书馆
国家图书馆数字方志主要收录清代以前的内容
上海图书馆
南京中医药大学图书馆
馆藏联合目录
CALIS
- 网址:中国高等教育文献保障系统(China Academic Library & Information System,CALIS)
- 教育部主办,收录全国几百家高校图书馆已有的馆藏
- 更侧重于高等教育领域的文献保障和传递服务
- CALIS江苏站(原 JALIS),检索江苏省内资源
CADAL
- 网址:大学数字图书馆国际合作计划(China Academic Digital Associative Library, CADAL)
- 最初由浙江大学牵头,九所美国高校共同参与的国际合作项目,主要由成员单位自行采集和数字化的文献资源组成
- 侧重全球范围内的文化遗产和学术资源的数字化和共享服务,提供在线浏览功能,为保护版权,不能全文下载
CASHL(开世览文)
网址:中国高校人文社会科学文献中心(China Academic Social Sciences and Humanities Library)
教育部主办,全国性的唯一的人文社会科学外文期刊保障体系
- 提供数据库检索和浏览、书刊馆际互借与原文传递、全文下载等服务
NSTL
科技部联合财政部等六部门成立,由中国科学院文献情报中心、中国科学技术信息研究所、机械工业信息研究所等九个文献信息机构组成
重在为理、工、农、医各学科领域提供外文科技文献保障
可检索外文图书、期刊论文及其他类型文献,提供全文下载服务
中国科学院文献情报中心
中国科学院文献情报中心立足中国科学院、面向全国,主要为自然科学、边缘交叉科学和高技术领域的科技自主创新提供文献信息保障、战略情报研究服务、公共信息服务平台支撑和科学交流与传播服务。
馆藏纸本目录:可检索中科院系统图书馆馆藏以自然科学基础学科和高技术为主的图书、期刊,并提供在线浏览、馆际互借服务
古籍
- 古籍数据库
- CALIS学苑汲古—成员馆古籍检索
- 国家图书馆-古籍
- 上海图书馆-古籍
- 国学宝典(需购买)
- CADAL
- 中央研究院历史语言研究所 ——汉籍全文资料库
- 网站
免费阅读图书全文信息
搜索引擎
- 综合搜索引擎:百度等
- 综合搜索引擎提供的全文电子服务等:百度阅读等
- 电子图书搜索引擎:鸠摩搜索、读秀搜素等
数字图书馆
- 中国国家数字图书馆
- CADAL
- 世界数字图书馆
- Project Gutenberg 多为美国版权过期的较老的文学作品(1924年以前及之后的几十年出版)
全文电子图书数据库
- 超星
- 方正Apabi (阿帕比)
- Springer Link 各领域外文文献
- Elsevier
读书类app
微信读书
QQ阅读
京东读书
超星移动图书馆
其它
免费阅读中外文报刊
- 国家图书馆、各省市级图书馆及高校图书馆提供的本馆数字馆藏
- 中国重要报纸全文数据库(CCND)
- CNKI主页进入
- 以重要报纸刊载的学术性、资料性文献为收录对象,源于国内几百种重要报纸,始于2006
- 中国报纸资源全文数据库
- 方正阿帕比技术有限公司开发的以中国报纸资源为主体的全文数据库系统
- 国内首个整报完整收录的报纸全文数据库,包括全文检索和在线报纸原版翻阅
- 中国搜索,全国电子报刊免费阅读,部分回溯到创刊
- 上海图书馆电子报纸导读,497份报纸免费读
- 光明日报报业集团数字报
- Press Display在线报纸数据库
综合性期刊论文检索
概要
Elsevier
医学期刊论文检索
要求
掌握
- 国内重要医学索引、文摘检索工具——中国生物医学文献数据库(CBM)
- 国外重要医学索引、文摘检索工具——PubMed
了解:其它检索工具
框架
全文资源
中文全文期刊数据库
- 万方医学网:万方医学期刊全文数据库
- 中国知网(CNKI):中国学术期刊网络出版总库(CAJD)医药卫生科技专辑
- 万方:万方数据学术期刊数据库(CSPD)医药卫生专辑
- 维普:中文科技期刊数据库医药卫生专辑
外文全文期刊数据库
- EBSCO医学全文数据库
索引、文摘资源
中文索引、文摘数据库
- 中国生物医学文献数据库(CBM)
外文索引、文摘数据库
- PubMed
- 美国《化学文摘》(SciFinder 美国化学文摘网络版)