互联网学术资源搜索
时间:2015-10-21 10:47|来源:|作者:|点击:
次
20世纪90年代以来,Internet(互联网络)迅速兴起并且得到普及。它从根本上改变了人类信息的生产、流通、分配和利用模式,为人类创造了最先进快捷的信息传播和交流方式。网络信息资源是指放置在互联网上能满足人们信息需求的信息集合,它具有数据量大,更新快速,无序性和关联度强等特点,这些都为网络环境下的信息检索技术提出了新的要求。
网络信息检索有三个组成要素,即站点资源、浏览器和具有收集、检索功能的搜索引擎。搜索引擎是以一定的策略在互联网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务,从而起到信息导航目的的网络检索工具。
一、搜索引擎的工作原理
搜索引擎的工作原理可以看作三步:从互联网上抓取网页、建立索引数据库、在索引数据库中搜索排序。
1.从互联网上抓取网页
利用能够从互联网上自动收集网页的Spider(蜘蛛)程序,自动访问互联网,并沿着任何网页中的所有URL爬到其他网页,重复这一过程,并把爬过的所有网页收集回来。搜索引擎的Spider程序一般要定期重新访问所有网页,更新网页索引数据库,以反映出网页文字的更新情况,增加新的网页信息,去除死链接,并根据网页文字和链接关系的变化重新排序。这样,网页的具体文字变化情况就会反映到用户查询的结果中。
2.建立索引数据库
由分析索引系统程序对收集的网页进行分析,提取相关网页信息,根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面文字中及超链中的每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。
3.在索引数据库中搜索排序
当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。并按相关网页针对该关键词和相关度数值排序,相关度越高,排名越靠前。
用页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户,搜索过程宣告结束。
二、搜索引擎的类型
随着搜索引擎技术和市场的不断发展,网络上出现了多种不同类型的搜索,但从搜索引擎的工作原理和组织形式划分,基本上可划分为目录式搜索引擎、全文式搜索引擎和元搜索引擎三类。
1.目录式搜索引擎
目录式搜索引擎主要通过人工发现信息,并依靠标引人员对信息进行分析和分类,由专业人员手工建立关键词索引,建立目录分类体系。这种“搜索引擎”并不采集网站描述等资料,经过人工审核编辑后,如果符合网站登录的条件,则输入数据库以供查询。该类搜索引擎因为加入了人工智能,所以信息准确、导航质量高,缺点是需要人工介入、维护量大、信息量少、信息更新不及时。这类搜索引擎中最具代表性的是Yahoo!。分类目录的好处是,用户可以根据目录有针对性地逐级查询自己需要的信息,而不是像技术性搜索引擎一样同时反馈大量的信息,而这些信息之间的关联性并不一定符合用户的期望。
2.全文式搜索引擎
全文式搜索引擎是由检索程序(如Spider)以某种策略自动地在互联网中搜集和发现信息,由索引器为搜集到的信息建立索引数据库,由检索器根据用户的查询输入检索索引库,如果找到与用户要求内容相符的网站,便采用特殊的算法计算出各网页的信息关联程度,然后根据关联程度高低,按顺序将这些网页链接制成索引返回给用户。这类搜索引擎的优点是信息量大、更新及时、毋需人工干预,缺点是返回信息过多,有很多无关信息,用户必须从结果中进行筛选。这类搜索引擎的代表是Google。
3.元搜索引擎
元搜索引擎是一种调用其他独立搜索引擎的引擎,亦称“搜索引擎之母(the Mother of Search Engines)”。这类搜索引擎没有自己的数据,而是将用户的查询请求同时向多个搜索引擎递交,将返回的结果进行重复排除、重新排序等处理后,作为自己的结果返回给用户。元搜索引擎虽没有网页搜寻机制,亦无独立的索引数据库,但在检索请求提交、检索接口代理和检索结果显示等方面,均有自己研发的特色元搜索技术支持。目前元搜索引擎技术主要有并行处理式和串行处理式两大类。并行式元搜索引擎运行时是将查询请求同时发向各个独立搜索引擎,然后将结果按特定的顺序呈现给用户;串行式元搜索引擎运行时是将查询请求先发向某个独立搜索引擎,待其返回结果后再将请求发往另一个独立搜索引擎。这类搜索引擎的代表是InfoSpace。
三、搜索技术基础
互联网上的信息多而杂,如何准确快速地找到自己所需要的信息,掌握一些基本的网上搜索策略和搜索技巧是必要的。
1.搜索策略
搜索策略是为实现搜索目标而制定的全盘计划或方案,是对整个搜索过程的谋划与指导。有效的搜索策略由以下几个过程组成。
(1)明确搜索目标
在正式搜索之前,要确切了解搜索的背景和目的,明确所需要的信息类型(全文、摘要;中文、外文;DOC、PDF、TXT)、检索范围、检索方式、时间跨度等。
(2)选择合适的搜索工具
各种搜索引擎在查询范围、检索功能等方面各有千秋,不同目的的检索应选择不同的搜索引擎。选择合适的搜索工具主要从工具的类型、收录范围、检索问题的类型、检索具体要求等方面综合考虑。花一点时间选择合适的搜索工具是有必要的,可以借助于各搜索引擎的主页与联机帮助进行了解和评判。通常,优秀的搜索工具有以下几条判断标准:
①快速;
②准确;
③易用;
④强劲。
(3)抽取适当的关键词
应尽量选专指词、特定概念或专业术语作为关键词,避免选普通词和泛指词。
(4)正确构造检索式
检索式是搜索过程中用来表达搜索提问的一种逻辑运算式,又称检索表达式或检索提问式。它由关键词和搜索引擎允许使用的各种运算符组合而成,是搜索策略的具体体现。可以认为检索式就是输入搜索引擎搜索框中的文字和符号。许多搜索引擎都提供简单查询和高级查询,建议使用后者,如组合使用布尔逻辑运算符、双引号、括号、大小写,可使检索结果控制在一定范围之内。
(5)根据结果及时调整检索策略
搜索通常不是一蹴而就的,而是一个多步骤的过程,需要逐步接近目标。要观察每次返回的搜索结果,及时调整检索策略。
当检索结果为零或过少时,需要扩大检索范围。
①使用同义词、近义词或相关词,用布尔逻辑运算符or连接关键词;或逐渐减少最不重要的概念词,或使用较普遍的词,或改用上位词。
②使用截词技术可检索出以某几个字母开头的所有单词,某词的单数及复数形式及其同根词。
③利用某些搜索引擎的自动扩检功能进行相关检索。如某些搜索引擎在检索结果页面上有“More Like This”键,或“更多结果”或“相关结果”键,在此可获得与检索式相关的一些推荐性网址,而这些站点可能是上述检索策略不能直接检索出来的结果,借此扩大与丰富检索范围。
④使用多个搜索引擎。因为没有哪两个搜索引擎是完全相同的,每一个搜索引擎都有自己的检索特色,都有自己的索引,都以不同的方式在网上搜寻网址,出现不同的检索结果不足为奇。从不同的搜索引擎的检索结果中,可以综合出最符合要求的答案。
⑤使用元搜索引擎。当用户已知检索词,但对独立搜索引擎不熟悉或想节省在多个搜索引擎之间的转换时间,可选用元搜索引擎作试探性的起始检索,了解网上是否有相关信息以及在哪里可找到这些信息,再利用独立搜索引擎进行更全面、深入的搜索。
如果得到的检索结果太多,或检索结果不相关,则需要缩小检索范围,具体方法如下:
①使用逻辑“与”。用布尔逻辑运算符and(+)连接几个关键词,或增加概念词。
②使用逻辑“非”。用布尔逻辑运算符not把不需要查找的关键词排除在检索结果之外。
③使用位置算符。使用邻近操作符把检索范围缩小到网页的某个部分。
④固定词组检索(短语检索)。
⑤使用缩写的全称。只用词组的缩写进行检索,会把那些和主题不相关的文献检索出来,从而产生误检,使用全称则不会出现这一情况。
⑥利用某些搜索引擎的进阶检索功能(Refine,Revise,Search again,二次检索),限制查询范围。搜索引擎提供的范围限制类型一般包括:类目的分类范围、地域范围、时间范围及其他特殊类型范围,如域名后缀(.com,.gov,.org)、文件类型。这些范围限制实现的方法不同,有些是通过在关键词前加特殊的符号实现的,有些是通过下拉菜单实现的。
2.搜索技巧
各个搜索引擎都提供一些方法来帮用户精确地查询信息,使之符合用户的要求。不同的搜索引擎,提供的查找技巧和实现的方法各有不同,但一些常见的技巧是可以通用的。
(1)注意词的不同形式。
在利用关键词进行检索时,为了对需求主题进行全面系统的检索,必须要考虑词的变化。通常主题词有4种变化:等同词(同义词)、上位词、下位词和相关词(同类词)。表达同一个明确的概念、互相等同的词称为等同词;概念上外延更广的词为上位词;概念上内涵更窄的词为下位词。要想结果查找得更全面、系统,就要考虑把词的几种形式都用上,但网络信息太多、太泛,因而对检索结果的精确度要求较高,能使用下位词时就不要使用上位词。
(2)布尔逻辑语的使用。
逻辑“与”,其常用的表示方法为“and”或“+”。其含义是只有含“与”的关键词全部出现时,所搜索到的结果才算符合条件。
逻辑“或”,其常用的表示方法为“or”。其含义是只要“或”的关键词中有任何一个出现,所搜索到的结果就算符合条件。
逻辑“非”,其常用的表示方法为“not”或“-”。其含义是搜索的结果中不应含有“非”后面的关键词。
在输入汉字作关键词的时候,不要随意加空格,因为许多搜索引擎把空格认作特殊操作符,其作用有的与“and”一样,有的与“or”一样;有的搜索引擎查询时以“&”代表and,以“|”或“,”代表or,以“!”代表not,具体是哪一种用法,要根据具体的搜索引擎来定。
(3)精确检索的应用。
精确检索符引号(“”)通常表示用户希望把输入的结果不管字符有多长都作为一个完整的词进行检索,如“中文搜索引擎的检索技巧”,检索的结果中必须有把引号内的内容作为一个完整检索项的表达。检索结果的量相对较少,但比较准确,但若没有引号,则只要结果中出现了包含“中文”、“搜索引擎”、“检索”、“技巧”这几个词的信息内容都会被检索出来,检索到的信息量大,但检准率较低。
(4)通配符“*”或“?”号的使用。
在大多数搜索引擎中,可以把“*”号作为通配符使用,可用它代替任意几个字符。例如:在搜索引擎的关键词输入框中输入“电脑*”,它可以代表关键词“电脑硬件”、“电脑软件”等。在有些搜索引擎中,其关键词输入框边已设有“与”、“或”按钮,只要选中相应的按钮,在输入的各类关键词间插入空格,按下“搜索”按钮后搜索引擎会自动在各关键词间加“与”、“或”符号。
(5)字段检索。
网络信息实际上不分字段,但有的搜索引擎设计了类似于字段检索的功能,运用字段设置,可以把检索词限制在一定位置范围内。
“检索词site:网站地址”表示把结果限制在某个网站或者是网站频道,或者是某个域名之内;“intitle:检索词”表示检索词应该在网页标题中出现;“inurl:检索词”表示检索词应该在网址中出现;“link:网站地址”表示检索某网页被谁链接。
(6)位置检索。
部分搜索引擎运用了位置算符,位置检索是表示词与词位置和距离关系的符号,通常运用“nW”、“nN”两种,前者表示所连接的两个词之间的距离相隔不超过n个单词的距离且顺序不变,而后者表示所连接的两个词之间的距离相隔不超过n个单词的距离但顺序可以变换。
(7)找不同类型的信息。
有些搜索引擎还用“filetype:”这个语法来对搜索对象作限制,冒号后是文档格式,如PDF、DOC、XLS等,如“科技报告filetype:pdf”表示要找PDF格式的科技报告文档。
四、常用学术搜索引擎
(1)Google Scholar(http://scholar.google.com/)
Google推出的免费学术搜索工具,可以帮助用户快速查找学术资料,包括来自学术著作出版商、专业性社团、预印本、各大学及其他学术组织的经同行评论的文章、论文、图书、摘要和技术报告。
2006年,Google Scholar扩展至中文学术文献领域。作为此次扩展的一部分,Google Scholar在索引中涵盖了来自多方面的信息,信息来源包括万方数据资源系统、维普资讯、主要大学发表的学术期刊、公开的学术期刊、中国大学的论文、中国国家数字图书馆的馆藏图书以及网上可以搜索到的各类文章。Google Scholar同时提供了中文版界面,供中国用户更方便的搜索全球的学术科研信息。
Google Scholar具有以下特点:
①每一条搜索结果会提供文章标题、作者、引用者、相关文章以及出版、收藏情况等编目信息,有些还会提供链接。
②搜索结果的排序会考虑到每篇文章的全文内容、作者影响度、发表文章刊物的权威性以及该文章被其他学术著作引用的次数等要素。
③搜索不仅仅针对文字信息,还包括评论等其他方面。
(2)SCIRUS(http://www.scirus.com/)
SCIRUS是由爱思唯尔科学公司(Elsevier Science)于2001年4月推出的迄今为止国际互联网上最全面的科技信息专用搜索引擎。它以自身拥有的资源为主体,对网上具有科学价值的资源进行整合,集聚了带有科学内容的网站及与科学相关的网页上的科学论文、科技报告、会议论文、专业文献、预印本等。其目的是力求在科学领域内做到对信息全面深入的收集,以统一的检索模式面向用户提供检索服务。
SCIRUS覆盖超过2亿个与科技相关的网页,包括5900万个.edu站点,1800万个.org站点,680万个.ac.uk站点,1860万个.com站点及500万个.gov站点。这些信息源包括:Science Direct,IDEAL,MEDLINE on BioMedNet,Beilstein on ChemWeb,BioMed Central,US Patent Office,E-Print ArXiv,Chemistry Preprint Server,Mathematics Preprint Server,CogPrints和NASA等。
覆盖的学科范围包括:农业与生物学,天文学,生物科学,化学与化工,计算机科学,地球与行星科学,经济、金融与管理科学,工程、能源与技术,环境科学,语言学,法学,生命科学,材料科学,数学,医学,神经系统科学,药理学,物理学,心理学,社会与行为科学,社会学等。
SCIRUS的检索界面友好,简洁方便,可分为基本检索(Basic Search)和高级检索(Advanced Search)两种方式。默认方式为基本检索。
SCIRUS基本检索非常简单,用户仅需输入检索词,按回车键,或单击“Search”按钮即可得到相关资料。在基本检索的操作中,用户可以选择检索结果的来源,如来自于期刊或来自于网络。用户还可以选择检索结果与输入词组是否精确匹配。
SCIRUS高级检索支持逻辑检索。“AND”表示检索结果中必须包括所有的检索词、“OR”表示检索结果中至少包含一个检索词、“ANDNOT”表示前面的检索词将一定包含于检索结果中,而后面的检索词则一定不出现在检索结果中。在高级检索的操作中,用户还可以选择检索字段、年限、信息来源等来限定检索结果。
SCIRUS用户可以进行个性化检索设置,如每屏显示的检索结果数等。用户可以保存检索设置,以便在今后的检索中继续沿用此设置。
(3)ResearchIndex(http://citeseer.ist.psu.edu/)
ResearchIndex又名CiteSeer,是NEC研究院在自动引文索引(Autonomous Citation Indexing,ACI)机制基础上建设的一个学术论文数字图书馆,它提供了一种通过引文链接检索文献的方式,目标是从多个方面促进学术文献的传播与反馈。
ResearchIndex检索互联网上Postscript和PDF文件格式的学术论文。目前在其数据库中可检索到超过500000篇论文。主要涉及计算机科学领域,涉及的主题包括互联网分析与检索、数字图书馆与引文索引、机器学习、神经网络、语音识别、人脸识别、元搜索引擎、音频/音乐等。ResearchIndex在网上提供完全免费的服务(包括下载PS或PDF格式的全文),系统已实现全天24小时实时更新。
ResearchIndex的常用功能包括:
①检索相关文献,浏览并下载PS或PDF格式的全文,ResearchIndex支持布尔检索。
②查看某一具体文献的“引用”与“被引”情况。ResearchIndex可以列出该文献的主要参考文献,包括每条参考文献的被引频次、参考文献在来源文献中的上下文及参考文献的全文;同时还可以获得该文献被其他后继文献引用的信息,包括的内容同上。
③查看某一文献的相关文献。ResearchIndex应用特殊算法计算文献相关度。默认的检索结果排序方式为命中文献的被引频次。
④图表显示某一主题文献(或某一作者、机构所发表文献)的时间分布。可依此推测学科热点和发展趋势。
进入ResearchIndex的主页,在检索框内输入检索式,单击“Search Documents”就可以开始查询。也可以点击“Search Citations”查询引文信息,点击每条引文左侧的“Context”会得到进一步的引文与全文信息。两种查询都使用全文检索技术。
在查询结果页中,单击其中一篇,就可以看到这篇文章的记录。右上角可以浏览并下载该论文的多种格式的全文;在Abstract下面是论文的被引情况,通过这些引文链接可以了解有哪些后继文献引用了该论文。“Context of citations to this paper”中可以直接看到引文的上下文。所有引文都可以进一步查看其引用与被引情况,绝大部分可得到全文;“Active bibliography”列出了按照相关系数排序的该论文的相关文献。
文章记录页面下方“Citations(may not include all citations)”列出了该论文主要的参考文献,每条参考文献前方的数字代表该参考文献的被引次数。绝大多数可得到全文。参考文献下方的图表直观地显示该篇学术论文参考文献的时间分布,但是只有当著录的参考文献中给出论文发表年时,才会在图表中显示出来。
在运用ResearchIndex进行查询的时候,有几点需要注意:
①ResearchIndex在进行引文统计时,通常单独考虑作者自引的情况。
②当两个或多个相连的词作为检索词输入时,如果没有“and”、“or”等布尔算符出现,系统将其近似当成一个词处理,即检索词出现的顺序必须严格匹配。
③若以作者为检索词,尽量只使用作者的last name。或列出在引文中所有可能出现的该作者的著录形式,中间用“or”连接。
(4)INFOMINE(http://infomine.ucr.edu/)
INFOMINE是为大学教师、学生和研究人员建立的网络学术资源虚拟图书馆。它建于1994年,由加利福尼亚大学、威克福斯特大学、加利福尼亚州立大学、底特律-麦西大学等多家大学或学院的图书馆联合建立。它拥有电子期刊、电子图书、公告栏、邮件列表、图书馆在线目录、研究人员人名录,以及其他类型的信息资源40000多个。INFOMINE对所有用户免费开放,但是它提供的资源站点并不都是免费的,能否免费使用,取决于用户所在图书馆是否拥有该资源的使用权。
INFOMINE共包括12个数据库:生物、农业和医学数据库,商业和经济数据库,多样性文化及种族资源数据库,电子期刊,政府信息数据库,教育资源数据库(K-12),教育资源数据库(大学),Internet利用工具,地图和地理信息系统(GIS)数据库,物理、工程、计算机和数学数据库,社会学和人类学数据库,视觉艺术和表演艺术数据库。INFOMINE报道款目的著录内容包括资源名称、简介、URL、相关资源链接、人工选择或专家选择、收费情况,并为用户提供了对资源发表评论的平台。
INFOMINE的检索界面友好,检索方法简单易用。检索功能包括基本检索、高级检索和浏览三种方式。
基本检索:在INFOMINE首页的检索框中直接输入检索词(主题词、作者、关键词等),单击“Search”或回车键就可以检索出相关资料。
高级检索:输入检索词,可使用逻辑检索(AND、OR、AND NOT)或特定符号(*、||、()、“”等)来扩大、缩小检索范围。在高级检索中,通过点选菜单和下拉菜单的组合使用,可以限定检索范围(如关键词、主题词、资源描述、作者、标题等),限定检索的数据库范围,限定资源的类型和路径,以及检索结果的显示方式,每页显示的检索结果数和检索结果的排序方式。
浏览:对普通用户而言,浏览是一种有效和常用的检索方式。INFOMINE在基本检索、高级检索和每个数据库的页面下,都提供了浏览功能,可以从目次表、美国国会主题词表、标题、关键词和作者等途径进行浏览,查找所需的资料。
(5)Intute(http://www.intute.ac.uk/)
Intute是一个免费、便捷、强劲的搜索工具,由英国高等教育资助理事会下的信息系统联合委员会(JISC)和艺术与人文研究委员会(AHRC)开发建立,专注于教学、研究方面的网络资源。所收录的信息资源都是经过行业专家选择和评审的,从而保证了其质量。目前数据库信息已达120060条。
Intute共设四大领域:科学与技术、艺术与人文、社会科学、健康与生命科学。各个领域下又包含诸多学科,以科学与技术类为例,覆盖了天文、化学、物理、工程、计算、地理、数学、地球科学、环境以及交叉学科,信息达33806条。
Intute的检索功能包括基本检索、高级检索和分学科浏览三种方式。Intute支持布尔逻辑语,可以用“and”,“or”,“not”限定检索条件,检索词可以是题名、关键词或领域描述。
(6)OAIster(http://www.oaister.org/)
OAIster是密歇根大学开发维护的一个优秀的开放存取搜索引擎,收集了来自536 家学术机构的590万篇文档,包括开放使用期刊的文章、工作论文、讨论文章、会议论文和学位论文。可按关键词、题名、创作者、主题或资源类型进行检索。检索结果含资源描述和该资源链接。
(7)SciSeek Science Directory(http://www.sciseek.com/)
SciSeek是一个专注于科学与自然领域的搜索工具,采取人工收集处理的方式,提供农林、工程、化学、物理和环境方面的科技期刊及其他信息。
(8)Information Bridge(http://www.osti.gov/bridge/)
Information Bridge是由美国能源部(DOE)下属的科学与技术信息办公室(OSTI)开发维护的搜索工具,提供美国能源部1994年以来研究成果的全文文献和目录索引,涉及的学科领域包括物理、化学、材料、生物、环境科学、能源技术、工程、计算机与情报科学和可再生能源等。检索功能有基本检索和高级检索两种。
(9)Find Articles(http://findarticles.com/)
Information Find Articles提供多种顶极刊物的上千万篇论文,涵盖艺术与娱乐、汽车、商业与经融、计算机与技术、健康与健身、新闻与社会、科学教育、体育等各个方面的内容,大部分为免费全文资料,检索操作简单。
(10)百度文档搜索(http://file.baidu.com/)
Information 百度文档搜索可以查找以Word、PowerPoint、PDF等格式存在的研究报告、论文、课件等各类文件。它支持对Office文档(包括Word、Excel、Powerpoint)、Adobe PDF文档、RTF文档进行了全文搜索。搜索时,在检索词后面加一个“filetype:”来限定文档类型。“filetype:”后面可以跟以下文件格式:DOC、XLS、PPT、PDF、RTF、ALL。其中,ALL表示搜索所有这些文件类型。在搜索结果页面,点击结果标题,可以直接下载该文档,也可以点击标题后的“HTML版”快速查看该文档的网页格式内容。
(11)万方数据ilib(http://scholar.ilib.cn/)
Information 万方数据ilib是万方数据股份有限公司旗下的专业学术搜索平台,隶属于万方数据资源系统。它是Google Scholar和Yahoo!奇摩学术搜索重要的内容提供者,平均每周新增文献5万余篇。
Information ilib提供一般检索、关键词检索和按学科分类浏览三种检索形式,检索结果显示标题、作者、出处、年期、关键词、摘要及参考文献等详细信息,但是获取全文需要付费。