(5.2)网络信息搜索技术
为了方便信息使用者在海量的网络信息中找到需要的信息,科学家开发了网络资源搜索引擎工具为信息使用者提供帮助。目前广泛使用的网络资源搜索引擎工具主要是针对分布在互联网上的网页信息的搜索处理。而内部数据库系统则都带有自己的数据搜索功能可以帮助使用者查找数据信息。一般为了方便用户使用数据库,数据库系统在互联网上也有门户网页。
互联网上提供信息搜索服务的主要网站有百度和谷歌(提供全文搜索引擎服务),还有新浪,搜狐,雅虎等(提供目录索引类搜索引擎服务),其它还有一些专门的信息搜索服务也可以提供更加专门门类的信息管理服务。
当前使用的网络资源搜索引擎工具的工作大概可以分成三个部分:
第一、发现、搜集互联网上的网页信息部分:它由搜索引擎服务公司以强大的计算机处理和网络通信能力通过网页的链接信息,在互联网中高速进行遍历性的网页信息搜索。搜索引擎服务公司可以同时运行多个高性能的“网络蜘蛛”程序(spider)自动地扫描整个互联网上的网页信息,收集到的网页信息存放在本地数据库中。
第二、网页信息数据库和索引库:在服务公司的强大计算机系统中运行的数据库管理软件对收集到的信息数据进行信息的分类索引,整理结果存放在一种索引数据库中。这样搜索引擎可以在本地索引数据库系统中快速地完成用户的信息检索。各个搜索引擎的索引分类方法可能各有特点,所以同样的搜索条件在不同的搜索引擎中得到的结果并不完全相同。而且互联网上的信息使用各种不同的语言,有文字,图片,视频等不同的信息形式,所以搜索引擎的信息管理(索引)是一项复杂,而且工作量巨大的工作。智能技术的使用可以改进这些工作。
第三、用户接口:搜索引擎服务提供用户接口,让用户提出搜索条件给检索系统。因为互联网上的网页信息已经事先收集、整理、存放到本地数据库,并且进行了索引处理。所以搜索引擎可以快速地完成用户需要信息的检索,然后把搜索结果反馈给用户。一般用户得到的是一长串满足搜索条件的索引内容清单,因为网络信息量巨大,所以这个清单经常可能超过几千条。而网络公司会根据一定的排序算法把最符合条件的网页放在最前面。具体哪些信息是用户真正需要的,一般还需要用户自己进一步选择。
用户得到的搜索结果是否符合要求其实不仅仅取决于搜索引擎的工作效果,而且与用户提出的搜索条件有很大关系。了解搜索引擎的信息检索技术和各个搜索引擎的特点可能会提高你的信息搜索效果。搜索引擎采用的是关键词查询方法,就是根据用户提出的关键词与网页中出现的词汇匹配来找出那些相关的网页。
搜索引擎允许用户提供多个关键词,所以如果你提供的是复合词或者句子形式,那么在你没有做出进一步的限定条件时,搜索引擎可能会自动对你提供的关键词条进行拆分成多个词进行搜索。这样就会产生很多可能是用户并不希望的相关网页。为了进一步提供搜索的精确性,搜索引擎都提供对关键词进行逻辑组合和一些限定条件的高级搜索方式。比如百度提供的关键搜索选项(下图)。合理地采用这些高级搜索功能可以使得搜索效果更加理想。
而搜索引擎给出的搜索结果排序是按照网页的结构特性而不是其内容的可信度。更进一步有称为搜索引擎优化技术,又称为SEO技术,可以使得网站在搜索结果中的排序靠前来获取较高的点击率。这种技术提高网站在搜索引擎中的自然排名,是为了吸引更多的用户访问网站,提高网站的访问量,提高网站的销售能力和宣传能力,从而提升网站的品牌效应,就是商业价值。所以与一般用户的信息和知识访问目的几乎没有任何帮助。
Comments