不同的Web信息检索系统在工作原理上各不一样,下面就结合搜索引擎来具体说明一下一般Web信息检索系统的特点。虽然各个搜索引擎的具体实现不尽相同,但一般包含爬虫程序、分析程序、索引程序、检索程序和用户接口界面5个基本部分,而且大致的工作原理是相同的。 Web搜索引擎主要是通过爬虫程序定期遍历互联网,将网页的统一资源定位符(URL)、内容和采集时间等相关信息收...
虽然现代搜索引擎已经取得了很大的成功,但是我们也应当看到,现代搜索引擎仍然存在很多不足之处,主要表现为以下几个方面: 首先,它缺乏信息收集和信息检索的同步性。搜索引擎在检索时依据的是利用爬虫程序事先遍历互联网后得到的网页索引信息,而由于遍历互联网需要大量的处理时间,爬虫程序不可能随时随地地遍历网络,只能在确定的一定时间间隔内定期进行网络信息采集,所以搜索引擎...
搜索引擎如何鉴别镜像网站 有一个客户向咨询说,2个同类型的站,产品一样,主题风格一样,不一样的是结果,不同的系统生成静态。谷歌会如何分出重要的那个网站? 从内容上判断 判断某个网站内容的丰富性、权威性、更新频率等。哪一个网站的内容比另外一个网站好,就选择哪个。 从链接上判断 与内容的判断原理一样,判断网站链接的质量和数量、链接增长的速度等。 其实此类问题,对...
搜索引擎的一个突出问题是,关键词搜索返回的网络资源数量过多,用户很难完整地浏览,研究发现,多数普通用户在检索时,只浏览前一、两页的网络资源。因此如何在检索结果提供时,将符合检索要求的资源在排列中靠前,成为提高检准率的重要手段。针对这一情况,网络关键词搜索系统的搜索结果提供,一般都采用按匹配加权的方式加以排序显示,即在返回全部搜索结果的同时,按照与搜索需求的符...
DMOZ是国外权威的目录搜索引擎,DMOZ对于搜索引擎优化起到的作用一向被SEOer推崇。但是因为DMOZ收录网站的时间过长,更新信息过慢,导致DMOZ所收录的信息没有及时呈现出来。DMOZ的中文类别的某些目录,更是长期处于不更新状态。 因为DMOZ是权威的目录,它所收录的网站一定程度上代表着权威性。所以,有很多的搜索引擎也直接索引DMOZ中收录网站的信息。...
搜索引擎建立网页索引,处理的对象是文本文件。对于搜索引擎爬虫来说,抓取下来的网页包括各种格式,如html、图片、doc、pdf,多媒体、动态网页及其他格式等。这些文件抓取下来后,需要把这些文件中的文本信息提取出来。准确提取这些文档的信息,一方面对搜索引擎的搜索准确性有重要作用,另一方面对于搜索引擎爬虫正确跟踪其他链接也有一定的影响。 对于doc、pdf等由专...
不管是Google也还或者是百度、雅虎等搜索引擎,都不在像过去那样,关闭所有与站长沟通的渠道。在以往的时候,如果你的网站因为SEOSPAM导致被搜索引擎删除索引数据,可能该网站的域名就会永久的进入搜索引擎的黑名单,从此不会再有任何的机会出现在搜索引擎的结果当中。 但是现在情况发生了很多的改变,可能你某个网站以前犯过什么错误,导致了被搜索引擎处罚。没关系,只要...