虽然现代搜索引擎已经取得了很大的成功,但是我们也应当看到,现代搜索引擎仍然存在很多不足之处,主要表现为以下几个方面:
首先,它缺乏信息收集和信息检索的同步性。搜索引擎在检索时依据的是利用爬虫程序事先遍历互联网后得到的网页索引信息,而由于遍历互联网需要大量的处理时间,爬虫程序不可能随时随地地遍历网络,只能在确定的一定时间间隔内定期进行网络信息采集,所以搜索引擎的源信息收集和用户查询是截然分开的。这导致一方面不能保证信息的及时更新,易产生“错”链接和“死”链接,另一方面也无法利用用户在检索时表现的需求进行动态的信息反馈,使得信息的收集和查寻缺少有机的结合。
其次,它的信息检索方式具有单一性。搜索引擎一般只能提供分类浏览的查询检索方式和基于关键词的全文检索方式。分类查询按照嵌套的类目,让用户逐层深入以检索所需信息,虽然方式很简单,但是查全率较低,容易漏检信息;而基于关键词的全文检索又因为匹配模式过于简单,命中的结果中会含有大量无关的网页,导致查准率降低。
再次,它的信息检索内容具有单一性。网络信息内容覆盖面很广,形式各异,不同用户或同一用户在不同时刻对信息需求的侧重点也不一样,而搜索引擎却对所有用户提供相同的界面和检索策略,忽略了web用户的个体差异,不能满足web用户的个性化需求,同时也难以使用户有效表达自己的个性化需求,搜索引擎更缺乏对用户个性化信息的利用,较难实现有针对性的个性化信息服务。
后,它的信息服务方式具有被动性。大多数的搜索引擎还没有摆脱以拉(pulling)为主的信息服务方式,而未来的信息服务方式则主要是基于特定查询要求的推(pushing)方式。
上述因素产生的后果就是增大用户使用负担,降低查询效果,这在一些学者的研究中也有表述。例如,2001年Starch通过调查指出,36%的互联网用户在1周内的网络搜索时间超过2h,71 9/6的用户在使用搜索引擎时,平均搜索12min后会遇到麻烦,这些搜索受挫中因为链接错误产生的占46%。同时,近86%的互联网用户认为应当出现更有效的信息检索技术。另一项由Keen所做的调查显示,人们平均每天要有4个问题需要从外界获取答案,而其中31%的人会使用搜索引擎以获取正确的信息,但是半数以上都会不成功。