除去查询服务模块和信息收集模块之外的部分都可以归入搜索引擎信息处理模块的范畴,将纷繁复杂的网页数据整理成可以被检索系统高效、可靠、方便使用的格式是这一模块的工作。具体来讲,信息处理包括对传统内容信息的处理和对非内容信息(主要是链接结构信息和文本结构信息等)进行处理两个方面的内容。
对文本内容信息的处理与传统文本信息检索系统的信息处理模块功能类似,最主要的目的是建立以词项(term)为中心的文本倒排索引,以便检索系统中检索功能模块进行内容相似度计算使用,提高系统检索效率。这方面的主要研究工作集中在对倒排索引结构合理设计上,如是否记录文字位置信息以及记录的形式等。对中文信息检索系统而言,在这一部分还研究其特殊的预处理过程,即分词并建立词项的过程。由于这方面的研究较多涉及到实际工程层面的实现原理与技术细节,因此相关研究工作的介绍并不多,仅有部分工程技术报告涉及,如863信息检索评测的相关工作等。
与纯文本数据相比,网络数据不仅包括非结构化的内容信息,也包括一定程度的结构化信息,这些结构化信息在网络信息检索工具评价数据质量、挖掘数据相关性等方面发挥着十分重要的作用。
因此,网络信息检索中对非内容信息的处理是其与传统文本信息检索系统最大的区别所在,而其中应用最广泛的是利用超链接结构分析方法的网络数据质量评价技术,因此在下次的介绍中将对这方面技术的主要发展情况进行讨论。
相关内容
请访问我们网站的其它服务
请访问我们网站的其它信息
SEO培训:搜索引擎优化,通向成功十步
