搜寻引擎——原理、技术与系统

内容简介

本书系统介绍了网际网路搜寻引擎的工作原理、实现技术及系统构建方案。全书分三篇共13章。上篇介绍搜寻引擎的基本原理和技术，讲述一个小型简单搜寻引擎实现的具体细节；中篇详细讨论了大规模分散式搜寻引擎系统的设计要点及其关键技术；下篇结合“中国Web信息博物馆”和“中国网际网路数字资源财富库藏”的实践经验，介绍了构建大规模Web历史网页和非网页仓储系统的技术和方法，以及中文网页的自动分类与聚类、开放域问题系统的构建等。
本书层次分明，由浅入深，上篇和中篇涉及内容提供了原始码下载地址；既有深入的理论分析，也有大量的实验数据和程式，具有学习和实用双重意义。
本书可作为高等院校计算机科学与技术、软体工程、信息管理与信息系统、电子商务等专业的研究生或高年级本科生的教学参考书和技术资料；对广大从事网路技术、Web站点管理、数字图书馆、Web挖掘等研究和套用开发的科技人员有很高的参考价值；书中提供了大量原始码，除了用于构建搜寻引擎之外，对于学习编程，提高编程技巧，以及实现一个大规模套用开发也有一定的参考价值。

第二版前言
第一版前言
第一章引论
第一节搜寻引擎的概念
第二节搜寻引擎的发展历史
第三节一些着名的搜寻引擎
第四节小结
上篇 Web搜寻引擎基本原理和技术
第二章 Web搜寻引擎工作原理和体系结构
第一节基本要求
第二节网页蒐集
第三节预处理
第四节查询服务
第五节体系结构
第六节小结
第三章 Web信息的蒐集
第一节概述
一、超文本传输协定
二、一个小型搜寻引擎系统
第二节网页蒐集
一、定义URL类和Page类
二、与伺服器建立连线
三、传送请求和接收数据
四、网页信息存储的天格线式
第三节多道蒐集程式并行工作
一、多执行绪并发工作
二、控制对一个站点并发蒐集执行绪的数目
第四节如何避免网页的重複蒐集
一、记录未访问、已访问URL和网页内容摘要信息
二、域名与IP的对应问题
第五节蒐集信息的类型
第六节小结
第四章对蒐集信息的预处理
第一节索引网页库
第二节网页编码识别
一、基本而重要的概念
二、常用字元编码
三、常用字元编码算法
四、字元的输入和显示
五、编码识别
第三节中文自动分词
第四节分析网页和建立倒排档案
第五节小结
第五章信息查询服务
第一节检索的定义
第二节查询服务的实现
一、结果集合的形成
二、查询结果显示
第三节小结
中篇对质量和性能的追求
第六章可扩展蒐集子系统
第一节天网系统概述和集中式蒐集系统结构
一、天网系统结构
二、集中式蒐集系统
第二节利用并行处理技术高效蒐集网页的一种方案
一、节点间URL的划分策略
二、关于性能的讨论
三、性能测试和评价
四、系统的动态可配置性设计
第三节天网分散式蒐集系统
第四节对Deep Web的认识
一、Deep Web的成因
二、搜寻Deep Web的方法
第五节小结
第七章网页净化与消重
第一节网页净化与元数据提取
一、DocView模型
二、网页的表示
三、提取DocView模型要素的方法
四、模型套用及实验研究
第二节网页消重算法
一、消重算法
二、算法评测
第三节小结
第八章高性能检索子系统
第一节检索系统基本技术
一、系统设计与结构
二、索引创建
三、检索过程
第二节适于查询的网页索引结构
一、倒排索引结构
二、平面位置索引
第三节倒排索引压缩
一、倒排索引压缩技术
二、词典与倒排表的压缩
第四节索引剪枝
一、静态索引剪枝方法
二、动态索引剪枝方法
第五节混合索引技术
一、混合索引的原理
二、混合索引的实现
第六节倒排档案快取机制
一、倒排档案快取
二、负载特性
三、快取策略的选择
第七节小结
第九章相关排序与系统质量评估
第一节传统IR的相关排序技术
第二节连结分析与相关排序
一、连结分析
二、Web查询模式下的新信息
第三节相关排序的一种实现方案
一、形成网页中词项的基本权重
二、利用连结的结构
三、收集用户反馈信息
四、计算最终的权重
第四节信息检索技术评估
一、信息检索技术评估指标
二、TREC和CWIRF信息检索评估
三、搜寻引擎技术评估
第五节小结
下篇 Web信息资源的组织与套用服务
第十章大规模Web历史网页仓储系统的构建
第一节国外Web历史网页保存现状
一、Internet Archive
二、PANDORA
三、其他相关Web保存项目
第二节中国Web信息博物馆的系统设计
一、Web InfoMall的设计目标
二、Web InfoMall的体系结构
第三节历史网页的存储
一、数据的组织
二、存储结构
三、数据管理与压缩
四、存储性能
第四节数据访问
一、PageID的索引
二、URL的索引
三、数据服务
四、性能与最佳化
第五节网页的格式保存
第六节小结
第十一章大规模Web非网页信息仓储系统的构建
第一节网路资源库藏相关工作
一、Ibiblio
二、Internet Archive
三、Wikimedia
四、中国网际网路数字资源财富库藏
第二节 CDAL系统概况
第三节 CDAL系统设计
一、系统体系结构
二、可扩展的存储组织方案
第四节网路资源描述信息获取
一、Ontology概述
二、描述信息获取机制
三、改进查询的方法
四、改进排序的方法
第五节基于局部聚类思想的共现辞彙算法
一、基本定义
二、FDC共现辞彙算法
第六节小结
第十二章中文网页自动分类与聚类
第一节文档自动分类算法的类型
第二节实现中文网页自动分类的一般过程
第三节影响分类器性能的关键因素分析
一、实验设定
二、训练样本
三、特徵选取
四、分类算法
五、截尾算法
六、中文网页分类器的设计方案
第四节天网目录导航服务
一、问题的提出
二、天网目录导航服务的体系结构
三、天网目录的运行实例
第五节文本聚类方法

搜寻引擎——原理、技术与系统

搜寻引擎——原理、技术与系统

基本介绍

内容简介

目录

相关推荐