
搜寻引擎——原理、技术与系统
《搜寻引擎——原理、技术与系统》是2012年科学出版社出版的图书,作者是李晓明、闫宏飞、王继民。
基本介绍
- 书名:搜寻引擎——原理、技术与系统
- 作者:李晓明、闫宏飞、王继民
- ISBN:978-7-03-034258-4
- 页数:330
- 定价:48.00
- 出版社:科学出版社
- 出版时间:2012年5月
- 装帧:平装
- 开本:B5
内容简介
本书系统介绍了网际网路搜寻引擎的工作原理、实现技术及系统构建方案。全书分三篇共13章。上篇介绍搜寻引擎的基本原理和技术,讲述一个小型简单搜寻引擎实现的具体细节;中篇详细讨论了大规模分散式搜寻引擎系统的设计要点及其关键技术;下篇结合“中国Web信息博物馆”和“中国网际网路数字资源财富库藏”的实践经验,介绍了构建大规模Web历史网页和非网页仓储系统的技术和方法,以及中文网页的自动分类与聚类、开放域问题系统的构建等。
本书层次分明,由浅入深,上篇和中篇涉及内容提供了原始码下载地址;既有深入的理论分析,也有大量的实验数据和程式,具有学习和实用双重意义。
本书可作为高等院校计算机科学与技术、软体工程、信息管理与信息系统、电子商务等专业的研究生或高年级本科生的教学参考书和技术资料;对广大从事网路技术、Web站点管理、数字图书馆、Web挖掘等研究和套用开发的科技人员有很高的参考价值;书中提供了大量原始码,除了用于构建搜寻引擎之外,对于学习编程,提高编程技巧,以及实现一个大规模套用开发也有一定的参考价值。
本书层次分明,由浅入深,上篇和中篇涉及内容提供了原始码下载地址;既有深入的理论分析,也有大量的实验数据和程式,具有学习和实用双重意义。
本书可作为高等院校计算机科学与技术、软体工程、信息管理与信息系统、电子商务等专业的研究生或高年级本科生的教学参考书和技术资料;对广大从事网路技术、Web站点管理、数字图书馆、Web挖掘等研究和套用开发的科技人员有很高的参考价值;书中提供了大量原始码,除了用于构建搜寻引擎之外,对于学习编程,提高编程技巧,以及实现一个大规模套用开发也有一定的参考价值。
目录
第二版前言
第一版前言
第一章 引论
第一节 搜寻引擎的概念
第二节 搜寻引擎的发展历史
第三节 一些着名的搜寻引擎
第四节 小结
上篇 Web搜寻引擎基本原理和技术
第二章 Web搜寻引擎工作原理和体系结构
第一节 基本要求
第二节 网页蒐集
第三节 预处理
第四节 查询服务
第五节 体系结构
第六节 小结
第三章 Web信息的蒐集
第一节 概述
一、超文本传输协定
二、一个小型搜寻引擎系统
第二节 网页蒐集
一、定义URL类和Page类
二、与伺服器建立连线
三、传送请求和接收数据
四、网页信息存储的天格线式
第三节 多道蒐集程式并行工作
一、多执行绪并发工作
二、控制对一个站点并发蒐集执行绪的数目
第四节 如何避免网页的重複蒐集
一、记录未访问、已访问URL和网页内容摘要信息
二、域名与IP的对应问题
第五节 蒐集信息的类型
第六节 小结
第四章 对蒐集信息的预处理
第一节 索引网页库
第二节 网页编码识别
一、基本而重要的概念
二、常用字元编码
三、常用字元编码算法
四、字元的输入和显示
五、编码识别
第三节 中文自动分词
第四节 分析网页和建立倒排档案
第五节 小结
第五章 信息查询服务
第一节 检索的定义
第二节 查询服务的实现
一、结果集合的形成
二、查询结果显示
第三节 小结
中篇 对质量和性能的追求
第六章 可扩展蒐集子系统
第一节 天网系统概述和集中式蒐集系统结构
一、天网系统结构
二、集中式蒐集系统
第二节 利用并行处理技术高效蒐集网页的一种方案
一、节点间URL的划分策略
二、关于性能的讨论
三、性能测试和评价
四、系统的动态可配置性设计
第三节 天网分散式蒐集系统
第四节 对Deep Web的认识
一、Deep Web的成因
二、搜寻Deep Web的方法
第五节 小结
第七章 网页净化与消重
第一节 网页净化与元数据提取
一、DocView模型
二、网页的表示
三、提取DocView模型要素的方法
四、模型套用及实验研究
第二节 网页消重算法
一、消重算法
二、算法评测
第三节 小结
第八章 高性能检索子系统
第一节 检索系统基本技术
一、系统设计与结构
二、索引创建
三、检索过程
第二节 适于查询的网页索引结构
一、倒排索引结构
二、平面位置索引
第三节 倒排索引压缩
一、倒排索引压缩技术
二、词典与倒排表的压缩
第四节 索引剪枝
一、静态索引剪枝方法
二、动态索引剪枝方法
第五节 混合索引技术
一、混合索引的原理
二、混合索引的实现
第六节 倒排档案快取机制
一、倒排档案快取
二、负载特性
三、快取策略的选择
第七节 小结
第九章 相关排序与系统质量评估
第一节 传统IR的相关排序技术
第二节 连结分析与相关排序
一、连结分析
二、Web查询模式下的新信息
第三节 相关排序的一种实现方案
一、形成网页中词项的基本权重
二、利用连结的结构
三、收集用户反馈信息
四、计算最终的权重
第四节 信息检索技术评估
一、信息检索技术评估指标
二、TREC和CWIRF信息检索评估
三、搜寻引擎技术评估
第五节 小结
下篇 Web信息资源的组织与套用服务
第十章 大规模Web历史网页仓储系统的构建
第一节 国外Web历史网页保存现状
一、Internet Archive
二、PANDORA
三、其他相关Web保存项目
第二节 中国Web信息博物馆的系统设计
一、Web InfoMall的设计目标
二、Web InfoMall的体系结构
第三节 历史网页的存储
一、数据的组织
二、存储结构
三、数据管理与压缩
四、存储性能
第四节 数据访问
一、PageID的索引
二、URL的索引
三、数据服务
四、性能与最佳化
第五节 网页的格式保存
第六节 小结
第十一章 大规模Web非网页信息仓储系统的构建
第一节 网路资源库藏相关工作
一、Ibiblio
二、Internet Archive
三、Wikimedia
四、中国网际网路数字资源财富库藏
第二节 CDAL系统概况
第三节 CDAL系统设计
一、系统体系结构
二、可扩展的存储组织方案
第四节 网路资源描述信息获取
一、Ontology概述
二、描述信息获取机制
三、改进查询的方法
四、改进排序的方法
第五节 基于局部聚类思想的共现辞彙算法
一、基本定义
二、FDC共现辞彙算法
第六节 小结
第十二章 中文网页自动分类与聚类
第一节 文档自动分类算法的类型
第二节 实现中文网页自动分类的一般过程
第三节 影响分类器性能的关键因素分析
一、实验设定
二、训练样本
三、特徵选取
四、分类算法
五、截尾算法
六、中文网页分类器的设计方案
第四节 天网目录导航服务
一、问题的提出
二、天网目录导航服务的体系结构
三、天网目录的运行实例
第五节 文本聚类方法
第一版前言
第一章 引论
第一节 搜寻引擎的概念
第二节 搜寻引擎的发展历史
第三节 一些着名的搜寻引擎
第四节 小结
上篇 Web搜寻引擎基本原理和技术
第二章 Web搜寻引擎工作原理和体系结构
第一节 基本要求
第二节 网页蒐集
第三节 预处理
第四节 查询服务
第五节 体系结构
第六节 小结
第三章 Web信息的蒐集
第一节 概述
一、超文本传输协定
二、一个小型搜寻引擎系统
第二节 网页蒐集
一、定义URL类和Page类
二、与伺服器建立连线
三、传送请求和接收数据
四、网页信息存储的天格线式
第三节 多道蒐集程式并行工作
一、多执行绪并发工作
二、控制对一个站点并发蒐集执行绪的数目
第四节 如何避免网页的重複蒐集
一、记录未访问、已访问URL和网页内容摘要信息
二、域名与IP的对应问题
第五节 蒐集信息的类型
第六节 小结
第四章 对蒐集信息的预处理
第一节 索引网页库
第二节 网页编码识别
一、基本而重要的概念
二、常用字元编码
三、常用字元编码算法
四、字元的输入和显示
五、编码识别
第三节 中文自动分词
第四节 分析网页和建立倒排档案
第五节 小结
第五章 信息查询服务
第一节 检索的定义
第二节 查询服务的实现
一、结果集合的形成
二、查询结果显示
第三节 小结
中篇 对质量和性能的追求
第六章 可扩展蒐集子系统
第一节 天网系统概述和集中式蒐集系统结构
一、天网系统结构
二、集中式蒐集系统
第二节 利用并行处理技术高效蒐集网页的一种方案
一、节点间URL的划分策略
二、关于性能的讨论
三、性能测试和评价
四、系统的动态可配置性设计
第三节 天网分散式蒐集系统
第四节 对Deep Web的认识
一、Deep Web的成因
二、搜寻Deep Web的方法
第五节 小结
第七章 网页净化与消重
第一节 网页净化与元数据提取
一、DocView模型
二、网页的表示
三、提取DocView模型要素的方法
四、模型套用及实验研究
第二节 网页消重算法
一、消重算法
二、算法评测
第三节 小结
第八章 高性能检索子系统
第一节 检索系统基本技术
一、系统设计与结构
二、索引创建
三、检索过程
第二节 适于查询的网页索引结构
一、倒排索引结构
二、平面位置索引
第三节 倒排索引压缩
一、倒排索引压缩技术
二、词典与倒排表的压缩
第四节 索引剪枝
一、静态索引剪枝方法
二、动态索引剪枝方法
第五节 混合索引技术
一、混合索引的原理
二、混合索引的实现
第六节 倒排档案快取机制
一、倒排档案快取
二、负载特性
三、快取策略的选择
第七节 小结
第九章 相关排序与系统质量评估
第一节 传统IR的相关排序技术
第二节 连结分析与相关排序
一、连结分析
二、Web查询模式下的新信息
第三节 相关排序的一种实现方案
一、形成网页中词项的基本权重
二、利用连结的结构
三、收集用户反馈信息
四、计算最终的权重
第四节 信息检索技术评估
一、信息检索技术评估指标
二、TREC和CWIRF信息检索评估
三、搜寻引擎技术评估
第五节 小结
下篇 Web信息资源的组织与套用服务
第十章 大规模Web历史网页仓储系统的构建
第一节 国外Web历史网页保存现状
一、Internet Archive
二、PANDORA
三、其他相关Web保存项目
第二节 中国Web信息博物馆的系统设计
一、Web InfoMall的设计目标
二、Web InfoMall的体系结构
第三节 历史网页的存储
一、数据的组织
二、存储结构
三、数据管理与压缩
四、存储性能
第四节 数据访问
一、PageID的索引
二、URL的索引
三、数据服务
四、性能与最佳化
第五节 网页的格式保存
第六节 小结
第十一章 大规模Web非网页信息仓储系统的构建
第一节 网路资源库藏相关工作
一、Ibiblio
二、Internet Archive
三、Wikimedia
四、中国网际网路数字资源财富库藏
第二节 CDAL系统概况
第三节 CDAL系统设计
一、系统体系结构
二、可扩展的存储组织方案
第四节 网路资源描述信息获取
一、Ontology概述
二、描述信息获取机制
三、改进查询的方法
四、改进排序的方法
第五节 基于局部聚类思想的共现辞彙算法
一、基本定义
二、FDC共现辞彙算法
第六节 小结
第十二章 中文网页自动分类与聚类
第一节 文档自动分类算法的类型
第二节 实现中文网页自动分类的一般过程
第三节 影响分类器性能的关键因素分析
一、实验设定
二、训练样本
三、特徵选取
四、分类算法
五、截尾算法
六、中文网页分类器的设计方案
第四节 天网目录导航服务
一、问题的提出
二、天网目录导航服务的体系结构
三、天网目录的运行实例
第五节 文本聚类方法
一、文本聚类的一般过程
二、文本间相似性的度量
三、常用聚类算法
四、聚类结果的评估
五、搜寻引擎返回结果的聚类
第六节 小结
第十三章 开放域问答系统
第一节 概述
一、问答系统的历史
二、着名开放域问答系统介绍
三、开放域问答系统的通用体系结构
第二节 问句的分析
一、问句中的指代消解
二、问句分类
三、问句主题提取
第三节 文档和段落检索
一、检索模型的选用
二、查询生成
三、查询结果排序
四、增强索引的功能
第四节 答案提取和验证模组
一、生成候选答案集合
二、答案提取
第五节 问答系统的改进方法
一、问答系统中外部资源的利用
二、寻找特殊类问题的解决方案
三、通过系综方法构建问答系统
第六节 问答系统的评测
一、TREC问答系统评测
二、问答系统评测指标
第七节 实例:天网开放域问答系统
第八节 小结
参考文献
附录 术语
图目录
图1-1 2012年3月在Google上检索“伊拉克战争”的结果
图1-2 2012年3月在Open Directory上检索“伊拉克战争”的结果
图2-1 搜寻引擎示意图
图2-2 搜寻引擎三段式工作流程
图2-3 搜寻引擎的体系结构
图3-1 TSE搜寻引擎界面
图3-2 TSE查询结果页面
图3-3 TSE网页快照页面
图3-4 TSE系统结构
图3-5 Web信息的蒐集
图3-6 Sockets和连线埠
图3-7 通过Socket建立连线
图4-1 网页预处理系统结构
图4-2 原始网页库中的记录格式
图4-3 索引网页库算法
图4-4 字元的输入和显示流程
图4-5 GB2312,Big5和GBK字元编码分布
图4-6 正向减字最大匹配算法流程
图4-7 切词算法流程
图4-8 分析网页与建立倒排档案流程
图4-9 过滤网页中非正文信息算法
图4-10 正向索引表记录格式
图4-11 由正向索引建立反向索引
图5-1 信息查询的系统结构
图5-2 基本检索算法
图5-3 动态摘要算法
图5-4 用户查询日誌的记录格式
图6-1 天网系统概貌
图6-2 蒐集系统的主控结构
图6-3 协调进程工作算法
图6-4 分散式Web蒐集系统结构
图6-5 负载方差
图6-6 并行蒐集系统与集中式蒐集系统的性能对比
图6-7 分散式系统效率
图6-8 URL两阶段映射
图6-9 天网分散式蒐集系统P_Arthur体系结构
图6-10 人才招聘网站首页
图7-1 用DocView模型提取的网页要素
图7-2 净化后的网页
图7-3 HTML Tree结构
图7-4 内容块权值传递过程
图7-5 有主题网页DocView模型生成过程
图7-6 计算网页特徵项权值的算法
二、文本间相似性的度量
三、常用聚类算法
四、聚类结果的评估
五、搜寻引擎返回结果的聚类
第六节 小结
第十三章 开放域问答系统
第一节 概述
一、问答系统的历史
二、着名开放域问答系统介绍
三、开放域问答系统的通用体系结构
第二节 问句的分析
一、问句中的指代消解
二、问句分类
三、问句主题提取
第三节 文档和段落检索
一、检索模型的选用
二、查询生成
三、查询结果排序
四、增强索引的功能
第四节 答案提取和验证模组
一、生成候选答案集合
二、答案提取
第五节 问答系统的改进方法
一、问答系统中外部资源的利用
二、寻找特殊类问题的解决方案
三、通过系综方法构建问答系统
第六节 问答系统的评测
一、TREC问答系统评测
二、问答系统评测指标
第七节 实例:天网开放域问答系统
第八节 小结
参考文献
附录 术语
图目录
图1-1 2012年3月在Google上检索“伊拉克战争”的结果
图1-2 2012年3月在Open Directory上检索“伊拉克战争”的结果
图2-1 搜寻引擎示意图
图2-2 搜寻引擎三段式工作流程
图2-3 搜寻引擎的体系结构
图3-1 TSE搜寻引擎界面
图3-2 TSE查询结果页面
图3-3 TSE网页快照页面
图3-4 TSE系统结构
图3-5 Web信息的蒐集
图3-6 Sockets和连线埠
图3-7 通过Socket建立连线
图4-1 网页预处理系统结构
图4-2 原始网页库中的记录格式
图4-3 索引网页库算法
图4-4 字元的输入和显示流程
图4-5 GB2312,Big5和GBK字元编码分布
图4-6 正向减字最大匹配算法流程
图4-7 切词算法流程
图4-8 分析网页与建立倒排档案流程
图4-9 过滤网页中非正文信息算法
图4-10 正向索引表记录格式
图4-11 由正向索引建立反向索引
图5-1 信息查询的系统结构
图5-2 基本检索算法
图5-3 动态摘要算法
图5-4 用户查询日誌的记录格式
图6-1 天网系统概貌
图6-2 蒐集系统的主控结构
图6-3 协调进程工作算法
图6-4 分散式Web蒐集系统结构
图6-5 负载方差
图6-6 并行蒐集系统与集中式蒐集系统的性能对比
图6-7 分散式系统效率
图6-8 URL两阶段映射
图6-9 天网分散式蒐集系统P_Arthur体系结构
图6-10 人才招聘网站首页
图7-1 用DocView模型提取的网页要素
图7-2 净化后的网页
图7-3 HTML Tree结构
图7-4 内容块权值传递过程
图7-5 有主题网页DocView模型生成过程
图7-6 计算网页特徵项权值的算法
图7-7 正文段落识别过程
图7-8 基于anchor text的超链选取算法
图7-9 网页净化前后分类效果对比
图7-10 查全率随选取关键字个数的变化
图8-1 检索系统集成框架结构
图8-2 天网WWW检索分散式系统构架
图8-3 倒排索引结构示意图
图8-4 按块组织的倒排链的结构
图8-5 位置索引的结构
图8-6 CLPS结构示意图
图8-7 倒排链中文档号之间的d-gaps分布图
图8-8 不同文档号分配下平均每个查询对应文档号序列的压缩大小
图8-9 不同压缩算法对文档号的解压速度
图8-10 不同文档号分配下平均每个查询对应词频序列的压缩大小
图8-11 不同压缩算法对词频的解压速度
图8-12 平均每个查询对应的位置信息需要的存储空间
图8-13 索引剪枝方法的分类
图8-14 MAXSCORE算法的示例
图8-15 WAND算法选择候选文档的过程
图8-16 基于最大块索引的支点文档号的选择示例
图8-17 Interval-Base剪枝方法中文档子区间划分的示例
图8-18 SAAT方法处理查询处理模式及分数累加器数量的变化
图8-19 当前支持高效SR+IR剪枝的索引结构
图8-20 扩展词典树结构示例
图8-21 扩展词典匹配查找算法
图8-22 搜寻引擎检索系统快取结构
图8-23 文档数据访问对象大小分布
图8-24 I/O与PAGE序列序号-频度分布
图8-25 I/O与PAGE序列时间间隔分布
图8-26 I/O和PAGE序列中唯一模式串
图9-1 Inktomi提供的几种搜寻引擎技术的比较
图9-2 词典在系统中的地位
图9-3 新词学习
图9-4 网页的互联结构示意
图9-5 信息获取技术评估的“森林”
图9-6 查準率和召回率基础定义图示
图9-7 查準率和召回率例子
图9-8 “省事的”11点标準召回率例子
图9-9 实践中召回率例子
图9-10 实际中的44个查询词的评价统计表和P-R图
图9-11 测试集在检索评估中的角色
图9-12 帮助判断相关结果页面的计算机辅助程式入口
图9-13 帮助判断相关结果页面的计算机辅助程式操作界面
图10-1 Web InfoMall体系结构
图10-2 网页数据的分割
图10-3 Web InfoMall的存储结构
图10-4 网页的引用压缩示意图
图11-1 CDAL提供的资源访问方式
图11-2 CDAL系统结构图
图11-3 基于Ontology的网路资源描述信息获取
图11-4 概念的属性及其辞彙扩展(以电影类资源为例)
图11-5 获得描述信息的改进排序算法
图11-6 网路资源描述信息展示
图12-1 自动文档分类算法的分类
图12-2 中文网页自动分类的一般过程
图12-3 中文网页分类器的工作原理图
图12-4 WebSmart——一个网页实例集蒐集和整理工具
图12-5 一种中文网页的分类体系
图12-6 Macro-F1值随样本数的变化
图12-7 Micro-F1值随样本数的变化
图12-8 CHI、IG、DF、MI的比较(Macro-F1)
图12-9 CHI、IG、DF、MI的比较(Micro-F1)
图12-10 kNN与NB分类结果的比较
图12-11 k的取值对分类器质量的影响(Marco-F1)
图12-12 k的取值对分类器质量的影响(Micro-F1)
图12-13 兰式距离法与欧式距离法对12个不同类别的分类情况
图12-14 基于层次模型的kNN与基本kNN的比较
图12-15 RCut和SCut截尾算法的比较
图12-16 天网目录的体系结构
图12-17 天网目录导航服务
图12-18 文本聚类的一般过程
图12-19 层次聚类实例
图12-20 k-均值算法进行文本聚类的过程
图12-21 搜寻结果聚类系统Carrot2
图13-1 START系统界面
图13-2 Ask Jeeves查询结果
图13-3 问答系统的通用体系结构
图13-4 天网开放域系统的体系结构
表目录
表4-1 网页索引档案
表4-2 URL索引档案
表6-1 SOIF数据描述
表6-2 SOIF具体语法
表6-3 参照序列,假设节点数为2
表7-1 类别编号对照表
表7-2 消重实验结果
表7-3 当N=10、δ=0.01时5种算法的查全率和準确率
表7-4 考察δ的取值对算法3和4的影响
表7-5 分段签名算法的时间複杂度及性能
表7-6 基于关键字的各算法的时间複杂度及性能(N=10,δ=0.01)
表8-1 MTF对序列<4,4,1,4,2>进行转换的过程
表8-2 对包含100万词条的词典使用不同编码所需要的空间
表8-3 平均每个查询对应词频链的空间大小(文档号按URL序分配)
表8-4 不同索引的组织结构及其支持的查询处理方式
表8-5 数据集基本统计信息
表9-1 新词学习对检索準确率的影响
表9-2 影响权值的HTML标籤
表9-3 补偿因子定义表
表9-4 2004中文Web信息检索评测提交结果
表9-5 主题提取
表9-6 导航搜寻
表9-7 用户查询信息类别
表10-1 网页存储性能(个/秒)
表10-2 网页访问性能(个/秒)
表11-1 几个网路资源库藏系统的特徵
表11-2 CDAL中的资源分布
表12-1 样本集中类别及实例数量的分布情况表
表12-2 kNN和NB算法的分类质量和分类效率比较
表12-3 欧式距离与兰式距离的比较
表12-4 基于层次模型的kNN与基本kNN的比较
表12-5 RCut和SCut截尾算法的比较
表12-6 一个分类器的设计方案
表13-1 问题分类体系结构及TREC问答任务中问题的分布
表13-2 天网开放域系统在TREC2005中的表现
图7-8 基于anchor text的超链选取算法
图7-9 网页净化前后分类效果对比
图7-10 查全率随选取关键字个数的变化
图8-1 检索系统集成框架结构
图8-2 天网WWW检索分散式系统构架
图8-3 倒排索引结构示意图
图8-4 按块组织的倒排链的结构
图8-5 位置索引的结构
图8-6 CLPS结构示意图
图8-7 倒排链中文档号之间的d-gaps分布图
图8-8 不同文档号分配下平均每个查询对应文档号序列的压缩大小
图8-9 不同压缩算法对文档号的解压速度
图8-10 不同文档号分配下平均每个查询对应词频序列的压缩大小
图8-11 不同压缩算法对词频的解压速度
图8-12 平均每个查询对应的位置信息需要的存储空间
图8-13 索引剪枝方法的分类
图8-14 MAXSCORE算法的示例
图8-15 WAND算法选择候选文档的过程
图8-16 基于最大块索引的支点文档号的选择示例
图8-17 Interval-Base剪枝方法中文档子区间划分的示例
图8-18 SAAT方法处理查询处理模式及分数累加器数量的变化
图8-19 当前支持高效SR+IR剪枝的索引结构
图8-20 扩展词典树结构示例
图8-21 扩展词典匹配查找算法
图8-22 搜寻引擎检索系统快取结构
图8-23 文档数据访问对象大小分布
图8-24 I/O与PAGE序列序号-频度分布
图8-25 I/O与PAGE序列时间间隔分布
图8-26 I/O和PAGE序列中唯一模式串
图9-1 Inktomi提供的几种搜寻引擎技术的比较
图9-2 词典在系统中的地位
图9-3 新词学习
图9-4 网页的互联结构示意
图9-5 信息获取技术评估的“森林”
图9-6 查準率和召回率基础定义图示
图9-7 查準率和召回率例子
图9-8 “省事的”11点标準召回率例子
图9-9 实践中召回率例子
图9-10 实际中的44个查询词的评价统计表和P-R图
图9-11 测试集在检索评估中的角色
图9-12 帮助判断相关结果页面的计算机辅助程式入口
图9-13 帮助判断相关结果页面的计算机辅助程式操作界面
图10-1 Web InfoMall体系结构
图10-2 网页数据的分割
图10-3 Web InfoMall的存储结构
图10-4 网页的引用压缩示意图
图11-1 CDAL提供的资源访问方式
图11-2 CDAL系统结构图
图11-3 基于Ontology的网路资源描述信息获取
图11-4 概念的属性及其辞彙扩展(以电影类资源为例)
图11-5 获得描述信息的改进排序算法
图11-6 网路资源描述信息展示
图12-1 自动文档分类算法的分类
图12-2 中文网页自动分类的一般过程
图12-3 中文网页分类器的工作原理图
图12-4 WebSmart——一个网页实例集蒐集和整理工具
图12-5 一种中文网页的分类体系
图12-6 Macro-F1值随样本数的变化
图12-7 Micro-F1值随样本数的变化
图12-8 CHI、IG、DF、MI的比较(Macro-F1)
图12-9 CHI、IG、DF、MI的比较(Micro-F1)
图12-10 kNN与NB分类结果的比较
图12-11 k的取值对分类器质量的影响(Marco-F1)
图12-12 k的取值对分类器质量的影响(Micro-F1)
图12-13 兰式距离法与欧式距离法对12个不同类别的分类情况
图12-14 基于层次模型的kNN与基本kNN的比较
图12-15 RCut和SCut截尾算法的比较
图12-16 天网目录的体系结构
图12-17 天网目录导航服务
图12-18 文本聚类的一般过程
图12-19 层次聚类实例
图12-20 k-均值算法进行文本聚类的过程
图12-21 搜寻结果聚类系统Carrot2
图13-1 START系统界面
图13-2 Ask Jeeves查询结果
图13-3 问答系统的通用体系结构
图13-4 天网开放域系统的体系结构
表目录
表4-1 网页索引档案
表4-2 URL索引档案
表6-1 SOIF数据描述
表6-2 SOIF具体语法
表6-3 参照序列,假设节点数为2
表7-1 类别编号对照表
表7-2 消重实验结果
表7-3 当N=10、δ=0.01时5种算法的查全率和準确率
表7-4 考察δ的取值对算法3和4的影响
表7-5 分段签名算法的时间複杂度及性能
表7-6 基于关键字的各算法的时间複杂度及性能(N=10,δ=0.01)
表8-1 MTF对序列<4,4,1,4,2>进行转换的过程
表8-2 对包含100万词条的词典使用不同编码所需要的空间
表8-3 平均每个查询对应词频链的空间大小(文档号按URL序分配)
表8-4 不同索引的组织结构及其支持的查询处理方式
表8-5 数据集基本统计信息
表9-1 新词学习对检索準确率的影响
表9-2 影响权值的HTML标籤
表9-3 补偿因子定义表
表9-4 2004中文Web信息检索评测提交结果
表9-5 主题提取
表9-6 导航搜寻
表9-7 用户查询信息类别
表10-1 网页存储性能(个/秒)
表10-2 网页访问性能(个/秒)
表11-1 几个网路资源库藏系统的特徵
表11-2 CDAL中的资源分布
表12-1 样本集中类别及实例数量的分布情况表
表12-2 kNN和NB算法的分类质量和分类效率比较
表12-3 欧式距离与兰式距离的比较
表12-4 基于层次模型的kNN与基本kNN的比较
表12-5 RCut和SCut截尾算法的比较
表12-6 一个分类器的设计方案
表13-1 问题分类体系结构及TREC问答任务中问题的分布
表13-2 天网开放域系统在TREC2005中的表现