本文节选自《这就是搜索引擎:核心技术详解》第三章
本节通过引入简单实例,介绍与搜索引擎索引有关的一些基础概念,了解这些基础概念对于后续深入了解索引的工作机制非常重要。
3.1.1单词—文档矩阵
单词-文档矩阵是表达两者之间所具有的一种包含关系的概念模型,图3-1展示了其含义。图3-1的每列代表一个文档,每行代表一个单词,打对勾的位置代表包含关系。

图3-1 单词-文档矩阵
从纵向即文档这个维度来看,每列代表文档包含了哪些单词,比如文档1包含了词汇1和词汇4,而不包含其它单词。从横向即单词这个维度来看,每行代表了哪些文档包含了某个单词。比如对于词汇1来说,文档1和文档4中出现过单词1,而其它文档不包含词汇1。矩阵中其它的行列也可作此种解读。
搜索引擎的索引其实就是实现“单词-文档矩阵”的具体数据结构。可以有不同的方式来实现上述概念模型

本文介绍了搜索引擎索引的基础概念,特别是倒排索引。倒排索引是一种实现单词到文档映射关系的数据结构,包括单词词典和倒排文件,用于快速找到包含特定单词的文档列表。通过倒排索引,搜索引擎可以高效响应查询并进行搜索结果排序。
3156

被折叠的 条评论
为什么被折叠?



