当前位置:首页 > 科技  > 软件

用Rust制作一个小型搜索引擎

来源: 责编: 时间:2024-02-29 14:43:56 261观看
导读用Rust创建搜索引擎是探索该语言在性能和安全性方面具有优势的绝佳方式。这个项目将索引和搜索概念转移到Rust的生态系统中,由于Rust独特的语法和范式,这是一个挑战,但也是有益的。构建搜索引擎步骤1,创建项目使用如下命

用Rust创建搜索引擎是探索该语言在性能和安全性方面具有优势的绝佳方式。UhK28资讯网——每日最新资讯28at.com

这个项目将索引和搜索概念转移到Rust的生态系统中,由于Rust独特的语法和范式,这是一个挑战,但也是有益的。UhK28资讯网——每日最新资讯28at.com

UhK28资讯网——每日最新资讯28at.com

UhK28资讯网——每日最新资讯28at.com

构建搜索引擎

步骤1,创建项目

使用如下命令创建一个Rust新项目:UhK28资讯网——每日最新资讯28at.com

cargo new shrimp_enginecd shrimp_enginecode .

UhK28资讯网——每日最新资讯28at.com

步骤2,加入依赖项

需要一些crate来帮助解析和数据处理。例如:UhK28资讯网——每日最新资讯28at.com

  • tantivy:用于索引和搜索文本(类似于Java世界中的Lucene)
  • serde和serde_json:用于JSON解析

将这两个库加入到Cargo.toml文件中:UhK28资讯网——每日最新资讯28at.com

[dependencies]tantivy = "0.17"serde = "1.0"serde_json = "1.0"

UhK28资讯网——每日最新资讯28at.com

步骤3,定义数据结构

定义我们要索引的文档的结构。定义一个简单的结构体,它表示带有标题和正文的文档。UhK28资讯网——每日最新资讯28at.com

use serde::{Serialize, Deserialize};#[derive(Serialize, Deserialize, Debug)]struct Document {    title: String,    body: String,}

UhK28资讯网——每日最新资讯28at.com

步骤4,创建索引

使用tantivy,根据数据结构创建索引模式,然后将文档添加到索引中。UhK28资讯网——每日最新资讯28at.com

use tantivy::{doc, schema::*, Index};fn create_index() -> Index {    // 定义Schema    let mut schema_builder = Schema::builder();    schema_builder.add_text_field("title", TEXT | STORED);    schema_builder.add_text_field("body", TEXT);    let schema = schema_builder.build(); // 在目录中创建索引    let index = Index::create_in_ram(schema.clone()); // 获取索引写入器    let mut index_writer = index.writer(50_000_000).unwrap(); // 添加文档    let title = schema.get_field("title").unwrap();    let body = schema.get_field("body").unwrap();    let doc = doc!(title => "Example Title", body => "This is the body of the document.");    let _ = index_writer.add_document(doc); // 将文档提交到索引    let _ = index_writer.commit();    index}

UhK28资讯网——每日最新资讯28at.com

Schema定义索引的结构,指定应该索引哪些字段(这里是标题和正文)以及如何(例如,存储、文本分析)创建一个内存索引,并将文档添加到该索引中。添加的每个文档都由Document结构体定义,然后对其进行序列化以进行索引。将更改提交到索引中,使其可搜索。UhK28资讯网——每日最新资讯28at.com

步骤5,搜索

实现一个搜索索引的函数。我们需要创建一个搜索器和查询解析器。UhK28资讯网——每日最新资讯28at.com

use tantivy::query::QueryParser;use tantivy::collector::TopDocs;fn search_index(index: &Index, query_str: &str) -> tantivy::Result<()> {    let reader = index.reader()?;    let searcher = reader.searcher();    let schema = index.schema();    let title = schema.get_field("title").unwrap();    let body = schema.get_field("body").unwrap();    let query_parser = QueryParser::for_index(index, vec![title, body]);    let query = query_parser.parse_query(query_str)?;    let top_docs = searcher.search(&query, &TopDocs::with_limit(10))?;    for (_, doc_address) in top_docs {        let retrieved_doc = searcher.doc(doc_address)?;        println!("{:?}", retrieved_doc);    }    Ok(())}

UhK28资讯网——每日最新资讯28at.com

步骤6,测试搜索引擎,修改main函数UhK28资讯网——每日最新资讯28at.com

fn main() -> Result<(), TantivyError> {    println!("Hello, Shrimp!");    // 创建索引并存储它    let index = create_index();    // 在创建的索引中搜索    search_index(&index, "Example")?;    Ok(())}

运行结果如下:UhK28资讯网——每日最新资讯28at.com

Hello, Shrimp!Document { field_values: [FieldValue { field: Field(0), value: Str("Example Title") }] }

UhK28资讯网——每日最新资讯28at.com

tantivy crate中的组件用于构建搜索引擎的核心功能,从创建索引到查询索引。UhK28资讯网——每日最新资讯28at.com

UhK28资讯网——每日最新资讯28at.com

UhK28资讯网——每日最新资讯28at.com

搜索引擎的核心机制

1,索引读取器和搜索器:

为了搜索索引,将实例化一个索引读取器,创建一个能够对索引执行查询的搜索器。UhK28资讯网——每日最新资讯28at.com

2,查询解析和执行

查询解析器解释查询的字符串,并根据已定义的Schema将其转换为查询对象。然后,搜索者使用该查询来查找相关文档并对其进行排序。UhK28资讯网——每日最新资讯28at.com

3,检索和显示结果

检索并显示最匹配的文档(在一定范围内)。基于搜索查询、提取和审查索引内容。UhK28资讯网——每日最新资讯28at.com

UhK28资讯网——每日最新资讯28at.com

UhK28资讯网——每日最新资讯28at.com

总结

本示例旨在为你提供构建搜索引擎的起点。Rust的所有权和并发模型,以及它的类型系统,为构建更复杂和高性能的搜索引擎提供了坚实的基础。UhK28资讯网——每日最新资讯28at.com

我们可以通过添加实时索引、高级文本处理和自定义评分算法等特性来扩展这个项目。UhK28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-26-75364-0.html用Rust制作一个小型搜索引擎

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: .NET中Enum的应用你知道多少,它的作用和优点是什么?

下一篇: 2023年需求最高的八大编程语言

标签:
  • 热门焦点
  • vivo TWS Air开箱体验:真轻 臻好听

    在vivo S15系列新机的发布会上,vivo的最新款真无线蓝牙耳机vivo TWS Air也一同发布,本次就这款耳机新品给大家带来一个简单的分享。外包装盒上,vivo TWS Air保持了vivo自家产
  • 6月iOS设备好评榜:第一蝉联榜首近一年

    作为安兔兔各种榜单里变化最小的那个,2023年6月的iOS好评榜和上个月相比没有任何排名上的变化,仅仅是部分设备好评率的下降,长年累月的用户评价和逐渐退出市场的老款机器让这
  • 一年经验在二线城市面试后端的经验分享

    忠告这篇文章只适合2年内工作经验、甚至没有工作经验的朋友阅读。如果你是2年以上工作经验,请果断划走,对你没啥帮助~主人公这篇文章内容来自 「升职加薪」星球星友 的投稿,坐
  • Flowable工作流引擎的科普与实践

    一.引言当我们在日常工作和业务中需要进行各种审批流程时,可能会面临一系列技术和业务上的挑战。手动处理这些审批流程可能会导致开发成本的增加以及业务复杂度的上升。在这
  • 三分钟白话RocketMQ系列—— 如何发送消息

    我们知道RocketMQ主要分为消息 生产、存储(消息堆积)、消费 三大块领域。那接下来,我们白话一下,RocketMQ是如何发送消息的,揭秘消息生产全过程。注意,如果白话中不小心提到相关代
  • 腾讯盖楼,字节拆墙

    来源 | 光子星球撰文 | 吴坤谚编辑 | 吴先之&ldquo;想重温暴刷深渊、30+技能搭配暴搓到爽的游戏体验吗?一起上晶核,即刻暴打!&rdquo;曾凭借直播腾讯旗下代理格斗游戏《DNF》一
  • 东方甄选单飞:有些鸟注定是关不住的

    文/彭宽鸿编辑/罗卿东方甄选创始人俞敏洪带队的&ldquo;7天甘肃行&rdquo;直播活动已在近日顺利收官。成立后一年多时间里,东方甄选要脱离抖音自立门户的传闻不绝于耳,&ldquo;7
  • OPPO K11搭载高性能石墨散热系统:旗舰同款 性能凉爽释放

    日前OPPO官方宣布,将于7月25日14:30举办新品发布会,届时全新的OPPO K11将正式与大家见面,将主打旗舰影像,和同档位竞品相比,其最大的卖点就是将配备索尼
  • 中关村论坛11月25日开幕,15位诺奖级大咖将发表演讲

    11月18日,记者从2022中关村论坛新闻发布会上获悉,中关村论坛将于11月25至30日在京举行。本届中关村论坛由科学技术部、国家发展改革委、工业和信息化部、国务
Top