对象存储原生搜索引擎:向量、全文与混合检索,面向 PB 级规模
turbopuffer 在 turbopuffer.com/docs 文档化基于对象存储(S3、GCS、Azure)的快速搜索引擎,NVMe/内存缓存算力。WAL、SPFresh 质心 ANN、BM25、原生元数据过滤、branching namespace。API 含 ANN、全文、混合、regex;观测规模 4T+ 文档、10M+ writes/s;权衡为写入延迟与冷查询。
使用场景
- RAG first-stage 检索
- 成本敏感向量搜索
- 高 recall 过滤 ANN 混合检索
- PB 级 pin 热集
- Agent 搜索层
主要功能
- SPFresh 质心 ANN 优化对象存储 roundtrip
- 向量查询原生元数据过滤
- 向量+BM25 混合与 branching
- WAL 强一致写入
- 多租户或 BYOC
相关推荐
相关推荐
3 收录条目
Typesense
Typesense 在 typesense.org/docs 文档化开源搜索引擎,支持容错关键词检索、分面与向量检索。向量搜索见 typesense.org/docs/30.2/api/vector-search:KNN、OpenAI/PaLM 或 ts/* 内置模型 auto-embedding、混合 rank fusion、按 ID 相似查询、HNSW 与 flat_search_cutoff。Typesense Cloud 或自托管,REST API 与官方客户端。
LanceDB
LanceDB 在 docs.lancedb.com 文档化多模态 lakehouse,基于 Lance 格式在统一表存储向量、元数据与嵌入。LanceDB OSS 为嵌入式库(Python/TypeScript/Rust);LanceDB Enterprise 为分布式托管方案。支持向量/语义、BM25 全文、SQL 过滤混合检索与对象存储集成。
Qdrant
Qdrant 在 qdrant.tech/documentation 文档化 AI 原生向量搜索引擎,用于存储、索引与查询高维向量及可选 payload,支持稠密、稀疏与多向量配置。官方指南涵盖 Docker/Kubernetes 自托管、Qdrant Cloud(AWS/GCP/Azure)、Hybrid/Private Cloud 与 Qdrant Edge 嵌入式检索。客户端含 Python(qdrant-client)、JavaScript/TypeScript(@qdrant/js-client-rest)、Rust、Go、Java、.NET,经 REST/gRPC API(见 api.qdrant.tech)。