Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

what-is-vs #184

Open
3 tasks done
SuperSupeng opened this issue Dec 2, 2023 · 4 comments
Open
3 tasks done

what-is-vs #184

SuperSupeng opened this issue Dec 2, 2023 · 4 comments

Comments

@SuperSupeng
Copy link
Member

SuperSupeng commented Dec 2, 2023

你是否已经阅读并同意《Datawhale开源项目指南》?

你是否已经阅读并同意《Datawhale开源项目行为准则》?

项目简介

本项目旨在创建一个全面、易于理解的向量检索教程,它将覆盖从基础理论到核心技术的各个方面。教程将通过详细的解释、实例和实践案例,帮助初学者、研究人员以及应用人员深入理解并有效地使用向量检索技术。

立项理由

  • 市场需求:随着AI的快速发展,向量检索在信息检索、推荐系统、大模型应用等领域变得越来越重要。
  • 知识空白:目前市场上缺乏一个全面、系统的向量检索教程。
  • 技术进步:大模型和向量检索之间的紧密联系为研究和应用提供了新的可能性。

项目受众

  • 初学者,希望从基础了解向量检索。
  • 相关领域的研究人员,需要了解最新技术和应用。
  • 应用人员,需要实际开发应用向量检索技术。

项目亮点

  • 全面性:从基础概念到核心技术,提供全面的内容覆盖。
  • 实用性:结合案例研究和应用实例,提供实际操作指南。
  • 前瞻性:探讨新兴技术趋势和面临的挑战。

项目规划

以实际大纲为准
第一部分:引言和基础知识 @苏鹏

  1. 引言
  • 什么是向量检索
  • 为什么向量检索重要
  • 教程目标和读者指南

第二部分:核心技术

  1. 向量化技术 @李剑楠
  • 非结构化数据
  • 非结构化数据向量化
  1. 向量索引
  • 向量索引概述 @向隆
    • 概述
    • 评估技术
  • 基于量化的向量索引方法 @李剑楠
  • 基于哈希的向量索引方法 @李剑楠
  • 基于树的向量索引方法 @王泽宇
  • 基于图的向量索引方法 @王泽宇
  • 基于混合的向量索引方法 @李剑楠
  1. 向量查询方法 @王梦召
  • 向量查询方法概述
  • k近邻查询
  • 范围查询
  • 混合查询
  • 多向量查询
  • 其它查询
  1. 向量查询优化策略 @向隆 @田冰
  • 算法层面 @王梦召
  • 硬件层面
    • CPU 多核架构
    • GPU 架构
    • FPGA 架构
    • 近数据处理架构

第三部分:系统实现与应用 @韩颐堃

  1. 向量数据库系统概述
  • 向量数据库的基本构成与工作原理
  • 市面主流向量数据库系统比较
  1. 基于RAG的知识问答系统实战
  • 基于Langchain的RAG基础实现
  • 基于Rags的RAG评价体系

第四部分:未来展望和挑战

  1. 新兴技术趋势
  • 神经网络与向量检索的结合(联合优化) @李剑楠
  • Learned Index @王泽宇
  • DB4LLM @韩颐堃
  1. 面临的挑战 @王泽宇 @李剑楠 @田冰 @向隆
  • 数据隐私和安全问题
  • 行业发展趋势和未来应用场景

结语

  • 总结
  • 附录:进一步阅读资源和工具列表

项目负责人

Github:@SuperSupeng
WeChat: subranium

项目链接

what-is-vs

备注:发起立项申请后DOPMC成员将会在7天内给出审核意见,若7天内无反对意见则默认立项通过~

  • 我已知悉上述备注
@skywateryang
Copy link

同意,期待看到成品。
BTW,会考虑加入一些偏实践经验的部分吗,例如不同embedding模型的比较,ada-002,sentence-transformer等。

@SuperSupeng
Copy link
Member Author

同意,期待看到成品。 BTW,会考虑加入一些偏实践经验的部分吗,例如不同embedding模型的比较,ada-002,sentence-transformer等。

会涉及到embedding部分,会重点关注到实践部分,不会过多关注原理方面。

@ZhikangNiu
Copy link

同意

1 similar comment
@mba1398
Copy link

mba1398 commented Dec 9, 2023

同意

@Sm1les Sm1les changed the title What is Vector Search what-is-vs Dec 11, 2023
@Sm1les Sm1les added the 立项 label Dec 14, 2023
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment