V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
V2EX  ›  icew23  ›  全部回复第 1 页 / 共 1 页
回复总数  5
5 月 27 日
回复了 sillydaddy 创建的主题 数据库 向量数据库的正确用法是什么?
@sillydaddy
是的,我目前确实也是按这个方向在做。

我把知识库大致分成了四层:原文层、提取层、描述层、知识层。

其中原文层、提取层和知识层基本可以按字面意思理解。这里我觉得比较关键的是“描述层”,它主要用来承接后续的检索、筛选和预览。

我目前理解的描述层大概包括三部分:

1. 向量数据库
主要解决大段文字之间的语义关联问题,适合用来做内容召回。

2. 结构化信息
主要提取业务强相关的属性,比如一些可以明确归类、过滤、组合查询的信息。

3. 标签系统
标签由 AI 生成,但需要做到人能看懂、能检索、能预览。因为向量数据库和结构化信息更偏机器使用,对人工查看和调试来说不够直观,或者说预览效率太低。

所以我的理解是,向量、结构化信息和标签系统并不是互相替代的关系,而是在描述层里分别解决不同问题:向量负责语义关联,结构化信息负责业务属性,标签系统负责人能理解和快速预览。
5 月 26 日
回复了 sillydaddy 创建的主题 数据库 向量数据库的正确用法是什么?
(尴尬,好像回复错地方了)
我刚好也在做类似事情(不过是知识库搭建),最近也在反复想这个问题。

我现在的理解是,向量库本身可能不是最终答案,它更像是最后“找到原文证据”的一个环节。真正难的是前置处理:怎么把原始内容整理成后面能稳定召回、能解释、能复用的结构。

我的思路大概是:

1. 先用 AI 对原文做一轮标签化;
2. 再提取一部分结构化信息;
3. 对于一些“不是很像人话”的内容,或者表达很绕、噪声很多的内容,先做归纳和清洗;
4. 但原文不丢,结构化信息只是为了帮助检索和过滤;
5. 真正回答用户问题时,还是根据标签 + 结构化信息 + 向量/关键词召回,最终找到原文片段,再把原文喂给 AI 一起分析。

也就是说,前面做标签、摘要、结构化,并不是为了替代原文,而是为了最后能更稳地找到原文。因为很多时候用户问的问题不是刚好命中某一句,而是命中一个场景、一组枚举、一个上下文范围。如果只靠 embedding topK ,确实很容易只捞到相似的一小段,然后漏掉后面连续的条目或者条件说明。


目前我的想法是,AI 前处理更像是给原始资料建立“索引层”和“导航层”,而不是把原文压缩成一个最终答案库。原文仍然是最终证据来源。
我刚好也在做类似事情(不过是知识库搭建),最近也在反复想这个问题。

我现在的理解是,向量库本身可能不是最终答案,它更像是最后“找到原文证据”的一个环节。真正难的是前置处理:怎么把原始内容整理成后面能稳定召回、能解释、能复用的结构。

我的思路大概是:

1. 先用 AI 对原文做一轮标签化;
2. 再提取一部分结构化信息;
3. 对于一些“不是很像人话”的内容,或者表达很绕、噪声很多的内容,先做归纳和清洗;
4. 但原文不丢,结构化信息只是为了帮助检索和过滤;
5. 真正回答用户问题时,还是根据标签 + 结构化信息 + 向量/关键词召回,最终找到原文片段,再把原文喂给 AI 一起分析。

也就是说,前面做标签、摘要、结构化,并不是为了替代原文,而是为了最后能更稳地找到原文。因为很多时候用户问的问题不是刚好命中某一句,而是命中一个场景、一组枚举、一个上下文范围。如果只靠 embedding topK ,确实很容易只捞到相似的一小段,然后漏掉后面连续的条目或者条件说明。


目前我的想法是,AI 前处理更像是给原始资料建立“索引层”和“导航层”,而不是把原文压缩成一个最终答案库。原文仍然是最终证据来源。
5 月 25 日
回复了 James369 创建的主题 程序员 AI 编程时代, IDE 是趋向于通用还是专用?
zed ?
4 月 29 日
回复了 ysyah2019 创建的主题 分享创造 开源一个 ai 生成壁纸的项目
确实不错,但是画质有点糊
About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   2547 Online   Highest 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 19ms · UTC 00:56 · PVG 08:56 · LAX 17:56 · JFK 20:56
♥ Do have faith in what you're doing.