言犀的知识库功能提供了简单易用的方式来存储和管理外部数据,让智能体可以与指定的数据进行交互,提升回复内容的准确性和可用性。
将数据上传后,言犀会自动将上传的文档分割成一个个内容片段进行存储,并支持通过全文检索、语义检索、混合检索来检索最相关的内容。大模型再根据搜索、召回的内容片段来生成最终的回复。言犀的知识库功能可以有效地解决大模型幻觉和专业领域内容不足的问题,提升回复的准确性。
知识库创建及使用的操作指导如下:
创建知识库
创建知识库并上传本地文档或添加在线数据。
使用知识库
完成知识库创建和内容导入后,就可以在智能体和工作流中添加知识库进行调用。
配置检索和召回策略
在智能体的知识库设置和工作流的知识库节点中可以配置检索召回策略。召回内容的完整度和相关度越高,大模型生成的回复内容的准确性和可用性也就越高。
调试与优化
最后,需要通过测试来不断优化回复的内容效果。
登录言犀智能体平台
访问 言犀控制台-知识库,进入知识库列表页。或访问 京东云控制台,点击顶部导航栏 人工智能-言犀智能体平台,随后选择菜单 知识库 ,即可进入知识库列表页。
在知识库列表页中点击创建知识库,在页面中填写以下信息配置:
a. 类型,文本类型或问答对类型;
b. 名称,自定义知识库名称;
c. 描述,知识库的描述信息;
d. 图标,单击默认图标后,您可以上传本地图片文件作为新的图标;
e. 导入方式,选择一种导入方式并参考下表完成内容导入:
导入方式 | 说明 |
---|---|
本地上传 | 从本地文档中导入内容,请注意: a. 单次最多可上传300个文件 b. 支持.txt、.pdf、.docx、.md 、.xslx、csv文件格式 c. 每个文件不超过 20MB 注:问答对类型仅支持导入.xslx、csv文件格式 |
在线数据 | 选择在线数据从在线网页中上传内容。支持导入URL和导入根地址两种方式: 导入URL: a.支持设置更新频率:选择是否自动更新指定页面的内容及自动更新的频率 b.导入URL:选择导入的url地址,可添加多个 根地址导入: a.输入要批量添加的网页内容的根地址并点击导入 |
2.导入完成后点击下一步,进入文档内容解析页。
3.全部文档解析完成后点击下一步,选择分段方式。
分段方式 | 说明 |
---|---|
智能分段 | 支持复杂布局的文档解析、自动分段与预处理 |
自定义分段 | 自定义分段规则、分段长度以及预处理规则: a.分段标识符:选择符合实际所需的标识符。 b.分段最大长度:设置每个片段内的字符数上限。 c.文本预处理规则:替换掉连续的空格、换行符和制表符、删除所有 URL 和电子邮箱地址 |
注意:为确保效果,表格文档不支持自定义分段策略,采用默认分段策略。
4.在完成分段设置后进入到知识库详情页,可查看每个文档的处理状态,点击“分段详情”可查看文档内所有的分段。
知识库内提供了文本命中测试的功能,用于模拟用户输入关键词后调用知识库内容分段。命中的分段将按照分数高低进行排序并发送至 LLM。一般而言,问题与内容块的匹配度越高,LLM 所输出的答案也就更加贴近源文档,文本“训练效果”越好。
支持配置不同的检索方式及参数配置,查看命中的内容分段质量与效果。点击源文本输入框右上角的“检索设置按钮即可更换当前知识库的检索方式与具体参数,保存之后仅在当前召回测试的调试过程中生效,可以借此比较不同检索设置的效果。
配置项 | 说明 |
---|---|
检索策略 | 混合检索,使用倒排索引和语义检索两种策略进行召回,推荐在需要对句子理解和语义关联性的场景下使用,综合效果更优。 语义检索,像人类一样去理解词与词,句与句之间的关系。推荐在需要理解语义关联度和跨语言查询的场景使用。 全文检索,使用倒排索引策略进行检索召回,推荐在需要对关键词精准匹配的场景下使用。 |
召回数量 | 选择从检索结果中返回多少个内容片段给大模型使用。设定的数值越大,召回的内容片段就越多。 |
匹配分 | 根据设置的匹配度选取要返回给大模型的内容片段。低于设定匹配度的内容不会被返回。该配置可过滤掉一些低相关度的搜索结果。 |
命中历史中可以查看到历史的命中记录;若知识库已关联至智能体内,由智能体发起的知识库查询记录也可以在此查看。
可以将知识库添加到智能体内,扩充智能体的知识。
登录言犀智能体平台
访问 言犀控制台-智能体,进入智能体列表页。或访问 京东云控制台,点击顶部导航栏 人工智能-言犀智能体平台,随后选择菜单 智能体 ,即可进入智能体列表页。
在智能体页面,选择指定智能体并进入智能体编排页面。
在智能体编排页面的知识库区域,点击加号图标添加知识库。
可以在工作流编排中添加知识库节点,检索知识能力。
我们的产品专家为您找到最合适的产品/解决⽅案
1v1线上咨询获取售前专业咨询
专业产品顾问,随时随地沟通