LLM / RAG 能力拓展与后续迭代

本页为 可选增强包 的独立说明,与核心交易链路解耦;内容随需求文档第十二章同步升级,实施前请结合合规与数据安全评审。

Phase 2~3 后可启动独立报价非 MVP 必选

定位:大模型与 RAG 适合作为客服、知识问答、运营辅助不替代订单支付、调度锁单、库存事务等强一致核心业务(仍由传统后端与数据库保证)。

一、可落地功能(优先级建议)

能力模块实现思路用户/运营收益工作流程架构图工时
智能客服 / 工单摘要 对接微信客服或 Web 聊天;RAG 挂载 FAQ、计费规则、服务范围 7×24 常见问题自动答复;会话摘要写入工单 查看流程 查看架构 15-25人天
订单与物流状态自然语言查询 NL → 结构化查询(权限校验 + 仅返回当前用户数据) 用户口语查询「我的订单到哪了」 查看流程 查看架构 8-12人天
运营助手(报表问答) RAG + 受控 SQL/指标 API(禁止模型直连写库) 站长/老板问「本周各站妥投率」 查看流程 查看架构 10-15人天
入库/出库 SOP 引导 库管端步骤提示、异常话术(依赖知识库) 降低培训与沟通成本 查看流程 查看架构 8-12人天
评价情感分析与风控提示 批量打标差评原因,辅助客服介入 体验与舆情预警 查看流程 查看架构 6-10人天

* 营销文案功能(LLM生成+人工审核)实现较简单,此处略过详细图示

二、推荐业务流程(客服 RAG)

用户提问 → 鉴权(会话绑定 user_id) → 向量检索 FAQ/政策片段 → LLM 生成回答
         → 若置信度低 → 转人工 + 附带检索片段
         → 日志落库(敏感信息脱敏)→ 运营定期更新知识库
flowchart TB subgraph 接入层 U[用户/小程序] --> GW[网关鉴权] end subgraph RAG GW --> R1[向量检索 FAQ/政策] R1 --> R2[重排序与截断] R2 --> R3[LLM 生成] end subgraph 兜底 R3 --> C{置信度} C -->|高| OK[返回用户] C -->|低| H[转人工 + 检索片段] end subgraph 治理 OK --> LOG[审计日志] H --> LOG end

三、调取权限、配额与多路由器(降本与风控)必选设计

LLM/RAG 调用属于高成本、可滥用资源,必须在进入向量检索与模型推理之前完成身份校验与策略路由。 参考「用户发起 RAG 查询」类架构:请求携带 JWT 或 API Key → 鉴权服务校验 → 权限/配额层解析 rag_plan(或等价角色策略)→ 再决定可访问的知识库分区可调用的模型档位 → 检索与生成 → 扣减配额并写审计。 这样可将不同租户/会员等级/后台角色映射到不同模型与不同数据范围,通过多路由器(Multi-Router)统一编排,在保障体验的前提下压缩算力与 Token 支出

3.1 端到端流程(与鉴权、配额、路由对齐)

下列流程确保:未授权不调检索无配额不调大模型检索侧按租户/用户隔离(如 Milvus partition / collection 或过滤表达式)。

flowchart TB subgraph REQ["请求入口"] U[用户/客户端发起 RAG 或 LLM 请求] U -->|携带 JWT 或 API Key| GW[网关 / AI 接入服务] end subgraph AUTH["身份验证"] GW --> A1{JWT/API Key 有效?} A1 -->|否| E401[401 Unauthorized] A1 -->|是| UID[解析 user_id / tenant_id / 角色] end subgraph PERM["权限与配额"] UID --> P1[(权限与配额存储 MySQL/Redis)] P1 -->|查询 rag_plan 剩余配额| P2{方案有效且配额充足?} P2 -->|否| E403[403 Forbidden] P2 -->|是| PLAN[解析 rag_plan: 模型档 集合 功能开关] end subgraph ROUTE["多路由器"] PLAN --> MR[模型与工具路由器] MR -->|按策略选档| M1[经济型模型] MR -->|高价值/低置信再升级| M2[增强型模型] MR -->|按权限放行| FT{Function/工具调用} FT -->|允许| TC[受控 API 工具] FT -->|禁止| SKIP[跳过工具 仅 RAG 文本] end subgraph RAG["检索与生成"] MR --> V[(Milvus 等向量库)] V -->|collection/partition 过滤如 user 或 tenant| VS[向量检索 TopK] VS --> LLM[LLM 生成 Prompt+片段] M1 --> LLM M2 --> LLM TC -.-> LLM end subgraph POST["计费与审计"] LLM --> Q[配额扣减 + 审计日志] Q --> RSP[返回结果给用户] end

3.2 权限模型要点(专业约定)

维度说明与降本关系
身份凭证用户侧 JWT(绑定 openId/user_id);对内服务可用 API Key + IP 白名单拒绝匿名刷接口,避免被盗 Key 拖垮预算
rag_plan / 策略包user_id、会员等级、租户套餐或后台角色绑定;字段含:允许模型列表、日/月 Token 上限、可用知识库 collection、是否允许工具调用先判定再推理,无权限直接 403,不产生向量与模型费用
向量隔离检索时强制 partition_key 或过滤表达式(如 tenant、user、站点),禁止全库扫描减小索引扫描与返回片段长度,间接降 Token
配额扣减时机建议在「检索+生成」成功路径末或按阶段预扣(预扣需配合失败回滚)账目清晰,便于按租户做成本账单
审计日志记录 tenant/user、rag_plan、模型名、近似 Token、trace_id;敏感内容脱敏事后追责与异常流量识别

3.3 不同用户调用不同模型(档位路由)

多路由器根据 rag_plan任务类型(闲聊 FAQ / 摘要 / 报表解释)选择模型,避免「全员顶配」。

用户/角色类型典型 rag_plan 能力模型与路由策略
C 端普通用户仅 FAQ RAG;禁止直连订单写接口默认经济型模型;低置信再考虑升级或转人工
会员 / 付费套餐更高日配额 + 可选增强模型路由允许调用增强型;仍受 Token 上限约束
站长 / 运营(后台)报表问答 + 指标 API(只读)可走增强型;工具调用仅限白名单 API
系统任务(批处理)独立 API Key + 低优先级队列专用「批处理档」模型或限并发,防止挤占在线用户

3.4 模型功能与工具(Function)权限

若启用 Agent/工具调用,必须在路由器侧维护功能白名单:例如「查单」「查轨迹」仅对已通过业务鉴权的会话开放,且参数由后端校验,禁止模型自拟 user_id

3.5 多路由器配置项(实施清单)

配置项示例目的
model_route_rulesplan=A → model=gpt-4o-mini;plan=B → gpt-4o;命中「摘要」意图强制 mini分层算力
rag_collection_mapplan 映射到 collection / partition 模板多租户数据隔离 + 检索范围可控
quota_limits每日 tokens、每分钟请求数、并发数防刷与预算封顶
escalation_policy置信度低于阈值或用户点击「更详细」再切换大模型减少无谓大模型调用
cache_layer同问题 embedding 缓存、答案短缓存(TTL)重复问题零模型或仅检索
实施建议:将「鉴权 + rag_plan 解析 + 路由器」部署在独立 AI 网关或 BFF,与向量库、模型供应商之间串联;核心业务库仍对模型暴露直连连接串。上述策略与 data_api_er_detail.html 中的接口幂等、租户隔离原则一致,可一并评审。

四、基础方案设计(技术概要)

组件方案选项说明
模型公有云 API / 私有化部署数据合规决定选型
RAGMilvus、pgvector、ES 向量政策/FAQ/站点手册切分与同步
编排LangChain、自研 Pipeline、低代码 Agent与 Java/Python/Go 后端 HTTP 对接
安全不投喂完整订单明细;查询走后端 API防泄漏与幻觉;输出可审计

五、大致成本(量级参考,非承诺)

与需求文档 0.10 工时费用暂估 相同原则:以下为粗算,以调用量、是否私有化、知识库规模为准。
成本项说明量级参考
开发集成客服入口 + RAG 管线 + 知识库管理端约 15~40 人天
模型调用Token 计费(问答 + 摘要)小流量月均数百~数千元;大流量按比例上升
向量库与存储索引、对象存储通常可并入现有云资源
运维知识库更新、监控告警约 0.2~0.5 人力持续

六、后续迭代路线图(升级放入本页维护)

下列为产品与技术的建议迭代顺序,可在商务确认后调整优先级与范围。

迭代代号目标交付要点依赖
AI-1 客服 RAG MVP FAQ 入库、检索、小程序/H5 入口、人工转接;同步落地 JWT/API Key 鉴权、rag_plan、配额扣减、审计与多路由器(默认经济型模型) Phase 2 后、知识库初稿
AI-2 会话摘要与工单 会话结束生成摘要写入客服工单表 AI-1、工单模型
AI-3 自然语言查单 意图识别 + 调用受控订单 API(禁止模型直连库) 订单接口稳定、审计策略
AI-4 运营报表问答 指标 API / 物化视图 + RAG 解释 BI 指标定义、权限与站点范围
AI-5 仓储 SOP 与多模态(可选) 扫码/拍照辅助识别异常件说明(合规评估后) Phase 4 仓储上线

七、价值总结

八、各能力详细工作流程与架构图

8.1 智能客服 + RAG 工作流程

用户输入问题 → JWT鉴权绑定user_id → 向量检索FAQ/政策片段
       → LLM生成回答 → 置信度评估
       → 若置信度低 → 转人工 + 附带检索片段
       → 日志落库(敏感信息脱敏)→ 运营定期更新知识库

智能客服 + RAG 架构图

flowchart TB subgraph 接入层 U[用户/小程序] --> GW[AI网关] GW --> AUTH[JWT鉴权+rag_plan校验] end subgraph RAG检索层 AUTH --> VDB[(向量数据库
Milvus/pgvector)] VDB --> EMB[Embedding向量化] AUTH --> LLM[LLM生成] end subgraph 业务能力层 LLM --> POLICY{置信度判断} POLICY -->|高| OK[返回用户] POLICY -->|低| HUMAN[转人工+检索片段] end subgraph 治理层 OK --> LOG[审计日志+配额扣减] HUMAN --> LOG end

8.2 订单状态自然语言查询 工作流程

用户输入:"我的订单到哪了"
       → 意图识别(NLU) + 实体提取(order_id)
       → 受控API查询(鉴权user_id,仅返回当前用户数据)
       → 订单状态+骑手位置返回
       → LLM生成自然语言回答
       → 返回用户

订单状态查询 架构图

flowchart LR subgraph 输入层 Q["用户自然语言查询
我的订单到哪了"] end subgraph AI处理层 Q --> NLU[意图识别NLU] NLU --> ENTITY[实体提取
order_id] ENTITY --> API_CALL[受控API调用] end subgraph 业务层 API_CALL --> ORDER_API[(订单API)] ORDER_API --> DB[(数据库)] end subgraph 输出层 DB --> RESPONSE[结构化数据] RESPONSE --> NLG[NLG自然语言生成] NLG --> A[回答用户] end

8.3 运营报表问答 工作流程

管理员输入:"本周各站妥投率是多少"
       → 解析指标意图(BI_RATIO)
       → RAG获取报表上下文(指标定义)
       → 调用BI指标API获取数据
       → LLM生成分析回答
       → 返回分析结果

运营报表问答 架构图

flowchart TB subgraph 管理员 ADMIN[运营/站长] end subgraph AI网关 GW[AI网关] --> RAG_PLAN[rag_plan权限校验] end subgraph RAG知识库 GW --> METADATA[指标定义知识库] GW --> SOP[运营SOP知识库] end subgraph BI能力 GW --> BI_API[(BI指标API)] BI_API --> DW[数据仓库] end subgraph 输出 GW --> LLM[LLM生成] LLM --> ANSWER[分析回答] end ADMIN --> ANSWER

8.4 仓储SOP引导 工作流程

库管员发起入库操作 → 请求SOP指导
       → 检索入库流程SOP
       → 生成引导话术("第1步:请扫描运单号...")
       → APP分步展示
       → 库管确认完成步骤 → 推送下一步
       → 循环直到流程完成

仓储SOP引导 架构图

flowchart TB subgraph 仓储APP SCAN[扫码操作] --> APP end subgraph AI网关 APP --> SOP_GW[SOP引导网关] end subgraph 知识库 SOP_GW --> WMS_SOP[(WMS标准SOP)] SOP_GW --> EXCEPTION[异常处理知识库] end subgraph 生成层 SOP_GW --> LLM[LLM话术生成] end subgraph 输出 LLM --> GUIDE[分步引导] GUIDE --> DISPLAY[APP展示] end DISPLAY --> STEP_CONFIRM[步骤确认] STEP_CONFIRM --> SOP_GW

8.5 评价情感分析 工作流程

定时任务批量获取评价 → 情感分析模型
       → 情感分析+原因提取
       → 自动打标(好评/差评/投诉)
       → 差评/投诉 → 创建客服工单 → 通知客服
       → 好评 → 更新好评率统计

评价情感分析 架构图

flowchart TB subgraph 采集层 CRON[定时任务] --> REVIEWS[(评价数据)] end subgraph 分析层 CRON --> SENTIMENT[情感分析模型] SENTIMENT --> TAG[自动打标] end subgraph 行动层 TAG --> TRIGGER{触发判断} TRIGGER -->|差评| TICKET[创建客服工单] TRIGGER -->|投诉| ALERT[预警通知运营] TRIGGER -->|好评| STATS[好评率统计] end subgraph 运营 TICKET --> AGENT[客服处理] ALERT --> MANAGER[运营主管] STATS --> DASHBOARD[数据看板] end

九、AI能力工时汇总

能力模块开发内容工时(人天)
智能客服+RAG 知识库搭建+向量检索+AI网关+前端接入+置信度+转人工 15-25
订单状态查询 意图识别+受控API+NLG生成+前端交互 8-12
运营报表问答 BI指标API+RAG+管理员界面+报表解释 10-15
仓储SOP引导 WMS知识库+分步引导+异常处理 8-12
情感分析 评价采集+情感模型+打标+工单系统+预警 6-10
合计 47-79 人天
报价说明:AI能力为可选增强包,可独立报价;建议根据业务优先级分阶段实施。

文档同步:requirements_v2.md 第十二章 | 八/九章详细流程与架构图 | 维护:项目团队