AI 能力拓展（LLM / RAG）- 即时配送

一、可落地功能（优先级建议）

能力模块	实现思路	用户/运营收益	工作流程	架构图	工时
智能客服 / 工单摘要	对接微信客服或 Web 聊天；RAG 挂载 FAQ、计费规则、服务范围	7×24 常见问题自动答复；会话摘要写入工单	查看流程	查看架构	15-25人天
订单与物流状态自然语言查询	NL → 结构化查询（权限校验 + 仅返回当前用户数据）	用户口语查询「我的订单到哪了」	查看流程	查看架构	8-12人天
运营助手（报表问答）	RAG + 受控 SQL/指标 API（禁止模型直连写库）	站长/老板问「本周各站妥投率」	查看流程	查看架构	10-15人天
入库/出库 SOP 引导	库管端步骤提示、异常话术（依赖知识库）	降低培训与沟通成本	查看流程	查看架构	8-12人天
评价情感分析与风控提示	批量打标差评原因，辅助客服介入	体验与舆情预警	查看流程	查看架构	6-10人天

* 营销文案功能（LLM生成+人工审核）实现较简单，此处略过详细图示

二、推荐业务流程（客服 RAG）

用户提问 → 鉴权(会话绑定 user_id) → 向量检索 FAQ/政策片段 → LLM 生成回答
         → 若置信度低 → 转人工 + 附带检索片段
         → 日志落库（敏感信息脱敏）→ 运营定期更新知识库

flowchart TB subgraph 接入层 U[用户/小程序] --> GW[网关鉴权] end subgraph RAG GW --> R1[向量检索 FAQ/政策] R1 --> R2[重排序与截断] R2 --> R3[LLM 生成] end subgraph 兜底 R3 --> C{置信度} C -->|高| OK[返回用户] C -->|低| H[转人工 + 检索片段] end subgraph 治理 OK --> LOG[审计日志] H --> LOG end

三、调取权限、配额与多路由器（降本与风控）必选设计

LLM/RAG 调用属于高成本、可滥用资源，必须在进入向量检索与模型推理之前完成身份校验与策略路由。参考「用户发起 RAG 查询」类架构：请求携带 JWT 或 API Key → 鉴权服务校验 → 权限/配额层解析 rag_plan（或等价角色策略）→ 再决定可访问的知识库分区与可调用的模型档位 → 检索与生成 → 扣减配额并写审计。这样可将不同租户/会员等级/后台角色映射到不同模型与不同数据范围，通过多路由器（Multi-Router）统一编排，在保障体验的前提下压缩算力与 Token 支出。

3.1 端到端流程（与鉴权、配额、路由对齐）

下列流程确保：未授权不调检索、无配额不调大模型、检索侧按租户/用户隔离（如 Milvus partition / collection 或过滤表达式）。

flowchart TB subgraph REQ["请求入口"] U[用户/客户端发起 RAG 或 LLM 请求] U -->|携带 JWT 或 API Key| GW[网关 / AI 接入服务] end subgraph AUTH["身份验证"] GW --> A1{JWT/API Key 有效?} A1 -->|否| E401[401 Unauthorized] A1 -->|是| UID[解析 user_id / tenant_id / 角色] end subgraph PERM["权限与配额"] UID --> P1[(权限与配额存储 MySQL/Redis)] P1 -->|查询 rag_plan 剩余配额| P2{方案有效且配额充足?} P2 -->|否| E403[403 Forbidden] P2 -->|是| PLAN[解析 rag_plan: 模型档集合功能开关] end subgraph ROUTE["多路由器"] PLAN --> MR[模型与工具路由器] MR -->|按策略选档| M1[经济型模型] MR -->|高价值/低置信再升级| M2[增强型模型] MR -->|按权限放行| FT{Function/工具调用} FT -->|允许| TC[受控 API 工具] FT -->|禁止| SKIP[跳过工具仅 RAG 文本] end subgraph RAG["检索与生成"] MR --> V[(Milvus 等向量库)] V -->|collection/partition 过滤如 user 或 tenant| VS[向量检索 TopK] VS --> LLM[LLM 生成 Prompt+片段] M1 --> LLM M2 --> LLM TC -.-> LLM end subgraph POST["计费与审计"] LLM --> Q[配额扣减 + 审计日志] Q --> RSP[返回结果给用户] end

3.2 权限模型要点（专业约定）

维度	说明	与降本关系
身份凭证	用户侧 JWT（绑定 openId/user_id）；对内服务可用 API Key + IP 白名单	拒绝匿名刷接口，避免被盗 Key 拖垮预算
rag_plan / 策略包	与 `user_id`、会员等级、租户套餐或后台角色绑定；字段含：允许模型列表、日/月 Token 上限、可用知识库 `collection`、是否允许工具调用	先判定再推理，无权限直接 403，不产生向量与模型费用
向量隔离	检索时强制 `partition_key` 或过滤表达式（如 tenant、user、站点），禁止全库扫描	减小索引扫描与返回片段长度，间接降 Token
配额扣减时机	建议在「检索+生成」成功路径末或按阶段预扣（预扣需配合失败回滚）	账目清晰，便于按租户做成本账单
审计日志	记录 tenant/user、rag_plan、模型名、近似 Token、trace_id；敏感内容脱敏	事后追责与异常流量识别

3.3 不同用户调用不同模型（档位路由）

多路由器根据 rag_plan 与任务类型（闲聊 FAQ / 摘要 / 报表解释）选择模型，避免「全员顶配」。

用户/角色类型	典型 rag_plan 能力	模型与路由策略
C 端普通用户	仅 FAQ RAG；禁止直连订单写接口	默认经济型模型；低置信再考虑升级或转人工
会员 / 付费套餐	更高日配额 + 可选增强模型	路由允许调用增强型；仍受 Token 上限约束
站长 / 运营（后台）	报表问答 + 指标 API（只读）	可走增强型；工具调用仅限白名单 API
系统任务（批处理）	独立 API Key + 低优先级队列	专用「批处理档」模型或限并发，防止挤占在线用户

3.4 模型功能与工具（Function）权限

若启用 Agent/工具调用，必须在路由器侧维护功能白名单：例如「查单」「查轨迹」仅对已通过业务鉴权的会话开放，且参数由后端校验，禁止模型自拟 user_id。

按 rag_plan 开关：allow_tools: none | read_order | read_report | …
与多路由器联动：工具调用失败或越权时降级为纯 RAG 文本回答或固定话术
降本：多数 FAQ 场景关闭工具，减少往返与二次模型调用

3.5 多路由器配置项（实施清单）

配置项	示例	目的
model_route_rules	plan=A → model=gpt-4o-mini；plan=B → gpt-4o；命中「摘要」意图强制 mini	分层算力
rag_collection_map	plan 映射到 collection / partition 模板	多租户数据隔离 + 检索范围可控
quota_limits	每日 tokens、每分钟请求数、并发数	防刷与预算封顶
escalation_policy	置信度低于阈值或用户点击「更详细」再切换大模型	减少无谓大模型调用
cache_layer	同问题 embedding 缓存、答案短缓存（TTL）	重复问题零模型或仅检索

实施建议：将「鉴权 + rag_plan 解析 + 路由器」部署在独立 AI 网关或 BFF，与向量库、模型供应商之间串联；核心业务库仍不对模型暴露直连连接串。上述策略与 data_api_er_detail.html 中的接口幂等、租户隔离原则一致，可一并评审。

四、基础方案设计（技术概要）

组件	方案选项	说明
模型	公有云 API / 私有化部署	数据合规决定选型
RAG	Milvus、pgvector、ES 向量	政策/FAQ/站点手册切分与同步
编排	LangChain、自研 Pipeline、低代码 Agent	与 Java/Python/Go 后端 HTTP 对接
安全	不投喂完整订单明细；查询走后端 API	防泄漏与幻觉；输出可审计

五、大致成本（量级参考，非承诺）

与需求文档 0.10 工时费用暂估 相同原则：以下为粗算，以调用量、是否私有化、知识库规模为准。

成本项	说明	量级参考
开发集成	客服入口 + RAG 管线 + 知识库管理端	约 15～40 人天
模型调用	Token 计费（问答 + 摘要）	小流量月均数百～数千元；大流量按比例上升
向量库与存储	索引、对象存储	通常可并入现有云资源
运维	知识库更新、监控告警	约 0.2～0.5 人力持续

六、后续迭代路线图（升级放入本页维护）

下列为产品与技术的建议迭代顺序，可在商务确认后调整优先级与范围。

迭代代号	目标	交付要点	依赖
AI-1	客服 RAG MVP	FAQ 入库、检索、小程序/H5 入口、人工转接；同步落地 JWT/API Key 鉴权、`rag_plan`、配额扣减、审计与多路由器（默认经济型模型）	Phase 2 后、知识库初稿
AI-2	会话摘要与工单	会话结束生成摘要写入客服工单表	AI-1、工单模型
AI-3	自然语言查单	意图识别 + 调用受控订单 API（禁止模型直连库）	订单接口稳定、审计策略
AI-4	运营报表问答	指标 API / 物化视图 + RAG 解释	BI 指标定义、权限与站点范围
AI-5	仓储 SOP 与多模态（可选）	扫码/拍照辅助识别异常件说明（合规评估后）	Phase 4 仓储上线

七、价值总结

降本：减少重复性客服与培训成本；配合 rag_plan + 多路由器 + 配额控制模型与检索开销。
体验：自然语言获取规则与状态说明；高价值用户可路由到更强模型。
风险可控：鉴权先于推理、向量隔离、工具白名单、审计日志 + 人工兜底。
与主系统解耦：独立迭代包，不阻塞核心交易上线。

八、各能力详细工作流程与架构图

8.1 智能客服 + RAG 工作流程

用户输入问题 → JWT鉴权绑定user_id → 向量检索FAQ/政策片段
       → LLM生成回答 → 置信度评估
       → 若置信度低 → 转人工 + 附带检索片段
       → 日志落库（敏感信息脱敏）→ 运营定期更新知识库

智能客服 + RAG 架构图

flowchart TB subgraph 接入层 U[用户/小程序] --> GW[AI网关] GW --> AUTH[JWT鉴权+rag_plan校验] end subgraph RAG检索层 AUTH --> VDB[(向量数据库
Milvus/pgvector)] VDB --> EMB[Embedding向量化] AUTH --> LLM[LLM生成] end subgraph 业务能力层 LLM --> POLICY{置信度判断} POLICY -->|高| OK[返回用户] POLICY -->|低| HUMAN[转人工+检索片段] end subgraph 治理层 OK --> LOG[审计日志+配额扣减] HUMAN --> LOG end

8.2 订单状态自然语言查询工作流程

用户输入："我的订单到哪了"
       → 意图识别(NLU) + 实体提取(order_id)
       → 受控API查询(鉴权user_id，仅返回当前用户数据)
       → 订单状态+骑手位置返回
       → LLM生成自然语言回答
       → 返回用户

订单状态查询架构图

flowchart LR subgraph 输入层 Q["用户自然语言查询
我的订单到哪了"] end subgraph AI处理层 Q --> NLU[意图识别NLU] NLU --> ENTITY[实体提取
order_id] ENTITY --> API_CALL[受控API调用] end subgraph 业务层 API_CALL --> ORDER_API[(订单API)] ORDER_API --> DB[(数据库)] end subgraph 输出层 DB --> RESPONSE[结构化数据] RESPONSE --> NLG[NLG自然语言生成] NLG --> A[回答用户] end

8.3 运营报表问答工作流程

管理员输入："本周各站妥投率是多少"
       → 解析指标意图(BI_RATIO)
       → RAG获取报表上下文(指标定义)
       → 调用BI指标API获取数据
       → LLM生成分析回答
       → 返回分析结果

运营报表问答架构图

flowchart TB subgraph 管理员 ADMIN[运营/站长] end subgraph AI网关 GW[AI网关] --> RAG_PLAN[rag_plan权限校验] end subgraph RAG知识库 GW --> METADATA[指标定义知识库] GW --> SOP[运营SOP知识库] end subgraph BI能力 GW --> BI_API[(BI指标API)] BI_API --> DW[数据仓库] end subgraph 输出 GW --> LLM[LLM生成] LLM --> ANSWER[分析回答] end ADMIN --> ANSWER

8.4 仓储SOP引导工作流程

库管员发起入库操作 → 请求SOP指导
       → 检索入库流程SOP
       → 生成引导话术("第1步：请扫描运单号...")
       → APP分步展示
       → 库管确认完成步骤 → 推送下一步
       → 循环直到流程完成

仓储SOP引导架构图

flowchart TB subgraph 仓储APP SCAN[扫码操作] --> APP end subgraph AI网关 APP --> SOP_GW[SOP引导网关] end subgraph 知识库 SOP_GW --> WMS_SOP[(WMS标准SOP)] SOP_GW --> EXCEPTION[异常处理知识库] end subgraph 生成层 SOP_GW --> LLM[LLM话术生成] end subgraph 输出 LLM --> GUIDE[分步引导] GUIDE --> DISPLAY[APP展示] end DISPLAY --> STEP_CONFIRM[步骤确认] STEP_CONFIRM --> SOP_GW

8.5 评价情感分析工作流程

定时任务批量获取评价 → 情感分析模型
       → 情感分析+原因提取
       → 自动打标(好评/差评/投诉)
       → 差评/投诉 → 创建客服工单 → 通知客服
       → 好评 → 更新好评率统计

评价情感分析架构图

flowchart TB subgraph 采集层 CRON[定时任务] --> REVIEWS[(评价数据)] end subgraph 分析层 CRON --> SENTIMENT[情感分析模型] SENTIMENT --> TAG[自动打标] end subgraph 行动层 TAG --> TRIGGER{触发判断} TRIGGER -->|差评| TICKET[创建客服工单] TRIGGER -->|投诉| ALERT[预警通知运营] TRIGGER -->|好评| STATS[好评率统计] end subgraph 运营 TICKET --> AGENT[客服处理] ALERT --> MANAGER[运营主管] STATS --> DASHBOARD[数据看板] end

九、AI能力工时汇总

能力模块	开发内容	工时(人天)
智能客服+RAG	知识库搭建+向量检索+AI网关+前端接入+置信度+转人工	15-25
订单状态查询	意图识别+受控API+NLG生成+前端交互	8-12
运营报表问答	BI指标API+RAG+管理员界面+报表解释	10-15
仓储SOP引导	WMS知识库+分步引导+异常处理	8-12
情感分析	评价采集+情感模型+打标+工单系统+预警	6-10
合计		47-79 人天

报价说明：AI能力为可选增强包，可独立报价；建议根据业务优先级分阶段实施。

LLM / RAG 能力拓展与后续迭代

一、可落地功能（优先级建议）

二、推荐业务流程（客服 RAG）

三、调取权限、配额与多路由器（降本与风控）必选设计

3.1 端到端流程（与鉴权、配额、路由对齐）

3.2 权限模型要点（专业约定）

3.3 不同用户调用不同模型（档位路由）

3.4 模型功能与工具（Function）权限

3.5 多路由器配置项（实施清单）

四、基础方案设计（技术概要）

五、大致成本（量级参考，非承诺）

六、后续迭代路线图（升级放入本页维护）

七、价值总结

八、各能力详细工作流程与架构图

8.1 智能客服 + RAG 工作流程

智能客服 + RAG 架构图

8.2 订单状态自然语言查询 工作流程

订单状态查询 架构图

8.3 运营报表问答 工作流程

运营报表问答 架构图

8.4 仓储SOP引导 工作流程

仓储SOP引导 架构图

8.5 评价情感分析 工作流程

评价情感分析 架构图

九、AI能力工时汇总

8.2 订单状态自然语言查询工作流程

订单状态查询架构图

8.3 运营报表问答工作流程

运营报表问答架构图

8.4 仓储SOP引导工作流程

仓储SOP引导架构图

8.5 评价情感分析工作流程

评价情感分析架构图