把项目定位为多模态 RAG Demo,而不是 OCR 工具
真实价值不在于识别出文字,而在于将复杂图纸恢复为可检索、可抽取、可展示、可复核的结构化知识。
- 直接做一个通用 OCR 工具
- 一开始就按企业级生产系统设计
围绕复杂光缆路由图场景设计多模态 RAG Demo 骨架,完成 PRD、三层架构、固定 schema、检索 / 抽取链路与 review_required 机制设计,当前推进 MVP 闭环验证
RouteRAG 来源于复杂工程图资料处理需求,目标不是做一个普通 OCR 工具,而是把复杂光缆路由图中的非结构化信息恢复为可检索、可抽取、可展示、可复核的结构化知识,形成面向复杂工业图纸场景的多模态 RAG Demo
复杂工程图的难点不只是识别文字,而在于恢复文本、图形、连线与拓扑关系之间的业务语义。传统 OCR 工具只能拿到碎片化文本,无法稳定支撑检索、问答与结构化抽取。
把项目收敛为“解析 → 切块 → 向量入库 → 检索 → 结构化抽取 / QA → 展示”的最小闭环,先通过 PRD、架构文档和项目状态文档锁定边界,再围绕固定 schema、风险标记和展示复核链路设计 Demo 骨架。
真实价值不在于识别出文字,而在于将复杂图纸恢复为可检索、可抽取、可展示、可复核的结构化知识。
复杂图纸理解存在较高误判风险,必须显式暴露不确定性,避免把“看起来正确”误当成“已经验证通过”。
这条项目线补齐了我从“会做 AI 方案的产品人”走向“能定义问题、控制边界、设计 RAG Demo 骨架”的技术可信度,也成为我最值得长期经营的个人技术型作品集项目。
项目名对外统一使用 RouteRAG,公开仓库当前命名为 MyOCR。这并不冲突:前者是产品/方案名称,后者是当前代码仓库载体。
这条项目线最重要的价值,不是证明我已经做成了成熟系统,而是证明我能把复杂图纸场景的问题定义、RAG 路线、输出 schema 和 Demo 骨架设计清楚。
当前项目已经明确三层设计:
当前公开代码仓库仍使用 MyOCR 这个仓库名,下面这个入口可直接跳转查看:
相比前面的公司项目,RouteRAG 更能证明: