把业务规则落成可靠服务
从充值、交易、收益分成到内容创作,把复杂业务拆成可测试、可追踪、可补偿的后端链路。
我是刘凯,一名 7 年经验的后端研发与 SRE 复合型工程师。长期负责学习类 App 的核心后端、云原生稳定性、数据库与搜索优化、数据平台和 AI Agent 工程化。
我关注的不只是功能是否上线,更关注业务高峰能不能扛住、线上问题能不能被看见、复杂能力能不能沉淀为可复用的平台。
从业务规则、数据一致性、发布扩容、观测告警到 AI 工具化,每一层都服务于同一个目标:让产品稳定向前。
从充值、交易、收益分成到内容创作,把复杂业务拆成可测试、可追踪、可补偿的后端链路。
搭建 APM、ELK、Grafana、Prometheus、Filebeat、Vector 和慢日志链路,让问题从猜测变成证据。
围绕 ACK、HPA、ReadinessGate、滚动更新、Probe、Nginx 和 Service DNS 降低扩容与发布窗口风险。
处理 MongoDB 慢查询、ES 线程池阻塞、缓存命中、连接数堆积和亿级数据迁移中的一致性问题。
参与 ETL、AB 测试、用户画像、QuickBI、ClickHouse 和数据埋点建设,支持产品运营和增长分析。
把词条、词单、搜词、背词、做题、文章和课程抽象为 Tools,探索可执行任务型学习助手。
每个案例都按业务问题、建设动作和可见结果组织。SRE 案例附带真实监控面板截图,便于非技术读者理解证据。
学习类 App 的词条、词单、交易、内容创作和学习记录互相牵连。功能上线只是第一步,更难的是长期保持数据一致、接口稳定和业务可演进。
负责代币系统、词条搜索、网盘收藏夹等核心模块,围绕 Node.js、TypeScript、MongoDB、Redis 和 Elasticsearch 设计数据结构、接口治理、幂等控制、缓存策略和单元测试。
支撑 MOJi 550w+ 注册用户的核心学习场景。词条搜索命中率提升 22%,关键 API 延迟降低约 45ms,代币系统单测覆盖率达到 91%。
线上问题不能只靠用户反馈。流量突增、长尾请求、Pod OOM、连接数堆积、ES 阻塞和 MongoDB 慢查询都需要在影响扩大前被看见。
搭建 APM、ELK、Grafana、Prometheus、Filebeat、Vector 和 DB 慢日志链路,覆盖请求、Nginx、Node.js、Pod、Redis、MongoDB、Elasticsearch 与业务指标。
把排障链路从日志翻找升级为指标、Trace、慢日志和业务面板联动。团队可以按服务、接口、实例和数据库操作快速定位风险。
这些不是装饰图,而是用于定位线上风险的真实工作台。
图 1-3 来自基于 Prometheus、Grafana 和 Vector 搭建的 K8s 与 Nginx 监控面板。它把入口流量、QPS、状态码、连接数、延迟、Pod CPU、内存、网络与重启风险放在同一条排障链路里。
降低发布、扩容、入口层异常和节点资源波动带来的业务不可见风险。



图 4-8 来自基于 Filebeat、ELK 和 Elastic APM 搭建的业务服务指标面板。它把慢接口、错误请求、服务吞吐、Trace、失败率和具体错误消息关联起来。
帮助产品和研发判断哪条业务链路正在变慢、哪类错误正在扩大,以及哪个服务最需要优先处理。





图 9 来自基于 MongoDB profile 采集搭建的慢日志监控。它展示具体集合、操作类型、耗时、执行计划、扫描文档数、扫描 key 数和返回数量。
把数据库慢查询从偶发反馈变成可排序、可追踪、可定位的治理对象,减少索引缺失和查询退化对业务体验的影响。

历史数据迁移不能打断业务,也不能迁完才发现数据不一致。迁移过程本身必须可观测、可重试、可校验。
设计全量迁移、Change Stream 实时增量同步、补偿同步、checkpoint、幂等写入、失败重试、数据校验和迁移日志审计。
形成可复用的大规模 MongoDB 迁移流程,为后续数据库拆分、云上迁移和数据治理提供标准路径。
App 内的词条、词单、搜索、背词、做题和课程能力分散在不同入口,用户很难用自然语言完成连续学习任务。
基于 Express、TypeScript、LangChain 和 LangGraph 设计 Intent、Planner、Tool Executor、Composer 分层,把既有后端能力封装为安全可复用的 Tool 层。
为学习类 App 从功能型入口演进到 AI 驱动任务助手提供技术路径,后端能力可以被自然语言调用和组合。
内容创作者需要稳定管理文件夹、牌组、章节、卡片和发布回滚,学习者需要毫秒级搜索体验。
维护内容平台架构,基于 Elasticsearch 和 BM25 优化全文搜索,结合过滤器、停用词、模糊匹配、相关度策略、分词器和分片策略治理搜索链路。
平台支撑 10w+ 内容创作者和 3200w+ 原创卡片内容,搜索延迟从秒级优化到毫秒级。
这个网站的目标不是堆技术名词,而是让别人快速理解:我能处理复杂线上问题,也能把新技术变成真实产品能力。
从功能实现走向稳定服务体系,关注接口性能、数据一致性、缓存、补偿和故障恢复。
深入 Kubernetes、ACK、HPA、资源模型、发布策略和可观测性建设。
把慢查询、搜索、迁移、埋点和指标平台纳入可验证的工程流程。
把 AI 从 Demo 推向真实业务任务:意图、工具、记忆和结果交付闭环。
不是为了罗列关键词,而是对应生产系统从开发、发布、运行、观测到智能化升级的完整链路。
这些原型把 AI、数据、交互和真实场景连接起来,后续可扩展成独立项目详情页。
一个基于 AI 的人格分析与自我探索工具,尝试用对话行为、语言习惯和 AI 交互方式帮助用户理解自己。
一个面向 iOS 相册整理的产品概念,关注照片清理、收藏、相册归类与 AI 辅助整理体验。
Atom 的个人一级域名,可作为后续个人产品、实验项目、技术文章和展示网站的统一入口。