把业务后端、稳定性治理和可观测性连成一条线

不只是写代码,我负责把系统跑稳。

我是刘凯,一名 7 年经验的后端研发与 SRE 复合型工程师。长期负责学习类 App 的核心后端、云原生稳定性、数据库与搜索优化、数据平台和 AI Agent 工程化。

Node.jsTypeScriptExpressEgg.jsKubernetesAlibaba Cloud ACKMongoDBRedisElasticsearchPostgreSQLClickHouseElastic APMELKGrafanaPrometheusGitLab CI/CDAI AgentsLangGraph
production.system
$ role
backend architect / sre
$ focus
business systems + production stability
$ strength
turn incidents into visible signals
$ output
core services, observability, data migration, ai agents
API
Agent
Core
Data
Observe
550w+
MOJi 平台注册用户
7 年
后端研发与 SRE 经验
22%
词条搜索命中率提升
91%
代币系统单测覆盖率
Capability Map

我能交付的不是技术名词,而是可运行的业务结果。

从业务规则、数据一致性、发布扩容、观测告警到 AI 工具化,每一层都服务于同一个目标:让产品稳定向前。

把业务规则落成可靠服务

从充值、交易、收益分成到内容创作,把复杂业务拆成可测试、可追踪、可补偿的后端链路。

让线上系统被看见

搭建 APM、ELK、Grafana、Prometheus、Filebeat、Vector 和慢日志链路,让问题从猜测变成证据。

治理高峰流量和发布风险

围绕 ACK、HPA、ReadinessGate、滚动更新、Probe、Nginx 和 Service DNS 降低扩容与发布窗口风险。

优化数据库与搜索体验

处理 MongoDB 慢查询、ES 线程池阻塞、缓存命中、连接数堆积和亿级数据迁移中的一致性问题。

把数据变成业务判断

参与 ETL、AB 测试、用户画像、QuickBI、ClickHouse 和数据埋点建设,支持产品运营和增长分析。

把 AI 接入真实业务能力

把词条、词单、搜词、背词、做题、文章和课程抽象为 Tools,探索可执行任务型学习助手。

Case Library

用真实案例说明我解决过什么问题。

每个案例都按业务问题、建设动作和可见结果组织。SRE 案例附带真实监控面板截图,便于非技术读者理解证据。

Business Architecture

MOJi 核心业务后端

  • 代币与交易中台
  • 词条搜索优化
  • 词单收藏夹
  • 数据一致性
业务问题

学习类 App 的词条、词单、交易、内容创作和学习记录互相牵连。功能上线只是第一步,更难的是长期保持数据一致、接口稳定和业务可演进。

我做了什么

负责代币系统、词条搜索、网盘收藏夹等核心模块,围绕 Node.js、TypeScript、MongoDB、Redis 和 Elasticsearch 设计数据结构、接口治理、幂等控制、缓存策略和单元测试。

可见结果

支撑 MOJi 550w+ 注册用户的核心学习场景。词条搜索命中率提升 22%,关键 API 延迟降低约 45ms,代币系统单测覆盖率达到 91%。

SRE Evidence

MOJi 可观测性与稳定性治理

  • K8s / Nginx 监控
  • APM Trace
  • 业务错误面板
  • MongoDB 慢日志
业务问题

线上问题不能只靠用户反馈。流量突增、长尾请求、Pod OOM、连接数堆积、ES 阻塞和 MongoDB 慢查询都需要在影响扩大前被看见。

我做了什么

搭建 APM、ELK、Grafana、Prometheus、Filebeat、Vector 和 DB 慢日志链路,覆盖请求、Nginx、Node.js、Pod、Redis、MongoDB、Elasticsearch 与业务指标。

可见结果

把排障链路从日志翻找升级为指标、Trace、慢日志和业务面板联动。团队可以按服务、接口、实例和数据库操作快速定位风险。

可观测性平台截图证据

这些不是装饰图,而是用于定位线上风险的真实工作台。

K8s / Nginx 运行监控

图 1-3 来自基于 Prometheus、Grafana 和 Vector 搭建的 K8s 与 Nginx 监控面板。它把入口流量、QPS、状态码、连接数、延迟、Pod CPU、内存、网络与重启风险放在同一条排障链路里。

降低发布、扩容、入口层异常和节点资源波动带来的业务不可见风险。

Nginx 入口详情
Grafana Nginx Shield metrics detail dashboard with QPS, status, connections, protocol and latency panels
Nginx 实例概览
Grafana Nginx Shield overview dashboard by instance with QPS, latency and HTTP status distribution
K8s Pod 资源
Grafana Kubernetes pod dashboard with CPU, restart count, memory, filesystem and network panels
业务服务与 APM 监控

图 4-8 来自基于 Filebeat、ELK 和 Elastic APM 搭建的业务服务指标面板。它把慢接口、错误请求、服务吞吐、Trace、失败率和具体错误消息关联起来。

帮助产品和研发判断哪条业务链路正在变慢、哪类错误正在扩大,以及哪个服务最需要优先处理。

服务指标总览
Kibana metric display dashboard with slow MongoDB queries, slow APIs and QPS by service
慢接口与 Span
Kibana HugeCore overview dashboard with API latency, slow API bars and APM span stats
API 健康度
Kibana API health dashboard with success rate, unknown errors and error message tables
APM 服务清单
Elastic APM services inventory showing service latency, throughput and failed transaction rate
APM 服务详情
Elastic APM service detail for mojisho backend with latency, throughput, transactions and errors
MongoDB 慢日志监控

图 9 来自基于 MongoDB profile 采集搭建的慢日志监控。它展示具体集合、操作类型、耗时、执行计划、扫描文档数、扫描 key 数和返回数量。

把数据库慢查询从偶发反馈变成可排序、可追踪、可定位的治理对象,减少索引缺失和查询退化对业务体验的影响。

MongoDB Profile 慢日志
Kibana MongoDB slow logs discover view with operation type, duration, plan summary, docs examined and keys examined
Data Reliability

MongoDB 亿级数据不停机迁移

  • Change Stream
  • 补偿同步
  • checkpoint
  • 一致性校验
业务问题

历史数据迁移不能打断业务,也不能迁完才发现数据不一致。迁移过程本身必须可观测、可重试、可校验。

我做了什么

设计全量迁移、Change Stream 实时增量同步、补偿同步、checkpoint、幂等写入、失败重试、数据校验和迁移日志审计。

可见结果

形成可复用的大规模 MongoDB 迁移流程,为后续数据库拆分、云上迁移和数据治理提供标准路径。

AI Product Engineering

MOJi Agents 学习助手

  • Intent / Planner
  • Tool Executor
  • Session Memory
  • 学习画像
业务问题

App 内的词条、词单、搜索、背词、做题和课程能力分散在不同入口,用户很难用自然语言完成连续学习任务。

我做了什么

基于 Express、TypeScript、LangChain 和 LangGraph 设计 Intent、Planner、Tool Executor、Composer 分层,把既有后端能力封装为安全可复用的 Tool 层。

可见结果

为学习类 App 从功能型入口演进到 AI 驱动任务助手提供技术路径,后端能力可以被自然语言调用和组合。

Content Platform

墨墨内容平台与搜索优化

  • 内容结构
  • RBAC 权限
  • Elasticsearch
  • 搜索体验
业务问题

内容创作者需要稳定管理文件夹、牌组、章节、卡片和发布回滚,学习者需要毫秒级搜索体验。

我做了什么

维护内容平台架构,基于 Elasticsearch 和 BM25 优化全文搜索,结合过滤器、停用词、模糊匹配、相关度策略、分词器和分片策略治理搜索链路。

可见结果

平台支撑 10w+ 内容创作者和 3200w+ 原创卡片内容,搜索延迟从秒级优化到毫秒级。

Career Narrative

我的主线:从写业务,到治理系统,再到构建 AI Native 产品。

这个网站的目标不是堆技术名词,而是让别人快速理解:我能处理复杂线上问题,也能把新技术变成真实产品能力。

01

业务后端

从功能实现走向稳定服务体系,关注接口性能、数据一致性、缓存、补偿和故障恢复。

02

SRE 治理

深入 Kubernetes、ACK、HPA、资源模型、发布策略和可观测性建设。

03

数据可靠性

把慢查询、搜索、迁移、埋点和指标平台纳入可验证的工程流程。

04

AI 工程化

把 AI 从 Demo 推向真实业务任务:意图、工具、记忆和结果交付闭环。

Tech Stack

工具链横跨后端、数据、云原生、可观测性和 AI 工程。

不是为了罗列关键词,而是对应生产系统从开发、发布、运行、观测到智能化升级的完整链路。

Backend

Node.jsTypeScriptEgg.jsExpressParse ServerREST APIRedis Streams

Database / Storage

MongoDBRedisPostgreSQLClickHouseElasticsearch

Cloud Native / Infra

KubernetesAlibaba Cloud ACKDockerNginxGitLabGitLab RunnerACRCertbotCloudflare

Observability

Elastic APMELKKibanaGrafanaPrometheusARMSFilebeatVectorFeishu Webhook

AI Engineering

OpenAI SDKLangChain.jsLangGraphMCPPrompt EngineeringStructured OutputTool CallingAgent Memory
Personal Builds

个人产品探索会持续成为作品集的一部分。

这些原型把 AI、数据、交互和真实场景连接起来,后续可扩展成独立项目详情页。

ABTI

一个基于 AI 的人格分析与自我探索工具,尝试用对话行为、语言习惯和 AI 交互方式帮助用户理解自己。

AI PersonalitySelf ExplorationWeb AppCharacter Cards

拾影 sortly

一个面向 iOS 相册整理的产品概念,关注照片清理、收藏、相册归类与 AI 辅助整理体验。

Photo OrganizeriOS App ConceptAI CleanupInteraction Design

atomclaw.xyz

Atom 的个人一级域名,可作为后续个人产品、实验项目、技术文章和展示网站的统一入口。

abti.atomclaw.xyzalbum.atomclaw.xyzlab.atomclaw.xyz
Contact / Next Step

适合我的下一站

后端架构、平台工程、云原生治理、AI 应用工程化、技术负责人 / Tech Lead、AI Native 产品原型孵化

广州 / Remoteatomclaw.xyz
/resume 预留完整简历页/writing 预留技术文章页/lab 预留实验项目入口