Cover

Written By
技能练习生
技能练习生

核心能力

Data Context Extractor 有两种工作模式,分别应对不同场景。Bootstrap 模式用于从零开始创建技能,Iteration 模式用于在现有技能基础上增量补充知识。这种设计让技能既可以快速启动,又能持续进化。

智能数据库探索

连接数据仓库后,它会自动扫描可用表结构。你可以告诉它你们用的是什么——BigQuery、Snowflake、PostgreSQL、Databricks,它会使用对应的数据仓库工具来探索。对于有几百个表的大型数据仓库,它会帮你缩小范围:"你们最常查询的是哪 3-5 个表?"。聚焦核心表后,它会拉取这些表的详细 schema(字段名、类型、描述),为后续的知识提取打好基础。

关键知识提取

这是最核心的部分。它不会机械地记录表结构,而是像一位经验丰富的分析师,通过对话提取那些"文档里写不出来的知识":

实体消歧: "当你们说'用户'或'客户',具体指什么?"。听起来简单,但很多公司有 user_id、customer_id、account_id,还有注册用户、访客、VIP 用户。搞清楚这些,后续的查询才不会错。

主标识识别: "这个实体的主 ID 是什么?有没有遗留 ID 系统?"。比如用户表可能有 user_id(UUID) 和 legacy_id(旧系统的整数 ID),搞清楚这个,join 操作才不会出错。

核心指标: "最常问的 2-3 个指标是什么?怎么算?"。它不仅记录公式 (比如 ARR = 月度收入 × 12),还会记下数据来源表、时间周期惯例 (是用自然月还是滚动 30 天)、特殊处理逻辑。

数据卫生: "查询时一定要过滤掉什么?"。测试数据、内部用户、已删除记录、欺诈订单——这些是新手最容易踩的坑。它会把这些标准过滤条件记下来,确保生成的查询自动排除这些"脏数据"。

常见错误: "新人最容易犯什么错?"。比如时间字段要转时区、某些列的 null 值有特殊含义、历史表和快照表的差别——这些经验性的知识,比技术文档更有价值。

结构化文档生成

提取完知识后,它会自动生成一套完整的技能包,遵循统一的格式规范:

SKILL.md: 技能的"使用手册",包含技能描述、SQL 方言说明、知识库导航。比如你们用 BigQuery,它会注明日期函数的写法和 PostgreSQL 的区别。

references/entities.md: 实体定义文档。详细说明每个业务实体 (用户、订单、商品) 的含义、主表、ID 字段、实体间关系、标准过滤条件。

references/metrics.md: 指标计算文档。每个指标包含:业务定义 (用大白话解释)、计算公式 (精确到字段)、数据来源、注意事项 (比如"退款订单要在下单后 7 天内才算")。

references/tables/[domain].md: 按领域分组的表文档。比如 tables/ecommerce.md 会覆盖订单、商品、购物车相关的表。每个表的文档包括:表的用途、主键、更新频率、关键字段说明、关联关系、常用查询示例。

references/queries.md: 查询模板库。收录常见查询模式,比如"计算用户 LTV"、"漏斗分析"、"同期群分析"。这些模板可以直接复用,减少重复劳动。

迭代优化能力

技能创建后,你可以随时补充新知识。比如你说 "加上营销数据的表和指标",它会加载现有技能,然后针对营销领域提问:"营销相关的表有哪些?""点击率和转化率怎么算?""投放数据的坑是什么?"。补充完的知识会整合进现有文档,保持文档的一致性和完整性。

实战技巧

从小范围开始

第一次创建技能时,不要试图覆盖所有表。先聚焦最核心的 3-5 个表和 2-3 个指标,快速产出可用版本。后续可以通过迭代模式逐步扩展。

准备好业务术语清单

在开始前,花 5 分钟整理一下你们公司的"特有词汇":GMV、ARR、DAU 这些缩写具体指什么,有没有同名不同义的情况。这样能让知识提取更高效。

记录"坑"和"最佳实践"

当 AI 问 "新人最容易犯什么错?" 时,尽量详细。比如 "events 表的 event_time 是 UTC 时区,但业务报表用的是 PST,所以查询时记得转换"。这些细节会让生成的技能更加实用。

团队协作模式

你可以先创建一个初版技能,然后分享给团队。其他人用迭代模式添加自己负责领域的知识 (比如产品经理加产品相关表、工程师加技术表)。这样,技能会逐渐成为一个团队的"集体智慧库"。