核心能力

Data Context Extractor 有两种工作模式，分别应对不同场景。Bootstrap 模式用于从零开始创建技能，Iteration 模式用于在现有技能基础上增量补充知识。这种设计让技能既可以快速启动，又能持续进化。

智能数据库探索

连接数据仓库后，它会自动扫描可用表结构。你可以告诉它你们用的是什么——BigQuery、Snowflake、PostgreSQL、Databricks，它会使用对应的数据仓库工具来探索。对于有几百个表的大型数据仓库，它会帮你缩小范围："你们最常查询的是哪 3-5 个表？"。聚焦核心表后，它会拉取这些表的详细 schema(字段名、类型、描述),为后续的知识提取打好基础。

关键知识提取

这是最核心的部分。它不会机械地记录表结构，而是像一位经验丰富的分析师，通过对话提取那些"文档里写不出来的知识":

实体消歧: "当你们说'用户'或'客户',具体指什么？"。听起来简单，但很多公司有 user_id、customer_id、account_id，还有注册用户、访客、VIP 用户。搞清楚这些，后续的查询才不会错。

主标识识别: "这个实体的主 ID 是什么？有没有遗留 ID 系统？"。比如用户表可能有 user_id(UUID) 和 legacy_id(旧系统的整数 ID),搞清楚这个，join 操作才不会出错。

核心指标: "最常问的 2-3 个指标是什么？怎么算？"。它不仅记录公式 (比如 ARR = 月度收入 × 12),还会记下数据来源表、时间周期惯例 (是用自然月还是滚动 30 天)、特殊处理逻辑。

数据卫生: "查询时一定要过滤掉什么？"。测试数据、内部用户、已删除记录、欺诈订单——这些是新手最容易踩的坑。它会把这些标准过滤条件记下来，确保生成的查询自动排除这些"脏数据"。

常见错误: "新人最容易犯什么错？"。比如时间字段要转时区、某些列的 null 值有特殊含义、历史表和快照表的差别——这些经验性的知识，比技术文档更有价值。

结构化文档生成

提取完知识后，它会自动生成一套完整的技能包，遵循统一的格式规范：

SKILL.md: 技能的"使用手册",包含技能描述、SQL 方言说明、知识库导航。比如你们用 BigQuery，它会注明日期函数的写法和 PostgreSQL 的区别。

references/entities.md: 实体定义文档。详细说明每个业务实体 (用户、订单、商品) 的含义、主表、ID 字段、实体间关系、标准过滤条件。

references/metrics.md: 指标计算文档。每个指标包含：业务定义 (用大白话解释)、计算公式 (精确到字段)、数据来源、注意事项 (比如"退款订单要在下单后 7 天内才算")。

references/tables/[domain].md: 按领域分组的表文档。比如 tables/ecommerce.md 会覆盖订单、商品、购物车相关的表。每个表的文档包括：表的用途、主键、更新频率、关键字段说明、关联关系、常用查询示例。

references/queries.md: 查询模板库。收录常见查询模式，比如"计算用户 LTV"、"漏斗分析"、"同期群分析"。这些模板可以直接复用，减少重复劳动。

核心能力

智能数据库探索

关键知识提取

结构化文档生成

迭代优化能力

实战技巧

从小范围开始

准备好业务术语清单

记录"坑"和"最佳实践"

团队协作模式