CodeGraph 实战:在 shield monorepo 上做 A/B 基准测试

CodeGraph 实战:在 shield monorepo 上做 A/B 基准测试摘要在一个真实的 21 子包 / 3,028 文件的 Vue+Nuxt monorepo...

2026-06-15 AI Research

CodeGraph 深度研究:本地代码知识图谱与 AI Agent 加速器

CodeGraph 深度研究:本地代码知识图谱与 AI Agent 加速器摘要CodeGraph(colbymchenry/codegraph)是一个本地优先的代码情报工具:用 tr...

2026-06-15 AI Research

CodeGraph 实战 v2:带工具调用硬证据的 A/B 基准

CodeGraph 实战 v2:带工具调用硬证据的 A/B 基准摘要v1 实战篇用 --output-format json 跑了 baseline vs after,得到 -50....

2026-06-15 AI Research

三大设计 Skill 对比:impeccable vs taste-skill vs ui-ux-pro-max

三大设计 Skill 对比:impeccable vs taste-skill vs ui-ux-pro-max摘要pbakaus/impeccable、Leonxlnx/taste-skil...

2026-06-11 AI Research

openai/evals 深入研究:框架架构、工作流、与生态对比

openai/evals 深入研究:框架架构、工作流、与生态对比摘要openai/evals 是 OpenAI 在 2023 年开源的 LLM 评测框架(截至 2026/0...

2026-06-11 AI Research

评测 Skills 方向:skill-creator 与 OpenAI Evals 对比与选型指南

评测 Skills 方向:skill-creator 与 OpenAI Evals 对比与选型指南摘要如果目标是评测一个 SKILL.md(Anthropic Agent Skill)到底有没...

2026-06-11 AI Research

实战:评测一个真实业务 SKILL 的两种方式与隔离方案

实战:评测一个真实业务 SKILL 的两种方式与隔离方案摘要把”评测 SKILL.md”从纸面方法论落到一次真实评测里:被评对象是业务仓库内一个 会真触发 CI 流水线 + 真 git pus...

2026-06-11 AI Research

如何编写 Claude Skills:5 种写法风格与社区踩坑经验

如何编写 Claude Skills:5 种写法风格与社区踩坑经验摘要Claude Agent Skills 本质上是 「目录 + 一份带 YAML frontmatter 的 SKILL.m...

2026-06-10 AI Research

earendil-works/pi 深度技术研究:从 4 个原子工具到 4 层扩展的代码级解剖

earendil-works/pi 深度技术研究:从 4 个原子工具到 4 层扩展的代码级解剖 本笔记是对 earendil-works/pi 的纵深研究,配合横向对比笔记 pi-a...

2026-06-05 AI Research

pi agent(earendil-works/pi)与 Claude Code、Codex CLI 对比:开源 CLI 编码代理全景(2026)

pi agent(earendil-works/pi)与 Claude Code、Codex CLI 对比:开源 CLI 编码代理全景(2026) ‼️ 本笔记的”pi agent”...

2026-06-05 AI Research