Ajax Zhan's Blog

Welcome!This is Ajaxzhan.
坚信:品味优先于执行,价值驱动下创造、系统工程保安全
持续跟进AI前沿研究,持续思考技术、产品与思维。

这是AI时代,也是一个酒神时代——新技术、新产品、新SOTA层出不穷,从传统大厂到创业公司到OPC到每个个体——每个人都在拼了命想赶上这波浪潮。

神奇的是,在感性和理性的拉扯中,我的理性在这一个月里面变得淡了许多,几乎没有占据过主导地位,感性倒是久不散去,给我带来了许多欢乐和痛苦。

只需要将VPN改成虚拟网卡模式,再打开Cursor的HTTP2.0模式就不会有模型被拦截的问题了,很神奇。解决了HTTP1.1网络环境太差的问题。

最近开始意识到一种很重要的能力——幽默,当然这种幽默不仅仅是对别人,更多是对自己的一种幽默。如果一个人都无法进行自嘲和对生活中的事情进行解构,那么这个人绝对会获得特别痛苦和憋屈,更不用说会产生什么有价值的思考了。所以保持一种对自己冷幽默的态度还是很重要。

兼具深度与启发性的分析,能有效帮助培养更敏锐的Research Taste:关于大海捞针是一个很好的评估长上下文的指标——https://www.zhihu.com/question/654570878/answer/1965228622118888157

AI的发展、LLM的发展太快了,落地的推进也很迅速,中国有无数能人志士正在各自岗位推动这件事情。今年看到的太多新闻都给我一种感觉:AI的浪潮不像是泡沫,未来3-5年AI的需求只会增加,不会减少。浪潮之下,要学习的东西还太多太多。

最近把MLLM当作OCR来用,大概就是识别图中的习题然后转成平台兼容的格式。这个过程中发现大模型的幻觉还挺可怕,他要是直接给你很离谱的错误也就罢了,他居然会给你修改选项中的一些细节,并且修改得很合理,让你完全看不出来。这种幻觉在很多领域我认为还是不可接受的,而且关键是怎么检测出来这种幻觉?如果还要靠人为来检测,那这种基于大模型的自动化工作流其实意义就大打折扣了。

今晚回顾了之前支教的照片,感慨颇深。想做一个好的老师,但确实做的不够好。

今天研究了Coze的Multi-Agent、豆包的语音合成大模型、开源的OpenWebUI和NewAPI,感觉都挺牛的,效果很令人振奋,可以试试组合起来做个项目。

同时我现在越来越觉得,不是为了追求技术而技术,而是要用技术做出真正的好产品,注重用户体验和实际价值。真正的好产品实在令人振奋,字节跳动公司推出的豆包语音系列效果震撼,飞书在办公方面做的绝绝子,今天实用了火山引擎的工单系统都觉得很nice。感觉字节的产品都很有灵气。

今晚看了看过去一年的日记,很有感触,记日记真的很有意思,只有通过当时的文字才能观照今日的自己是否已经成长了。我们需要隔一段时间询问一下自己:自己是否激情依旧,是否能留存有过去许下愿望那时的热情?

日思|Vibe Any时代下的学习|以人为本、协同进步、第一性原理、综合能力

AI时代,信息获取即时化,“会写代码”等技能稀缺性消解,但学习底层逻辑未变,核心始终是“人”。需拒绝成为知识搬运工,转向人机协作共创:以自身理解外化输入AI,批判性审视输出,让知识沉淀为能力。学习方法上,宜项目驱动,结合Top-Down实践与Roadmap梳理,夯实核心基础;同时强化沟通、表达等综合能力,构筑AI时代护城河。本质而言,学习反人性,工具越强大,人的能动性越珍贵。选择权在个人:是做知识的搬运工,还是驾驭AI杠杆的进化者。

商业思考|SaaS 终结论、企业软件、代码质量危机、工程师分化

“SaaS终结论”存在逻辑断层:企业软件价值不在于代码复杂度,而在于对业务流程的深度理解、跨部门协调及长期维护,如Samsara需硬件集成与销售网络支撑。AI生成代码能力提升不会替代软件,反而可能因开发成本下降释放更多需求(类比杰文斯悖论)。企业规模差异显著:小团队效率提升与大企业系统定制、合规要求不可同日而语。AI还带来“垃圾代码”危机,需解决海量生成代码的质量管理问题。未来工程师将分化为“产品型”(快速构建)与“系统型”(保障质量),多产品捆绑或成AI时代核心防御策略,而非单一产品专注。

大模型安全观察|提示词注入的致命三角、自动化红队、防御困境、权限边界

Prompt注入并非传统漏洞,而是大模型理解上下文机制带来的固有风险,通常源于Agent同时拥有访问数据、接触不可信内容及外发能力。攻击手段已从直接指令进化为社会工程学误导,防御面临“攻击者后手”的困境,完美防御几乎不可能。因此,解决之道在于风险管理而非彻底消除:遵循最小权限原则,高风险操作需人工确认,并配合沙箱隔离与输出防御。我们应将AI视为不完全可信的实习生,通过限制权限构建有韧性的系统。

阅读思考|Agent Infra、Agent 心智模型、日抛型代码

随着AI Agent成为基础软件的主要使用者,软件设计需从用户本质转变出发。核心在于构建贴合经典心智模型(如文件系统、SQL)的系统,而非发明新接口;接口设计需满足自然语言描述意图、符号逻辑固化执行、交付确定性结果。AI Infra特征体现为“日抛型代码”的长尾需求、虚拟化实现的极致低成本,以及单位时间算力的高效撬动。商业模式上,成功企业更像放大千倍的云服务商,通过沉淀确定性能力将边际成本趋近于零。工程重点转向设计可被AI大规模低成本试错与复用的基础能力。

Agent工程化|Agent Infra、FUSE技术、Unix设计哲学、Bash Agent

本文探讨了如何通过"FS + Agent"架构将各类SaaS和数据服务统一抽象为文件系统,实现Agent的自动化操作。核心思想是利用Linux FUSE技术,将HTTP接口、数据库等数据源映射为虚拟文件系统,使Agent能够通过标准文件操作访问和管理各类服务。文章详细介绍了FUSE的工作原理,展示了其通过用户态进程实现文件系统接口的能力,并分析了FUSE与Sandbox的互补关系——前者提供数据抽象层,后者提供权限隔离层。AgentFS作为具体实现方案,采用写时复制机制确保数据安全,并支持多终端共享会话,为构建统一的Agent操作环境提供了可行的技术路径。

工作流思考|AI提效思考与Claude Code使用技巧

Boris Cherny的Claude Code使用技巧聚焦高效协作与AI杠杆最大化:并行运行本地及云端Agent实例提升产出,需技术基础支撑;团队共用并每周更新CLAUDE.md记录错误,通过代码审查让Agent迭代文件;采用计划模式优先架构设计,再落地代码;封装工作流为命令如commit-push-pr提效;设置质量验证环节确保代码质量。对比Cursor,Claude支持多工具调用、subagents及执行Hook(如代码检查、长时任务处理)。建议不跳过权限,用/permissions预批安全命令,并通过“AI意识”优先用AI解决理解偏差问题,避免低效卡顿。

Git子目录迁移:如何将项目子目录迁移到另一个仓库并保留完整提交历史

本文介绍了如何使用 `git subtree` 命令,将一个项目中的子目录完整迁移到另一个独立仓库,并保留其全部提交历史。 核心操作分为两步:首先,在源仓库使用 `git subtree split` 从指定子目录抽取历史,生成一个内容为该子目录的新分支;然后,在目标仓库通过 `git subtree add --prefix` 将此分支合并到指定目录下。 该方法解决了直接复制粘贴丢失历史的问题,能优雅地整合两条独立的Git历史线,确保代码的演进轨迹完整可追溯,是项目重构与代码整合的最佳实践。

From Vibe Coding to SDD:用 Spec-Driven Development 重构AI 编程工作流

本文探讨了AI编程中“氛围编程”的局限。这种方式仅凭模糊提示快速生成代码,却常导致开发者陷入难以维护的“氛围调试”困境。为此,文章提出“规范驱动开发”(SDD)作为解决方案。 SDD强调在编码前先创建详细、结构化、可执行的规范(Spec),将其作为AI的核心输入和“单一事实来源”。这能将不确定的“概率性抽奖”转变为高质量的“确定性工程”,确保AI生成代码的可靠性与一致性。通过AGENTS.md等工具实践,SDD不仅解决了AI在复杂项目中理解不足的问题,更推动开发者角色从代码生产者,转变为驾驭AI的系统架构师与质量审查者。

Python现代项目管理:从 venv 到 uv

本文系统梳理了Python项目管理工具从`venv`、`conda`到新兴工具`uv`的演进。`venv`轻量原生,适合单人项目,但依赖管理能力有限。`conda`能管理Python及系统级依赖,是科学计算的利器,但部署相对笨重。而基于Rust的`uv`速度极快,通过`pyproject.toml`实现现代化的项目依赖管理与锁定,更适配团队协作与工程化需求。文章强调,`pyproject.toml`已成为现代Python项目的核心配置标准,统一了项目构建、依赖声明及工具配置。

本地Git多身份配置

为应对论文评审、开源贡献等场景需在同一机器配置两个Git身份:实名与匿名。本文推荐“全局实名+局部匿名”策略,即通过`git config --global`设置默认身份,再在特定仓库内用`git config`局部覆盖。同时,为匿名身份生成独立SSH密钥,并配置`~/.ssh/config`文件创建专属Host别名(如`github-anon`),最后在匿名项目中使用该别名设置远程地址,即可实现身份隔离与安全管理。该方法利用Git配置层级和SSH别名,清晰、安全地解决了多身份切换需求。