Ajax Zhan's Blog

Welcome!This is Ajaxzhan.
坚信:品味优先于执行,价值驱动下创造、系统工程保安全
持续跟进AI前沿研究,持续思考技术、产品与思维。

这是AI时代,也是一个酒神时代——新技术、新产品、新SOTA层出不穷,从传统大厂到创业公司到OPC到每个个体——每个人都在拼了命想赶上这波浪潮。

神奇的是,在感性和理性的拉扯中,我的理性在这一个月里面变得淡了许多,几乎没有占据过主导地位,感性倒是久不散去,给我带来了许多欢乐和痛苦。

只需要将VPN改成虚拟网卡模式,再打开Cursor的HTTP2.0模式就不会有模型被拦截的问题了,很神奇。解决了HTTP1.1网络环境太差的问题。

最近开始意识到一种很重要的能力——幽默,当然这种幽默不仅仅是对别人,更多是对自己的一种幽默。如果一个人都无法进行自嘲和对生活中的事情进行解构,那么这个人绝对会获得特别痛苦和憋屈,更不用说会产生什么有价值的思考了。所以保持一种对自己冷幽默的态度还是很重要。

兼具深度与启发性的分析,能有效帮助培养更敏锐的Research Taste:关于大海捞针是一个很好的评估长上下文的指标——https://www.zhihu.com/question/654570878/answer/1965228622118888157

AI的发展、LLM的发展太快了,落地的推进也很迅速,中国有无数能人志士正在各自岗位推动这件事情。今年看到的太多新闻都给我一种感觉:AI的浪潮不像是泡沫,未来3-5年AI的需求只会增加,不会减少。浪潮之下,要学习的东西还太多太多。

最近把MLLM当作OCR来用,大概就是识别图中的习题然后转成平台兼容的格式。这个过程中发现大模型的幻觉还挺可怕,他要是直接给你很离谱的错误也就罢了,他居然会给你修改选项中的一些细节,并且修改得很合理,让你完全看不出来。这种幻觉在很多领域我认为还是不可接受的,而且关键是怎么检测出来这种幻觉?如果还要靠人为来检测,那这种基于大模型的自动化工作流其实意义就大打折扣了。

今晚回顾了之前支教的照片,感慨颇深。想做一个好的老师,但确实做的不够好。

今天研究了Coze的Multi-Agent、豆包的语音合成大模型、开源的OpenWebUI和NewAPI,感觉都挺牛的,效果很令人振奋,可以试试组合起来做个项目。

同时我现在越来越觉得,不是为了追求技术而技术,而是要用技术做出真正的好产品,注重用户体验和实际价值。真正的好产品实在令人振奋,字节跳动公司推出的豆包语音系列效果震撼,飞书在办公方面做的绝绝子,今天实用了火山引擎的工单系统都觉得很nice。感觉字节的产品都很有灵气。

今晚看了看过去一年的日记,很有感触,记日记真的很有意思,只有通过当时的文字才能观照今日的自己是否已经成长了。我们需要隔一段时间询问一下自己:自己是否激情依旧,是否能留存有过去许下愿望那时的热情?

本地Git多身份配置

为应对论文评审、开源贡献等场景需在同一机器配置两个Git身份:实名与匿名。本文推荐“全局实名+局部匿名”策略,即通过`git config --global`设置默认身份,再在特定仓库内用`git config`局部覆盖。同时,为匿名身份生成独立SSH密钥,并配置`~/.ssh/config`文件创建专属Host别名(如`github-anon`),最后在匿名项目中使用该别名设置远程地址,即可实现身份隔离与安全管理。该方法利用Git配置层级和SSH别名,清晰、安全地解决了多身份切换需求。

Vibe Coding最佳实践

本文介绍了“Vibe Coding”这一以AI为核心编码主力、人类聚焦于需求定义、项目管理等高价值环节的协同工作模式。文章分享了其最佳实践:强调编码前先规划并沉淀文档以建立AI的长期记忆;主张用脚本和配置固化确定性流程,提升系统可靠性;倡导小步迭代以便评审与学习;并分享了手动管理AI上下文的技巧。作者最后指出,AI时代的工程师需掌握结构化表达、系统思维等元技能,其角色正从“写代码”转向“设计系统、拆解任务、验收成果”。

大模型显存占用分析:训练与推理

本文聚焦大模型底层显存占用与推理优化,核心涵盖训练与推理两阶段分析。训练时显存主要由模型参数、优化器、激活值、梯度值构成,其中优化器(如AdamW的梯度指数平滑值、梯度平方指数平滑值、参数值)占用最大,混合精度下llama13b训练显存可达222.5GB,LoRA通过冻结主体参数、仅优化低秩矩阵显著节约显存。推理阶段引入KV Cache缓存历史token的k、v向量,避免重复计算,使flops基本恒定;显存开销源于模型参数与KV Cache,时间分预填充(TTFT)与解码(TPOT)阶段,受GPU算力与HBM速率影响,如llama-7B解码阶段TPOT约9.3ms。

如何定期备份MySQL数据库

本文介绍了MySQL数据库定时备份的三种方法:Linux/Unix系统可通过`mysqldump`命令编写备份脚本,结合cron定时任务实现;Windows系统可使用任务计划程序执行批处理脚本;Spring Boot项目则可通过`@Scheduled`注解实现定时备份。关键注意事项包括:确保备份脚本权限安全,定期验证备份完整性,将备份文件存储到远程位置避免单点故障。建议在低峰期执行备份以减少性能影响,或专门开一个服务负责备份任务,保障数据安全。

深度学习中的数学:香农熵、交叉熵、KL散度

本文围绕香农熵、交叉熵与KL散度的关联展开,旨在帮助理解KL散度这一大模型强化学习中的核心概念。信息量用-log表示,小概率事件信息量更大;香农熵是概率分布的平均信息量,描述不确定性,均匀分布熵大、聚拢分布熵小。交叉熵为估计分布q对真实分布p的平均信息量估计,通常大于等于香农熵,分布越接近越趋近。KL散度量化两分布差异,定义为交叉熵减香农熵,具有非负(仅相等时为0)、不对称(非距离)性质,最小化KL散度等价于最小化交叉熵,故交叉熵可用于损失函数。另一理解角度:基于P采样,比较两分布下概率相近程度可判断分布相似度。

心经的六度修行:雕刻自己,关注自我成长

本文分享了《金刚经》中的“六度”修行法门,将其视为一种引导人从烦恼此岸到达智慧彼岸的生活方法论。六度包括:布施,即从“要”到“给”的心态转变;持戒,即有所不为,规范自身;忍辱,即面对逆境的智慧与勇气;精进,即纯粹不懈的努力;禅定,即专注调心以求澄澈;般若,即看透事物本质的根本智慧。作者强调,这并非抽象教义,而是实在的生活态度,旨在通过自我雕琢,关注内心成长,从而实现内心的平静。

如何构建高质量代码相关基准数据集

本文聚焦代码相关基准数据集构建,香港科技大学Jialun CAO博士通过分析10年内274个基准,发现普遍存在样本重复、错误参考代码、未处理敏感信息等问题。为此提出55条标准清单,并系统阐述基准开发的五阶段生命周期:设计阶段需明确动机、范围与能力;构建阶段需规范数据收集、预处理与验证;验证阶段需确保模型选择、参数配置与环境一致性;分析阶段需评估难度、可区分度与稳定性;发布阶段需保障材料可访问性与开源规范。该研究为研究人员提供了构建高质量、高可靠、可复现基准的实用指南,助力规避常见问题,提升研究严谨性。

书途漫记1:头脑安静下来,内心却充满热情

本文基于克里希那穆提《生命之书》的阅读感悟,探讨“活在当下”的实践误区:过度强调“当下”易使其沦为概念,反而远离实相。作者指出,实相无路径可循,唯有心脑单纯清晰时才会自然降临;而真正的自在,需成为“无标签的人”——不依附外在定义,保持内在自察的精神内核。最后强调,觉知实相的状态,是头脑安静却内心充满热情,如熏风、阳光般不请自来。

【撰写中】网络层那些事儿——计算机网络图文笔记

今天聊聊计算机网络中网络层那些事儿:在TCP/IP分层模型中,网络层起着承上启下的作用,它包含着诸多协议,内容十分繁杂,学习起来属实不易。因此,本文将采用图文的形式拆解网络层中的重要知识点,帮助读者一起过一遍网络层的核心知识。 我选取的教材是经典黑皮书“自顶向下”,同时本文的讲解顺序与原书有所区别。

【占坑】Go语言进阶:从零实现跳表

本文记录基于Go语言实现跳表的完整过程,旨在通过实践深入理解跳表数据结构的核心原理与优化思路。跳表作为一种高效的概率平衡数据结构,通过多层索引实现快速查找、插入及删除操作,时间复杂度可达O(log n)。文中详细阐述了跳表的节点设计、层级构建逻辑及核心算法实现,包括随机层级生成、节点遍历与更新等关键步骤。目前已完成代码开发,相关实现已同步至GitHub仓库,可供参考学习,助力开发者掌握Go语言与高级数据结构的结合应用。