Recent posts

LLM 微调避坑指南:从训练动态到显存账本的深度解剖

5 分钟阅读

在单卡(如 Tesla P100 16GB)上对大语言模型进行微调时,往往会遇到 Loss 不降、无限复读或显存溢出(OOM)等诡异问题。这篇博客将从底层逻辑出发,拆解 LLM 微调中的核心概念与显存消耗真相。

算法时代的”精神零食”:我们为何要拒绝离奇的社会新闻?

5 分钟阅读

打开手机,我们的信息流里总是充斥着各种离奇新闻:今天推送一条”某地老人上厕所意外去世”,明天又弹出”老人买105岁可领的保险,最终成功退款”的荒诞故事。在算法的推波助澜下,这类新闻轻易占据热搜,引发评论区的狂欢。

从 MySQL 协议到 Cloudflare Tunnel:深挖 TCP 的“有状态”江湖

6 分钟阅读

最近在折腾 Home Assistant (HASS) 的公网穿透。我使用了 Cloudflare Tunnel,但发现了一个诡异的现象:本地访问秒开,CF 访问却转圈。在排查过程中,我从应用层的 HTTP 一路杀到了传输层的 TCP,甚至重新认识了 MySQL 这种老牌协议。