You may also enjoy
LLM 微调避坑指南:从训练动态到显存账本的深度解剖
5 分钟阅读
在单卡(如 Tesla P100 16GB)上对大语言模型进行微调时,往往会遇到 Loss 不降、无限复读或显存溢出(OOM)等诡异问题。这篇博客将从底层逻辑出发,拆解 LLM 微调中的核心概念与显存消耗真相。
房价暴跌,房租凭什么死撑?一场剥离金融幻觉的底层估值修复
3 分钟阅读
近期房地产市场有一个极其违背直觉的现象:很多城市的二手房价格已经跌去了 20% 甚至 30%,但打工人们发现,自己每个月交的房租依然坚挺,甚至在部分核心地段还有微涨。
告别“调包侠”:一文彻底搞懂交叉熵与KL散度的数学羁绊
4 分钟阅读
在深度学习的日常搬砖中,写出 criterion = nn.CrossEntropyLoss() 简直就像喝水一样自然。无论是做图像分类、验证码识别,还是训练大语言模型,交叉熵似乎永远是分类任务的标配。
沉默的伤痕:为什么我们不能遗忘“慰安妇”的历史?
2 分钟阅读
在探讨近现代东亚历史与地缘政治时,有一个词汇始终重如千钧,那就是“慰安妇”。


Leave a comment