tech

LLM 微调避坑指南:从训练动态到显存账本的深度解剖

5 分钟阅读

在单卡(如 Tesla P100 16GB)上对大语言模型进行微调时,往往会遇到 Loss 不降、无限复读或显存溢出(OOM)等诡异问题。这篇博客将从底层逻辑出发,拆解 LLM 微调中的核心概念与显存消耗真相。

从 MySQL 协议到 Cloudflare Tunnel:深挖 TCP 的“有状态”江湖

6 分钟阅读

最近在折腾 Home Assistant (HASS) 的公网穿透。我使用了 Cloudflare Tunnel,但发现了一个诡异的现象:本地访问秒开,CF 访问却转圈。在排查过程中,我从应用层的 HTTP 一路杀到了传输层的 TCP,甚至重新认识了 MySQL 这种老牌协议。

Windows 睡眠唤醒后窗口“缩成一团”?彻底解决 Rapid HPD 问题的终极指南

2 分钟阅读

你有没有遇到过这种情况: 本来桌面上整整齐齐排列着浏览器、代码编辑器和各种工具窗口。你去倒了杯咖啡,电脑进入了睡眠模式。当你回来晃动鼠标唤醒屏幕时,血压瞬间升高——所有的窗口都“缩”到了屏幕左上角,或者尺寸变得极小,甚至挤成了一堆。

Word + Zotero 进阶:如何让你的参考文献格式“刷新不倒”?

3 分钟阅读

你是否经历过这样的崩溃瞬间:辛辛苦苦把论文最后的几十条参考文献调整好了字体、间距,甚至好不容易把它们从莫名其妙的“居中对齐”改成了整齐的“左对齐”。结果,你在文中新插入了一条引用,手欠点了一下 Zotero 插件栏的 Refresh(或者 Zotero 自动刷新了)。

DTR 与 RTS:从上古串口线到 ESP32-C3 的日志“幽灵”

6 分钟阅读

你是否遇到过这样的场景: 你买了一块合宙的 ESP32-C3 开发板(或其他使用 Native USB 的板子),兴冲冲地用 PlatformIO 写了个 Hello World。 编译通过,烧录成功,绿色 LED 欢快地闪烁。 然而,当你打开串口监视器(Serial Monitor)时,屏幕却是一片死寂。

深度学习中的“错标”问题:三种实用解决方案提升模型鲁棒性

5 分钟阅读

【导读】 你是否遇到过这种情况:模型结构是最新的 SOTA,超参数调了又调,但 Loss 就是降不下去,或者准确率卡在一个瓶颈死活上不去? 这时候,别急着改代码。去看看你的训练集,说不定你会发现:标注为“猫”的图片里是一只狗,标注为“红灯”的图片其实是绿灯。 这就是传说中的 Label Noise(标签噪声)。本...

🚨 如何彻底从 Git 历史中移除敏感信息(以 secrets.h 为例)

6 分钟阅读

在日常开发中,很多人都犯过一个“致命错误”——把密码、API Key、私钥等敏感信息直接提交到了 Git 仓库里。即便你后来删除了这个文件、甚至提交了 .gitignore,这些秘密依然会留在 Git 的历史记录中,任何人只要回溯旧提交都能看到。

github白嫖gpt4o方法(无门槛)

小于 1 分钟阅读

https://github.com/marketplace/models 可以网页使用 gpt4o https://github.com/settings/personal-access-tokens 生成 api 密钥 api 请求地址: https://models.inference.ai....

google adsense认证遇到的问题

小于 1 分钟阅读

当网站在根目录下面没有路由的时候,添加谷歌需要要求添加的验证条件是无效的,貌似在next.js的情况下它无法等待直接访问根目录之后的跳转页面。然后我试了postman如果直接请求网站根目录也是获得不了内容,也是显示404 not found,不知道为什么它无法自动跳,在代码中我是使用了中间件来判断请求路径如果路径...

闲置服务器赚钱

小于 1 分钟阅读

honeygain(paypal 支付) 注册(#aff):https://r.honeygain.me/LIUWE92F03 安装:https://hub.docker.com/r/honeygain/honeygain repocket (收益很低) 注册(#aff):link.repocket...

移动光猫获得管理员权限教程2024最新

2 分钟阅读

在路由器背后找到用户名密码登录 找到如下界面修改 password 为 text,记录下这个密码 找到如下界面将 display:none 去掉,点击本地恢复出厂设置 回到首页使用固定的管理员账号进行登录 用户名:CMCCAdmin 密码:aDm8H%MdA 访问 http://19...

感知机学习笔记

9 分钟阅读

多层感知机是什么? 多层感知机(Multilayer Perceptron,MLP)是一种前馈人工神经网络模型,它包括至少三层(输入层、隐藏层和输出层)的节点。每一层都完全连接到下一层的节点。在MLP中,信息从输入层开始,经过隐藏层,最后到达输出层。这种从输入到输出的单向流动使得MLP成为一种前馈网络。 MLP的...