📖 本文是学习 Hello-Agents 项目时整理的笔记与思考。 文章已同步发布到微信公众号【浪浪山客栈】 https://mp.weixin.qq.com/s/r170l35dSyKLPlpA3NZwlQ 一、发展脉络:语言模型是如何一步步进化的? 语言模型的核心任务,是对自然语言的概率分布进行建模——简单来说,就是让机器"理解&qu…
📖 本文是学习 Hello-Agents 项目时整理的笔记与思考。 拥有记忆和检索能力,只是 Agent 智能化的第一步。如何在有限的上下文窗口内,高效地组织、筛选和利用这些信息,才是决定 Agent 实际表现的关键——这正是上下文工程(Context Engineering)所要解决的问题。 文章已同步发布到微信公众号【浪浪山客栈】 https:…
📖 本文是学习 Hello-Agents 项目时整理的笔记与思考。 一、问题的起点:无状态的大模型 当前大模型虽然能力很强,但在设计上它们天然是无状态的。这意味着,每一次对话在模型眼中都是全新开始——它不会"记住"你之前问过什么,也不知道你上周讨论了哪些话题。 这种设计在单次问答场景下没有任何问题,但一旦我们希望构建一个真正可用…
📖 本文是学习 Hello-Agents 项目时整理的笔记与思考。Hello-Agents 是 Datawhale 社区出品的开源智能体学习教程,全名《从零开始构建智能体》,目前已在 GitHub 收获超过 13k Star。 文章已同步发布到微信公众号【浪浪山客栈】 https://mp.weixin.qq.com/s/ESHjvHP2tXjZu…
LeetCode题目 80.删除排序数组中的重复项 II 给你一个有序数组 nums ,请你 原地 删除重复出现的元素,使得出现次数超过两次的元素只出现两次 ,返回删除后数组的新长度。 不要使用额外的数组空间,你必须在 原地 修改输入数组 并在使用 O(1) 额外空间的条件下完成。 说明: 为什么返回数值是整数,但输出的答案是数组呢? 请注意,输入…
在Windows下微调大模型训练结束时,出现了一个关于NVML的报错。 FileNotFoundError: Could not find module 'C:\Program Files\NVIDIA Corporation\NVSMI\nvml.dll' (or one of its dependencies). Try u…
今天在kaggle上跑模型的时候发现,模型还没开始跑就已经占用了11G的显存。这时候就需要清除一下系统中缓存的显存占用。 显存 我们先来查看一下系统显存占用情况: import torch def get_gpu_memory(): gpu_memory = torch.cuda.memory_allocated() / 1024 / 1024 /…
当使用 Hugging Face 上的 dirtycomputer/weibo_senti_100k 数据集时,我们发现该数据集只包含了训练集,并没有提供测试集和验证集。因此,在使用该数据集进行模型训练和评估时,我们需要自行将训练集的一部分数据拆分出来作为测试集和验证集。 下面的代码演示了如何实现这个功能。首先,我们加载数据集并将其划分为训练集、测…
当我们使用Hugging Face上的数据集时,有时候需要将数据集按照训练集、测试集、验证集的类别分别处理并写入不同的文件中,以便于我们在训练模型时能更好的处理数据。 下面这个方法就能很好的处理这个需求。 # 此方法适用于将huggingface的dataset类型的数据集写入jsonl格式的文件 # texts dataset['train'][…
通过 如何用TRL微调大模型(LLMs) 和 微调 FLAN-T5 以实现聊天和对话摘要 两篇文章的学习,我们已经知道了如何通过Hugging Face来微调大模型。这篇文章,我们来实现微调FLAN-T5的情感分析任务。 环境配置和之前一样,我们之间从加载处理数据集开始。 加载并处理数据集 我们使用 t1annnnn/Chinese_sentime…