分类: learn

30 篇文章

thumbnail
大语言模型(LLM)全景解读:从 N-gram 到 Transformer 的演进之路
📖 本文是学习 Hello-Agents 项目时整理的笔记与思考。 文章已同步发布到微信公众号【浪浪山客栈】 https://mp.weixin.qq.com/s/r170l35dSyKLPlpA3NZwlQ 一、发展脉络:语言模型是如何一步步进化的? 语言模型的核心任务,是对自然语言的概率分布进行建模——简单来说,就是让机器"理解&qu…
thumbnail
上下文工程:让Agent真正用好记忆与知识
📖 本文是学习 Hello-Agents 项目时整理的笔记与思考。 拥有记忆和检索能力,只是 Agent 智能化的第一步。如何在有限的上下文窗口内,高效地组织、筛选和利用这些信息,才是决定 Agent 实际表现的关键——这正是上下文工程(Context Engineering)所要解决的问题。 文章已同步发布到微信公众号【浪浪山客栈】 https:…
thumbnail
让Agent拥有记忆:从认知心理学到工程实践
📖 本文是学习 Hello-Agents 项目时整理的笔记与思考。 一、问题的起点:无状态的大模型 当前大模型虽然能力很强,但在设计上它们天然是无状态的。这意味着,每一次对话在模型眼中都是全新开始——它不会"记住"你之前问过什么,也不知道你上周讨论了哪些话题。 这种设计在单次问答场景下没有任何问题,但一旦我们希望构建一个真正可用…
thumbnail
智能体基本概念:从感知到行动的循环
📖 本文是学习 Hello-Agents 项目时整理的笔记与思考。Hello-Agents 是 Datawhale 社区出品的开源智能体学习教程,全名《从零开始构建智能体》,目前已在 GitHub 收获超过 13k Star。 文章已同步发布到微信公众号【浪浪山客栈】 https://mp.weixin.qq.com/s/ESHjvHP2tXjZu…
thumbnail
LeetCode算法笔记之快慢指针
LeetCode题目 80.删除排序数组中的重复项 II 给你一个有序数组 nums ,请你 原地 删除重复出现的元素,使得出现次数超过两次的元素只出现两次 ,返回删除后数组的新长度。 不要使用额外的数组空间,你必须在 原地 修改输入数组 并在使用 O(1) 额外空间的条件下完成。 说明: 为什么返回数值是整数,但输出的答案是数组呢? 请注意,输入…
thumbnail
清除cuda显存
今天在kaggle上跑模型的时候发现,模型还没开始跑就已经占用了11G的显存。这时候就需要清除一下系统中缓存的显存占用。 显存 我们先来查看一下系统显存占用情况: import torch def get_gpu_memory(): gpu_memory = torch.cuda.memory_allocated() / 1024 / 1024 /…
thumbnail
处理Hugging Face上weibo_senti_100k数据集
当使用 Hugging Face 上的 dirtycomputer/weibo_senti_100k 数据集时,我们发现该数据集只包含了训练集,并没有提供测试集和验证集。因此,在使用该数据集进行模型训练和评估时,我们需要自行将训练集的一部分数据拆分出来作为测试集和验证集。 下面的代码演示了如何实现这个功能。首先,我们加载数据集并将其划分为训练集、测…
thumbnail
处理Hugging Face上的数据集
当我们使用Hugging Face上的数据集时,有时候需要将数据集按照训练集、测试集、验证集的类别分别处理并写入不同的文件中,以便于我们在训练模型时能更好的处理数据。 下面这个方法就能很好的处理这个需求。 # 此方法适用于将huggingface的dataset类型的数据集写入jsonl格式的文件 # texts dataset['train'][…
thumbnail
微调FLAN-T5以实现情感分析任务
通过 如何用TRL微调大模型(LLMs) 和 微调 FLAN-T5 以实现聊天和对话摘要 两篇文章的学习,我们已经知道了如何通过Hugging Face来微调大模型。这篇文章,我们来实现微调FLAN-T5的情感分析任务。 环境配置和之前一样,我们之间从加载处理数据集开始。 加载并处理数据集 我们使用 t1annnnn/Chinese_sentime…