分类: learn

38 篇文章

thumbnail
让Agent拥有记忆:从认知心理学到工程实践
📖 本文是学习 Hello-Agents 项目时整理的笔记与思考。 一、问题的起点:无状态的大模型 当前大模型虽然能力很强,但在设计上它们天然是无状态的。这意味着,每一次对话在模型眼中都是全新开始——它不会"记住"你之前问过什么,也不知道你上周讨论了哪些话题。 这种设计在单次问答场景下没有任何问题,但一旦我们希望构建一个真正可用…
thumbnail
智能体基本概念:从感知到行动的循环
📖 本文是学习 Hello-Agents 项目时整理的笔记与思考。Hello-Agents 是 Datawhale 社区出品的开源智能体学习教程,全名《从零开始构建智能体》,目前已在 GitHub 收获超过 13k Star。 文章已同步发布到微信公众号【浪浪山客栈】 https://mp.weixin.qq.com/s/ESHjvHP2tXjZu…
thumbnail
LeetCode算法笔记之快慢指针
LeetCode题目 80.删除排序数组中的重复项 II 给你一个有序数组 nums ,请你 原地 删除重复出现的元素,使得出现次数超过两次的元素只出现两次 ,返回删除后数组的新长度。 不要使用额外的数组空间,你必须在 原地 修改输入数组 并在使用 O(1) 额外空间的条件下完成。 说明: 为什么返回数值是整数,但输出的答案是数组呢? 请注意,输入…
thumbnail
清除cuda显存
今天在kaggle上跑模型的时候发现,模型还没开始跑就已经占用了11G的显存。这时候就需要清除一下系统中缓存的显存占用。 显存 我们先来查看一下系统显存占用情况: import torch def get_gpu_memory(): gpu_memory = torch.cuda.memory_allocated() / 1024 / 1024 /…
thumbnail
处理Hugging Face上weibo_senti_100k数据集
当使用 Hugging Face 上的 dirtycomputer/weibo_senti_100k 数据集时,我们发现该数据集只包含了训练集,并没有提供测试集和验证集。因此,在使用该数据集进行模型训练和评估时,我们需要自行将训练集的一部分数据拆分出来作为测试集和验证集。 下面的代码演示了如何实现这个功能。首先,我们加载数据集并将其划分为训练集、测…
thumbnail
处理Hugging Face上的数据集
当我们使用Hugging Face上的数据集时,有时候需要将数据集按照训练集、测试集、验证集的类别分别处理并写入不同的文件中,以便于我们在训练模型时能更好的处理数据。 下面这个方法就能很好的处理这个需求。 # 此方法适用于将huggingface的dataset类型的数据集写入jsonl格式的文件 # texts dataset['train'][…
thumbnail
微调FLAN-T5以实现情感分析任务
通过 如何用TRL微调大模型(LLMs) 和 微调 FLAN-T5 以实现聊天和对话摘要 两篇文章的学习,我们已经知道了如何通过Hugging Face来微调大模型。这篇文章,我们来实现微调FLAN-T5的情感分析任务。 环境配置和之前一样,我们之间从加载处理数据集开始。 加载并处理数据集 我们使用 t1annnnn/Chinese_sentime…
thumbnail
huggingface登录方法notebook_login()失效
最近在使用kaggle的notebook跑模型的时候发现常规的notebook_login()方法竟然无效。而且用命令行模式的 huggingface-cli login 也没有反应。最后找到了神奇的解决办法。 就是在代码前加一行注释Σ(⊙▽⊙"a # I was having the same issue in Jupyter and …
thumbnail
微调 FLAN-T5 以实现聊天和对话摘要
在本文中,您将学习如何使Hugging Face Transformers微调 google/flan-t5-xl 的聊天和对话摘要。如果您已经了解 T5,那么 FLAN-T5 在所有方面都更胜一筹。在参数数量相同的情况下,这些模型已在 1000 多个额外任务中进行了微调,涵盖更多语言。 ​ 在本示例中,我们将使用 samsum 数据集,该数据集收…