当"能处理多少 token"成为衡量模型能力的新维度,如何在不让成本和延迟失控的前提下,把上下文从几万推向百万,成了各家大模型最棘手的工程难题。DeepSeek 给出了自己的答案。 DeepSeek-V4 发布已有一段时间,其极具竞争力的定价与高效的缓存机制,给开发者们带来了不小的惊喜。然而,模型出色的表现背后,支撑它的技术创新更值得深入探究。今天…
📖 本文已同步发布到公众号《浪浪山客栈》 https://mp.weixin.qq.com/s/-VfuWtXcVnwNA4iJmjBAZg 随着 AI Agent 的快速普及,一个现实问题浮出水面:Agent 越来越多,但它们彼此说不上话。 不同框架、不同公司构建的 Agent,各有各的接口、各有各的数据格式。想让它们协作,开发者必须手写大量胶水…
📖 本文是学习 Hello-Agents 项目时整理的笔记与思考。 文章已同步发布到微信公众号【浪浪山客栈】 https://mp.weixin.qq.com/s/r170l35dSyKLPlpA3NZwlQ 一、发展脉络:语言模型是如何一步步进化的? 语言模型的核心任务,是对自然语言的概率分布进行建模——简单来说,就是让机器"理解&qu…
📖 本文是学习 Hello-Agents 项目时整理的笔记与思考。 拥有记忆和检索能力,只是 Agent 智能化的第一步。如何在有限的上下文窗口内,高效地组织、筛选和利用这些信息,才是决定 Agent 实际表现的关键——这正是上下文工程(Context Engineering)所要解决的问题。 文章已同步发布到微信公众号【浪浪山客栈】 https:…
📖 本文是学习 Hello-Agents 项目时整理的笔记与思考。 一、问题的起点:无状态的大模型 当前大模型虽然能力很强,但在设计上它们天然是无状态的。这意味着,每一次对话在模型眼中都是全新开始——它不会"记住"你之前问过什么,也不知道你上周讨论了哪些话题。 这种设计在单次问答场景下没有任何问题,但一旦我们希望构建一个真正可用…
📖 本文是学习 Hello-Agents 项目时整理的笔记与思考。Hello-Agents 是 Datawhale 社区出品的开源智能体学习教程,全名《从零开始构建智能体》,目前已在 GitHub 收获超过 13k Star。 文章已同步发布到微信公众号【浪浪山客栈】 https://mp.weixin.qq.com/s/ESHjvHP2tXjZu…
当使用 Hugging Face 上的 dirtycomputer/weibo_senti_100k 数据集时,我们发现该数据集只包含了训练集,并没有提供测试集和验证集。因此,在使用该数据集进行模型训练和评估时,我们需要自行将训练集的一部分数据拆分出来作为测试集和验证集。 下面的代码演示了如何实现这个功能。首先,我们加载数据集并将其划分为训练集、测…
当我们使用Hugging Face上的数据集时,有时候需要将数据集按照训练集、测试集、验证集的类别分别处理并写入不同的文件中,以便于我们在训练模型时能更好的处理数据。 下面这个方法就能很好的处理这个需求。 # 此方法适用于将huggingface的dataset类型的数据集写入jsonl格式的文件 # texts dataset['train'][…
通过 如何用TRL微调大模型(LLMs) 和 微调 FLAN-T5 以实现聊天和对话摘要 两篇文章的学习,我们已经知道了如何通过Hugging Face来微调大模型。这篇文章,我们来实现微调FLAN-T5的情感分析任务。 环境配置和之前一样,我们之间从加载处理数据集开始。 加载并处理数据集 我们使用 t1annnnn/Chinese_sentime…
最近在使用kaggle的notebook跑模型的时候发现常规的notebook_login()方法竟然无效。而且用命令行模式的 huggingface-cli login 也没有反应。最后找到了神奇的解决办法。 就是在代码前加一行注释Σ(⊙▽⊙"a # I was having the same issue in Jupyter and …