llm – hupcのblog

百万令牌的效率革命 DeepSeek_V4技术报告全景解读

2026-5-09 15:04

|

118

|

AI

8037 字

|

32 分钟

当"能处理多少 token"成为衡量模型能力的新维度，如何在不让成本和延迟失控的前提下，把上下文从几万推向百万，成了各家大模型最棘手的工程难题。DeepSeek 给出了自己的答案。 DeepSeek-V4 发布已有一段时间，其极具竞争力的定价与高效的缓存机制，给开发者们带来了不小的惊喜。然而，模型出色的表现背后，支撑它的技术创新更值得深入探究。今天…

ai deepseek llm

Agent 时代的三层通信协议：MCP、A2A 与 ANP

2026-5-07 15:04

|

131

|

AI

1643 字

|

11 分钟

? 本文已同步发布到公众号《浪浪山客栈》 https://mp.weixin.qq.com/s/-VfuWtXcVnwNA4iJmjBAZg 随着 AI Agent 的快速普及，一个现实问题浮出水面：Agent 越来越多，但它们彼此说不上话。不同框架、不同公司构建的 Agent，各有各的接口、各有各的数据格式。想让它们协作，开发者必须手写大量胶水…

agent ai llm

大语言模型（LLM）全景解读：从 N-gram 到 Transformer 的演进之路

2026-4-24 23:33

|

114

|

AI

6029 字

|

24 分钟

? 本文是学习 Hello-Agents 项目时整理的笔记与思考。文章已同步发布到微信公众号【浪浪山客栈】 https://mp.weixin.qq.com/s/r170l35dSyKLPlpA3NZwlQ 一、发展脉络：语言模型是如何一步步进化的？语言模型的核心任务，是对自然语言的概率分布进行建模——简单来说，就是让机器"理解&qu…

agent ai llm

上下文工程：让Agent真正用好记忆与知识

2026-4-24 23:31

|

121

|

AI

4700 字

|

21 分钟

? 本文是学习 Hello-Agents 项目时整理的笔记与思考。拥有记忆和检索能力，只是 Agent 智能化的第一步。如何在有限的上下文窗口内，高效地组织、筛选和利用这些信息，才是决定 Agent 实际表现的关键——这正是上下文工程（Context Engineering）所要解决的问题。文章已同步发布到微信公众号【浪浪山客栈】 https:…

agent ai llm

让Agent拥有记忆：从认知心理学到工程实践

2026-4-24 3:50

|

113

|

AI

4987 字

|

47 分钟

? 本文是学习 Hello-Agents 项目时整理的笔记与思考。一、问题的起点：无状态的大模型当前大模型虽然能力很强，但在设计上它们天然是无状态的。这意味着，每一次对话在模型眼中都是全新开始——它不会"记住"你之前问过什么，也不知道你上周讨论了哪些话题。这种设计在单次问答场景下没有任何问题，但一旦我们希望构建一个真正可用…

agent ai llm

智能体基本概念：从感知到行动的循环

2026-4-23 16:46

|

120

|

AI

1808 字

|

8 分钟

? 本文是学习 Hello-Agents 项目时整理的笔记与思考。Hello-Agents 是 Datawhale 社区出品的开源智能体学习教程，全名《从零开始构建智能体》，目前已在 GitHub 收获超过 13k Star。文章已同步发布到微信公众号【浪浪山客栈】 https://mp.weixin.qq.com/s/ESHjvHP2tXjZu…

agent ai llm

处理Hugging Face上weibo_senti_100k数据集

2024-2-17 13:39

|

1,379

|

AI,后端

343 字

|

4 分钟

当使用 Hugging Face 上的 dirtycomputer/weibo_senti_100k 数据集时，我们发现该数据集只包含了训练集，并没有提供测试集和验证集。因此，在使用该数据集进行模型训练和评估时，我们需要自行将训练集的一部分数据拆分出来作为测试集和验证集。下面的代码演示了如何实现这个功能。首先，我们加载数据集并将其划分为训练集、测…

huggingface llm NLP

处理Hugging Face上的数据集

2024-2-17 13:00

|

1,341

|

AI,后端

120 字

|

2 分钟

当我们使用Hugging Face上的数据集时，有时候需要将数据集按照训练集、测试集、验证集的类别分别处理并写入不同的文件中，以便于我们在训练模型时能更好的处理数据。下面这个方法就能很好的处理这个需求。 # 此方法适用于将huggingface的dataset类型的数据集写入jsonl格式的文件 # texts dataset['train'][…

huggingface llm NLP

微调FLAN-T5以实现情感分析任务

2024-2-16 13:14

|

1,342

|

AI,后端

415 字

|

9 分钟

通过如何用TRL微调大模型（LLMs）和微调 FLAN-T5 以实现聊天和对话摘要两篇文章的学习，我们已经知道了如何通过Hugging Face来微调大模型。这篇文章，我们来实现微调FLAN-T5的情感分析任务。环境配置和之前一样，我们之间从加载处理数据集开始。加载并处理数据集我们使用 t1annnnn/Chinese_sentime…

FLAN-T5 huggingface llm NLP sentiment analysis

huggingface登录方法notebook_login()失效

2024-2-15 22:36

|

1,546

|

AI,后端

84 字

|

1 分钟内

最近在使用kaggle的notebook跑模型的时候发现常规的notebook_login()方法竟然无效。而且用命令行模式的 huggingface-cli login 也没有反应。最后找到了神奇的解决办法。就是在代码前加一行注释Σ(⊙▽⊙"a # I was having the same issue in Jupyter and …

huggingface kaggle llm NLP

标签： llm