thumbnail
处理Hugging Face上weibo_senti_100k数据集
当使用 Hugging Face 上的 dirtycomputer/weibo_senti_100k 数据集时,我们发现该数据集只包含了训练集,并没有提供测试集和验证集。因此,在使用该数据集进行模型训练和评估时,我们需要自行将训练集的一部分数据拆分出来作为测试集和验证集。 下面的代码演示了如何实现这个功能。首先,我们加载数据集并将其划分为训练集、测…
thumbnail
处理Hugging Face上的数据集
当我们使用Hugging Face上的数据集时,有时候需要将数据集按照训练集、测试集、验证集的类别分别处理并写入不同的文件中,以便于我们在训练模型时能更好的处理数据。 下面这个方法就能很好的处理这个需求。 # 此方法适用于将huggingface的dataset类型的数据集写入jsonl格式的文件 # texts dataset['tra…
thumbnail
微调FLAN-T5以实现情感分析任务
通过 如何用TRL微调大模型(LLMs) 和 微调 FLAN-T5 以实现聊天和对话摘要 两篇文章的学习,我们已经知道了如何通过Hugging Face来微调大模型。这篇文章,我们来实现微调FLAN-T5的情感分析任务。 环境配置和之前一样,我们之间从加载处理数据集开始。 加载并处理数据集 我们使用 t1annnnn/Chinese_sentime…
thumbnail
huggingface登录方法notebook_login()失效
最近在使用kaggle的notebook跑模型的时候发现常规的notebook_login()方法竟然无效。而且用命令行模式的 huggingface-cli login 也没有反应。最后找到了神奇的解决办法。 就是在代码前加一行注释Σ(⊙▽⊙"a # I was having the same issue in Jupyter and …
thumbnail
微调 FLAN-T5 以实现聊天和对话摘要
在本文中,您将学习如何使Hugging Face Transformers微调 google/flan-t5-xl 的聊天和对话摘要。如果您已经了解 T5,那么 FLAN-T5 在所有方面都更胜一筹。在参数数量相同的情况下,这些模型已在 1000 多个额外任务中进行了微调,涵盖更多语言。 ​ 在本示例中,我们将使用 samsum 数据集,该数据集收…
thumbnail
如何用TRL微调大模型(LLMs)
​ 截止到2024年,大模型已经有了飞速发展。ChatGPT的面世,催生了一系列的大模型,包括Meta的Llama 2、Mistrals Mistral & Mixtral 模型、TII Falcon和Google的Flan-T5等等。这些大模型可以运用于很多的任务。例如,聊天机器人、Q&A问答、摘要总结等等。然而,如果你想要定制一…
thumbnail
Typora结束列表格式
在使用typora写文章时,发现结束不了列表格式。列表下面的文字返回不到最左侧。按几次空格都不好使。后来发现需要按command+[。然后再按两下空格就可以了~
thumbnail
调整Chrome浏览器标签页之间的间距
今天更新了Chrome浏览器之后,发现顶部的标签页变成一块一块的了,中间有了间距,如下图所示 更新完看这个样式很是别扭,baidu Google了半天,发现竟然很少有关于这个设置的讨论。 不过最终还是找到了解决办法: 浏览器输入:chrome://flags/#chrome-refresh-2023 搜索refresh 找到`Chrome Refr…
thumbnail
统计MySQL数据库容量
最近DBA反馈我们有个数据库实例下磁盘快满了,需要我们看看有没有优化空间。这时候就需要我们来查看统计下实例下各数据库数据表的数据分布,从而来做出优化方案。这里就记录一下查询数据库容量的相关SQL。 1.查询总的数据量 SELECT SUM(truncate((AVG_ROW_LENGTH*TABLE_ROWS+INDEX_LENGTH)/1024/…
thumbnail
phpexcel踩坑记
phpexcel是PHP项目中操作Excel文件导入导出的神器。 首先,使用phpexcel插件需要PHP的xml和zip扩展。 这个项目是php5.2。之前没有装zip扩展。在装完zip扩展之后进行导入,一直有问题。具体的现象是: 通过PHPExcel_IOFactory :: identify获取文件类型的时候,获取到的不是Excel类型,而一…