MLTalks

python中符号'*'和'**'的最全用法

发表于 2023-06-23 分类于 python 本文字数： 893 阅读时长 ≈ 3 分钟

0. 用法列表

在数值计算中使用
在函数定义和调用中使用
在迭代器（iterator）中使用

NVIDIA APEX安装完全指南及Megatron-LM/Pytorch运行问题解决(fused_layer_norm_cuda/packaging/amp_C/libc10.so)

发表于 2023-06-22 分类于 pytorch 本文字数： 469 阅读时长 ≈ 2 分钟

1. 问题列表

在Megatron-LM/Pytorch运行中报错如下： 1. No module named 'fused_layer_norm_cuda': apex没有装或者装的不对，注意直接用pip install apex装的不是真正的nvdia-apex，必须通过源码编译安装 2. ModuleNotFoundError: No module named 'packaging': 在新版的apex上编译会遇到报错，需要切换到之前的代码版本 3. No module named 'amp_C': 编译指令使用 pip install -v --no-cache-dir --global-option="--cpp_ext" --global-option="--cuda_ext" ./，编译后还需要额外执行python setup.py install 4. ImportError: libc10.so: cannot open shared object file: No such file or directory: libc10.so是跟着pytorch一起装的

NVIDIA APEX 代码库：https://github.com/NVIDIA/apex

阅读全文 »

python程序中命令行解析布尔(bool)类型参数的最全实现

发表于 2023-06-20 分类于 python 本文字数： 610 阅读时长 ≈ 2 分钟

在python程序中，如何在命令行中传递布尔(bool)类型参数, 并在程序中解析使用? 在python中通常使用argparse进行参数解析, 常用的实现有以下几种方式。

阅读全文 »

GPT-3(Language Models are Few-Shot Learners)论文阅读

发表于 2023-06-19 分类于机器学习本文字数： 511 阅读时长 ≈ 2 分钟

1. 论文阅读

1.1 背景介绍

GPT-2中虽然已经可以通过预训练和下游任务finetune实现不错的效果，但仍存在问题：下游任务finetune仍然需要成千上万的标注样本。为此提出了GPT-3，GPT-3也是一个自回归语言模型，但参数量更大，具有175B参数量，是GPT-2的117倍，大力出奇迹。

GPT-1、GPT-2、GPT-3模型参数量对比如下：

名称	参数量	时间	补充
GPT-1	110M	2018年	GPT-1论文阅读
GPT-2	1.5B	2019年	GPT-2论文阅读
GPT-3	175B	2020年

阅读全文 »

GPT-1(Improving Language Understanding by Generative Pre-Training)论文阅读

发表于 2023-06-18 分类于机器学习本文字数： 744 阅读时长 ≈ 3 分钟

1. 论文阅读

1.1 背景介绍

在GPT(Generative pre-trained transformer)大火的今天回去重读了GPT在18年的开山之作【Improving Language Understanding by Generative Pre-Training】。在面对NLP众多种类任务(自然语言推理/问答/文档分类)时有大量无标注语料，相对而言，有标注的语料非常少。

为此论文提出一个新的训练思路: 先基于海量无标注语料进行通用的生成式预训练，然后针对下游任务使用有标注的数据进行finetune。这算是一个两阶段的半监督训练方法, 先后融合了无监督的预训练和有监督的finetune训练。

阅读全文 »

GPT-2(Language Models are Unsupervised Multitask Learners)论文阅读

发表于 2023-06-16 分类于机器学习本文字数： 701 阅读时长 ≈ 3 分钟

1. 论文阅读

1.1 背景介绍

2019年OpenAI发布的模型，OpenAI在2018年的GPT1中给出了一种半监督的训练方法，在GPT2中针对如下问题做了升级： * 以前机器学习训练代价大，往往先要指定训练任务和高质量的标注数据集，且要保证训练数据和测试数据的分布相同，不同任务间无法复用；GPT2实现一个更通用的系统，支持多种NLP任务的学习，实现了Zero Shot。 * 大模型训练往往需要海量数据，准备高质量的标注数据集明显是不现实的；GPT2中支持使用网上公开的无标注的数据进行训练。

阅读全文 »

CLIP(Contrastive Language–Image Pre-training)论文阅读

发表于 2023-06-15 分类于机器学习本文字数： 682 阅读时长 ≈ 2 分钟

1. 简介

CLIP（Contrastive Language–Image Pre-training）是OpenAI第一篇关于多模态的论文，在2021年1月跟DALL・E一起发布。其中DALL・E用于文本生成图像，CLIP用于图像分类。CLIP跟之前常用的有监督图像分类相比不同，学习中结合了文本的语义信息(natural language supervision)，可以实现类似GPT-3的zero-shot的能力。

CLIP有以下两个优势： * 大幅降低标注成本。之前标注都需要人手工标注大量高质量样本，现在通过搜索引擎自动构建4亿条图像-文本对用于训练。 * 迁移泛化能力强。做为预训练模型，跟特定任务解耦(task-agnostic)，可以实现类似zero-shot的效果。

阅读全文 »

ViT(Vision Transformer)论文阅读

发表于 2023-06-14 分类于机器学习本文字数： 769 阅读时长 ≈ 3 分钟

1. ViT简介

ViT是2020年的一篇paper，目前(2023年2月)在google引用超11000次，CV图像领域中被广泛使用。在ViT出来之前，Transformer架构已经在NLP领域大显身手，在CV领域还是用的CNN，通过ViT这篇paper在CV中正式引入Transormer，且效果不错。

阅读全文 »

pytorch分布式训练使用Dataloader/WebDataset进行数据并行加载

发表于 2023-06-12 分类于机器学习本文字数： 1k 阅读时长 ≈ 4 分钟

1. 使用pytorch原生的DistributedSampler

在pytorch DDP数据并行时会对数据集进行切分，每个rank节点只处理部分数据。使用DistributedSampler来会把dataset数据集采样为一个子数据集。定义如下：

1	torch.utils.data.distributed.DistributedSampler(dataset, num_replicas=None, rank=None, shuffle=True, seed=0, drop_last=False)

dataset：用于采样的数据集
num_replicas (int, optional)：分布式训练总的进程数。默认对应取process_group中的world_size
rank (int, optional)：当前进程的rank号。默认对应取process_group中的rank
shuffle (bool, optional) ：为True表示对indices进行随机打乱。注意使用DistributedSampler时，torch.util.data.Dataloader创建时的shuffle参数，相当于把随机的功能交给了DistributedSampler。默认为True
seed (int, optional)：随机种子，默认为0
drop_last (bool, optional): 为True的话会丢弃结尾的数据，保证数据大小可以被num_replicas整除；为False的话Sampler为增加额外的indices；默认为False