请教一个问题，使用mp_size=2时的loss应该怎么写 #131

kunden0612 · 2023-08-24T02:52:37Z

logits, *mems = model(inputs_ids, position_ids, attention_mask)
# print(logits.shape)
loss_func = CrossEntropyLoss(ignore_index=-100)
loss = loss_func(logits.view(-1, logits.size(-1)).float(), labels.view(-1))``

我是这样写的loss计算方式，会出现一个/opt/conda/conda-bld/pytorch_1670525539683/work/aten/src/ATen/native/cuda/Loss.cu:242: nll_loss_forward_reduce_cuda_kernel_2d: block: [0,0,0], thread: [15,0,0] Assertion t >= 0 && t < n_classes failed.`` 错误

The text was updated successfully, but these errors were encountered:

1049451037 · 2023-08-24T03:01:35Z

是不是你forward的时候传了parallel_output=True：https://github.com/THUDM/SwissArmyTransformer/blob/main/sat/transformer_defaults.py#L146

导致输出还没有聚合，分散在多个rank里

kunden0612 changed the title ~~请假一个问题，使用mp_size=2时的loss应该怎么写~~ 请教一个问题，使用mp_size=2时的loss应该怎么写 Aug 24, 2023

miznchimaki mentioned this issue Jan 23, 2024

Questions about your LoRA codes #162

Closed

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

请教一个问题，使用mp_size=2时的loss应该怎么写 #131

请教一个问题，使用mp_size=2时的loss应该怎么写 #131

kunden0612 commented Aug 24, 2023 •

edited

Loading

1049451037 commented Aug 24, 2023 •

edited

Loading

请教一个问题，使用mp_size=2时的loss应该怎么写 #131

请教一个问题，使用mp_size=2时的loss应该怎么写 #131

Comments

kunden0612 commented Aug 24, 2023 • edited Loading

1049451037 commented Aug 24, 2023 • edited Loading

kunden0612 commented Aug 24, 2023 •

edited

Loading

1049451037 commented Aug 24, 2023 •

edited

Loading