PyTorch Lightning 是否对整个时期的指标进行平均?
Does the PyTorch Lightning average metrics over the whole epoch?
我正在查看 PyTorch-Lightning
官方文档 https://pytorch-lightning.readthedocs.io/en/0.9.0/lightning-module.html 中提供的示例。
这里的损失和指标是在混凝土批次上计算的。但是当记录一个人对特定批次的准确性不感兴趣时,该批次可能相当小且不具有代表性,而是所有时期的平均值。我的理解是否正确,有一些代码对所有批次执行平均,通过纪元?
import pytorch_lightning as pl
from pytorch_lightning.metrics import functional as FM
class ClassificationTask(pl.LightningModule):
def __init__(self, model):
super().__init__()
self.model = model
def training_step(self, batch, batch_idx):
x, y = batch
y_hat = self.model(x)
loss = F.cross_entropy(y_hat, y)
return pl.TrainResult(loss)
def validation_step(self, batch, batch_idx):
x, y = batch
y_hat = self.model(x)
loss = F.cross_entropy(y_hat, y)
acc = FM.accuracy(y_hat, y)
result = pl.EvalResult(checkpoint_on=loss)
result.log_dict({'val_acc': acc, 'val_loss': loss})
return result
def test_step(self, batch, batch_idx):
result = self.validation_step(batch, batch_idx)
result.rename_keys({'val_acc': 'test_acc', 'val_loss': 'test_loss'})
return result
def configure_optimizers(self):
return torch.optim.Adam(self.model.parameters(), lr=0.02)
如果你想对整个时期的指标进行平均,你需要告诉 LightningModule
你已经子类化了。有几种不同的方法可以做到这一点,例如:
- 用
on_epoch=True
调用 result.log('train_loss', loss, on_step=True, on_epoch=True, prog_bar=True, logger=True)
as shown in the docs 以便在整个时期平均训练损失。即:
def training_step(self, batch, batch_idx):
x, y = batch
y_hat = self.model(x)
loss = F.cross_entropy(y_hat, y)
result = pl.TrainResult(loss)
result.log('train_loss', loss, on_step=True, on_epoch=True, prog_bar=True, logger=True)
return result
- 或者,您可以在
LightningModule
本身上调用 log
方法:self.log("train_loss", loss, on_epoch=True, sync_dist=True)
(可选择传递 sync_dist=True
以减少跨加速器)。
您需要在 validation_step
中执行类似的操作以获取聚合的验证集指标或在 validation_epoch_end
方法中自行实现聚合。
我正在查看 PyTorch-Lightning
官方文档 https://pytorch-lightning.readthedocs.io/en/0.9.0/lightning-module.html 中提供的示例。
这里的损失和指标是在混凝土批次上计算的。但是当记录一个人对特定批次的准确性不感兴趣时,该批次可能相当小且不具有代表性,而是所有时期的平均值。我的理解是否正确,有一些代码对所有批次执行平均,通过纪元?
import pytorch_lightning as pl
from pytorch_lightning.metrics import functional as FM
class ClassificationTask(pl.LightningModule):
def __init__(self, model):
super().__init__()
self.model = model
def training_step(self, batch, batch_idx):
x, y = batch
y_hat = self.model(x)
loss = F.cross_entropy(y_hat, y)
return pl.TrainResult(loss)
def validation_step(self, batch, batch_idx):
x, y = batch
y_hat = self.model(x)
loss = F.cross_entropy(y_hat, y)
acc = FM.accuracy(y_hat, y)
result = pl.EvalResult(checkpoint_on=loss)
result.log_dict({'val_acc': acc, 'val_loss': loss})
return result
def test_step(self, batch, batch_idx):
result = self.validation_step(batch, batch_idx)
result.rename_keys({'val_acc': 'test_acc', 'val_loss': 'test_loss'})
return result
def configure_optimizers(self):
return torch.optim.Adam(self.model.parameters(), lr=0.02)
如果你想对整个时期的指标进行平均,你需要告诉 LightningModule
你已经子类化了。有几种不同的方法可以做到这一点,例如:
- 用
on_epoch=True
调用result.log('train_loss', loss, on_step=True, on_epoch=True, prog_bar=True, logger=True)
as shown in the docs 以便在整个时期平均训练损失。即:
def training_step(self, batch, batch_idx):
x, y = batch
y_hat = self.model(x)
loss = F.cross_entropy(y_hat, y)
result = pl.TrainResult(loss)
result.log('train_loss', loss, on_step=True, on_epoch=True, prog_bar=True, logger=True)
return result
- 或者,您可以在
LightningModule
本身上调用log
方法:self.log("train_loss", loss, on_epoch=True, sync_dist=True)
(可选择传递sync_dist=True
以减少跨加速器)。
您需要在 validation_step
中执行类似的操作以获取聚合的验证集指标或在 validation_epoch_end
方法中自行实现聚合。