Pegasus-x-base
inference너무 오래 걸림
{'loss': 2.1714, 'learning_rate': 1.8750000000000002e-05, 'epoch': 0.25} {'loss': 1.6914, 'learning_rate': 1.7500000000000002e-05, 'epoch': 0.5} {'loss': 1.5921, 'learning_rate': 1.6250000000000002e-05, 'epoch': 0.75} {'loss': 1.5064, 'learning_rate': 1.5000000000000002e-05, 'epoch': 1.0} {'eval_loss': 1.2627228498458862, 'eval_runtime': 27.2746, 'eval_samples_per_second': 73.328, 'eval_steps_per_second': 4.583, 'epoch': 1.0} {'loss': 1.4552, 'learning_rate': 1.375e-05, 'epoch': 1.25} {'loss': 1.4325, 'learning_rate': 1.25e-05, 'epoch': 1.5} {'loss': 1.4172, 'learning_rate': 1.125e-05, 'epoch': 1.75} {'loss': 1.3671, 'learning_rate': 1e-05, 'epoch': 2.0} {'eval_loss': 1.1902040243148804, 'eval_runtime': 26.5148, 'eval_samples_per_second': 75.43, 'eval_steps_per_second': 4.714, 'epoch': 2.0} {'loss': 1.349, 'learning_rate': 8.750000000000001e-06, 'epoch': 2.25} {'loss': 1.3471, 'learning_rate': 7.500000000000001e-06, 'epoch': 2.5} {'loss': 1.3454, 'learning_rate': 6.25e-06, 'epoch': 2.75} {'loss': 1.3091, 'learning_rate': 5e-06, 'epoch': 3.0} {'eval_loss': 1.1617546081542969, 'eval_runtime': 26.5473, 'eval_samples_per_second': 75.337, 'eval_steps_per_second': 4.709, 'epoch': 3.0} {'loss': 1.2982, 'learning_rate': 3.7500000000000005e-06, 'epoch': 3.25} {'loss': 1.3044, 'learning_rate': 2.5e-06, 'epoch': 3.5} {'loss': 1.3116, 'learning_rate': 1.25e-06, 'epoch': 3.75} {'loss': 1.2834, 'learning_rate': 0.0, 'epoch': 4.0} {'eval_loss': 1.153829574584961, 'eval_runtime': 26.5188, 'eval_samples_per_second': 75.418, 'eval_steps_per_second': 4.714, 'epoch': 4.0} {'train_runtime': 4628.5775, 'train_samples_per_second': 6.914, 'train_steps_per_second': 1.728, 'train_loss': 1.4488624420166016, 'epoch': 4.0}
bart-base
{'loss': 1.7547, 'learning_rate': 1.7500000000000002e-05, 'epoch': 0.5} {'loss': 1.4714, 'learning_rate': 1.5000000000000002e-05, 'epoch': 1.0} {'eval_loss': 1.178878664970398, 'eval_runtime': 13.3685, 'eval_samples_per_second': 149.605, 'eval_steps_per_second': 9.35, 'epoch': 1.0} {'loss': 1.3003, 'learning_rate': 1.25e-05, 'epoch': 1.5} {'loss': 1.249, 'learning_rate': 1e-05, 'epoch': 2.0} {'eval_loss': 1.0765514373779297, 'eval_runtime': 12.8344, 'eval_samples_per_second': 155.831, 'eval_steps_per_second': 9.739, 'epoch': 2.0} {'loss': 1.156, 'learning_rate': 7.500000000000001e-06, 'epoch': 2.5} {'loss': 1.138, 'learning_rate': 5e-06, 'epoch': 3.0} {'eval_loss': 1.0253338813781738, 'eval_runtime': 12.8459, 'eval_samples_per_second': 155.691, 'eval_steps_per_second': 9.731, 'epoch': 3.0} {'loss': 1.0796, 'learning_rate': 2.5e-06, 'epoch': 3.5} {'loss': 1.0848, 'learning_rate': 0.0, 'epoch': 4.0} {'eval_loss': 1.0043035745620728, 'eval_runtime': 12.8303, 'eval_samples_per_second': 155.881, 'eval_steps_per_second': 9.743, 'epoch': 4.0} {'train_runtime': 1406.8808, 'train_samples_per_second': 22.745, 'train_steps_per_second': 2.843, 'train_loss': 1.2792197723388672, 'epoch': 4.0}
일단 loss는 더 적음
Seonglae Cho