text-generation-webui/modules/GPTQ_loader.py at 7618f3fe8c0d1fad6fdc6f7d99f0346b74c8e535

Public Access

Files

oobabooga 7618f3fe8c Add -gptq-preload for 4-bit offloading (#460 )

This works in a 4GB card now:

```
python server.py --model llama-7b-hf --gptq-bits 4 --gptq-pre-layer 20
```

2023-03-20 16:30:56 -03:00

View Raw