Inference
모델을 이용한 추론을 하는 방법과 최적화 기법을 알아봅시다.
vLLM : A high-throughput and memory-efficient inference and serving engine for LLMs
FlashAttention : Fast and memory-efficient exact attention
Last updated
모델을 이용한 추론을 하는 방법과 최적화 기법을 알아봅시다.
vLLM : A high-throughput and memory-efficient inference and serving engine for LLMs
FlashAttention : Fast and memory-efficient exact attention
Last updated