[2024] RAG Survey : A Survey on Retrieval-Augmented Text Generation for Large Language Models
2024.06.16.
Last updated
2024.06.16.
Last updated
Paper Link : https://arxiv.org/pdf/2404.10981
Retrieval-Augmented Generation (RAG)์ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(LLM)์ ์ ์ ์ธ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๊ธฐ ์ํด ๊ฒ์ ๋ฐฉ๋ฒ๊ณผ ๋ฅ๋ฌ๋ ๋ฐ์ ์ ๊ฒฐํฉํ์ฌ ์ต์ ์ธ๋ถ ์ ๋ณด๋ฅผ ๋์ ์ผ๋ก ํตํฉํ ์ ์๋๋ก ํฉ๋๋ค. ์ด ๋ฐฉ๋ฒ๋ก ์ ์ฃผ๋ก ํ ์คํธ ๋ถ์ผ์ ์ด์ ์ ๋ง์ถ์ด, LLM์ด ์์ฑํ๋ ๊ทธ๋ด๋ฏํ์ง๋ง ์๋ชป๋ ์๋ต์ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ ๋น์ฉ ํจ์จ์ ์ธ ํด๊ฒฐ์ฑ ์ ์ ๊ณตํฉ๋๋ค. ์ค์ ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ์ฌ LLM์ ์ถ๋ ฅ๋ฌผ์ ์ ํ์ฑ๊ณผ ์ ๋ขฐ์ฑ์ ํฅ์์ํค๋ ๊ฒ์ ๋๋ค. RAG๊ฐ ๋ณต์ก์ฑ์ด ์ฆ๊ฐํ๊ณ ์ฑ๋ฅ์ ์ํฅ์ ๋ฏธ์น ์ ์๋ ์ฌ๋ฌ ๊ฐ๋ ์ ํตํฉํจ์ ๋ฐ๋ผ, ์ด ๋ ผ๋ฌธ์ RAG ํจ๋ฌ๋ค์์ ๊ฒ์ ๊ด์ ์์ ์ฌ์ ๊ฒ์(pre-retrieval), ๊ฒ์(retrieval), ์ฌํ ๊ฒ์(post-retrieval), ์์ฑ(generation) ๋ค ๊ฐ์ง ๋ฒ์ฃผ๋ก ๋๋์ด ์ฒด๊ณ์ ์ผ๋ก ์ ๋ฆฌํ๊ณ ์์ต๋๋ค. ๋ ผ๋ฌธ์์๋ RAG์ ์งํ๋ฅผ ๊ฐ์ํ๊ณ ์ฃผ์ ์ฐ๊ตฌ๋ฅผ ๋ถ์ํ์ฌ ์ด ๋ถ์ผ์ ๋ฐ์ ๊ณผ์ ์ ๋ ผ์ํฉ๋๋ค. ๋ํ RAG์ ๋ํ ํ๊ฐ ๋ฐฉ๋ฒ์ ์๊ฐํ๊ณ , ์ง๋ฉดํ ๋ฌธ์ ๋ค์ ๋ค๋ฃจ๋ฉฐ ๋ฏธ๋์ ์ฐ๊ตฌ ๋ฐฉํฅ์ ์ ์ํฉ๋๋ค. ์ด ์ฐ๊ตฌ๋ ์ฒด๊ณ์ ์ธ ํ๋ ์์ํฌ์ ๋ฒ์ฃผํ๋ฅผ ํตํด ๊ธฐ์กด RAG ์ฐ๊ตฌ๋ฅผ ํตํฉํ๊ณ , ๊ทธ ๊ธฐ์ ์ ๊ธฐ์ด๋ฅผ ๋ช ํํ ํ๋ฉฐ, LLM์ ์ ์์ฑ๊ณผ ์์ฉ ๊ฐ๋ฅ์ฑ์ ํ๋ํ ์ ์๋ ์ ์ฌ๋ ฅ์ ๊ฐ์กฐํ๊ณ ์ ํฉ๋๋ค.
ChatGPT์ ์ถํ์ ๊ทธ ์ํธ์์ฉ ๋ฅ๋ ฅ๊ณผ ๊ด๋ฒ์ํ ์์ฉ ๋๋ถ์ ํ๊ณ์ ์ฐ์ ์ ํฐ ์ํฅ์ ๋ฏธ์ณค์ผ๋ฉฐ, ์ด๋ฅผ ํตํด ChatGPT๋ ์ฃผ์ ์ธ๊ณต์ง๋ฅ ๋๊ตฌ๋ก ์๋ฆฌ๋งค๊นํ์์ต๋๋ค (Laskar et al., 2023; Jahan et al., 2023; Huang and Huang, 2024). ChatGPT์ ํต์ฌ์๋ GPT-4๋ผ๋ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(LLM)์ด ์์ผ๋ฉฐ, ์ด๋ ์ด์ ๋ฒ์ ์ ๋นํด ๋ง์ ํฅ์์ ์ด๋ค๋ด์ด ๋ค์ํ ์์ฐ์ด ์ฒ๋ฆฌ(NLP) ์์ ์์ ๋ฐ์ด๋ ๋ฅ๋ ฅ์ ๋ณด์ฌ์ฃผ๊ณ ์์ต๋๋ค (OpenAI et al., 2023; Laskar et al., 2020). ์ด๋ฌํ ๋ฐ์ ์๋ ๋ถ๊ตฌํ๊ณ , ๋๊ท๋ชจ ๋ฐ์ดํฐ์ ์ ์์กดํ๋ ํน์ฑ์ผ๋ก ์ธํด LLM์ ์ฑํ ๊ณผ์ ์์ ๋ช ๊ฐ์ง ์ค์ํ ๋ฌธ์ ๊ฐ ๋ถ๊ฐ๋์์ต๋๋ค. ์ด๋ฌํ ์์กด์ฑ์ ๋ชจ๋ธ์ด ํ๋ จ ์ดํ ์๋ก์ด ์ ๋ณด๋ฅผ ํตํฉํ๋ ๋ฅ๋ ฅ์ ์ ํํ๋ฉฐ, ์๋ 3๊ฐ์ง ์ฃผ์ ๋ฌธ์ ๋ฅผ ์ด๋ํฉ๋๋ค.
์ฒซ์งธ, ์ ๊ทผ์ฑ๊ณผ ์ ์ฉ ๊ฐ๋ฅ์ฑ์ ๊ทน๋ํํ๊ธฐ ์ํด ๊ด๋ฒ์ํ๊ณ ์ผ๋ฐ์ ์ธ ๋ฐ์ดํฐ์ ์ด์ ์ ๋ง์ถ๋ ๊ฒ์ ์ ๋ฌธ ๋ถ์ผ(=specific domains)์์์ ์ฑ๋ฅ์ ์ ํ์ํต๋๋ค.
๋์งธ, ์จ๋ผ์ธ ๋ฐ์ดํฐ์ ๊ธ์ํ ์์ฑ๊ณผ ๋ฐ์ดํฐ ์ฃผ์ ๋ฐ ๋ชจ๋ธ ํ๋ จ์ ํ์ํ ๋ง๋ํ ์์์ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(LLM)์ด ์ต์ ์ํ๋ฅผ ์ ์งํ๋ ๊ฒ์ ๋ฐฉํดํฉ๋๋ค.
์ ์งธ, LLM์ ๊ทธ๋ด๋ฏํ์ง๋ง ๋ถ์ ํํ ์๋ต, ์ผ๋ช "ํ๊ฐ(hallucination)"์ ์์ฑํ ์ ์์ผ๋ฉฐ, ์ด๋ ์ฌ์ฉ์๋ฅผ ํท๊ฐ๋ฆฌ๊ฒ ํ ์ ์์ต๋๋ค.
์ด๋ฌํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ ๊ฒ์ LLM์ด ๋ค์ํ ๋ถ์ผ์์ ํจ๊ณผ์ ์ผ๋ก ํ์ฉ๋๊ธฐ ์ํด ์ค์ํฉ๋๋ค. ์ ๋งํ ํด๊ฒฐ์ฑ ์ผ๋ก๋ ๊ฒ์-์ฆ๊ฐ ์์ฑ(Retrieval-Augmented Generation, RAG) ๊ธฐ์ ์ ํตํฉ์ด ์์ต๋๋ค. ์ด ๊ธฐ์ ์ ๋ชจ๋ธ์ด ์ฟผ๋ฆฌ์ ์๋ตํ์ฌ ์ธ๋ถ ๋ฐ์ดํฐ๋ฅผ ๊ฐ์ ธ์ค๋๋ก ๋ณด์ํจ์ผ๋ก์จ, ๋ ์ ํํ๊ณ ์ต์ ์ ์ถ๋ ฅ์ ๋ณด์ฅํฉ๋๋ค. Figure 01์ RAG๊ฐ ChatGPT๊ฐ ์ด๊ธฐ ํ๋ จ ๋ฐ์ดํฐ ๋ฒ์๋ฅผ ๋์ด ์ ํํ ๋ต๋ณ์ ์ ๊ณตํ ์ ์๋๋ก ํ๋ ๋ฐฉ๋ฒ์ ๋ณด์ฌ์ค๋๋ค.
๐ผ Figure 01 : RAG์ ์ฅ์ ์ค ํ ์์๋ก, ChatGPT๋ ํ๋ จ ๋ฐ์ดํฐ ๋ฒ์๋ฅผ ๋ฒ์ด๋ ์ง๋ฌธ์ ํด๊ฒฐํ๊ณ ์ฌ๋ฐ๋ฅธ ๊ฒฐ๊ณผ๋ฅผ ์์ฑํฉ๋๋ค.
RAG ๊ธฐ์ ์ 2020๋ Lewis ๋ฑ(Lewis et al., 2020b)์ ์ํด ๋์ ๋ ์ดํ, ํนํ ChatGPT์ ์ฑ๊ณต์ ์ํฅ์ ๋ฐ์ ์๋นํ ๋ฐ์ ์ ์ด๋ฃจ์์ต๋๋ค. ๊ทธ๋ฌ๋ RAG์ ๋ฉ์ปค๋์ฆ๊ณผ ํ์ ์ฐ๊ตฌ์์ ์ด๋ฃจ์ด์ง ์ง์ ์ ๋ํ ์ฒ ์ ํ ๋ถ์์ด ๋ถ์กฑํ๋ค๋ ์ ์ด ๋ฌธํ์์ ๋์ ๋๊ฒ ๋ํ๋ฉ๋๋ค. ๋ํ, ์ด ๋ถ์ผ๋ ๋ค์ํ ์ฐ๊ตฌ ์ด์ ๊ณผ ์ ์ฌํ ๋ฐฉ๋ฒ์ ๋ํด ๋ชจํธํ ์ฉ์ด๋ฅผ ์ฌ์ฉํ๋ ๊ฒ์ผ๋ก ํน์ง์ง์ด์ ธ ํผ๋์ ์ด๋ํ๊ณ ์์ต๋๋ค.
์ด ๋ ผ๋ฌธ์ RAG์ ๋ํ ์ฒด๊ณ์ ์ธ ๊ฐ์๋ฅผ ์ ๊ณตํ๊ณ ๋ค์ํ ๋ฐฉ๋ฒ๋ค์ ๋ถ๋ฅํ๋ฉฐ, ์ด ์ฐ๊ตฌ ๋ถ์ผ์ ๋ํ ์ฌ๋ ์๋ ์ดํด๋ฅผ ์ ์ํจ์ผ๋ก์จ ์ด๋ฌํ ์ธก๋ฉด์ ๋ช ํํ ํ๋ ๊ฒ์ ๋ชฉํ๋ก ํฉ๋๋ค. ์ด ์กฐ์ฌ๋ ์ฃผ๋ก RAG์ ํ ์คํธ์ ์์ฉ์ ์ด์ ์ ๋ง์ถ์ด, ์ด ๋ถ์ผ์์ ํ์ฌ์ ์ฐ๊ตฌ ๋ ธ๋ ฅ์ ๋ฐ์ํ ๊ฒ์ ๋๋ค.
RAG๋ ๋ ๊ฐ์ง ์ฃผ์ ์ง๋ฌธ์ ํด๊ฒฐํ๊ธฐ ์ํด ๊ฒ์ ๋ฐฉ๋ฒ๊ณผ ๊ณ ๊ธ ๋ฅ๋ฌ๋์ ๊ฒฐํฉํฉ๋๋ค: ๊ด๋ จ ์ ๋ณด๋ฅผ ํจ๊ณผ์ ์ผ๋ก ๊ฒ์ํ๊ณ ์ ํํ ์๋ต์ ์์ฑํ๋ ๊ฒ์ ๋๋ค. RAG์ ์์ ํ๋ฆ์ ์น์ 2์์ ์ค๋ช ๋๋ฉฐ, ๋ฐฉ๋ฒ๋ก ์ ์ฌ์ ๊ฒ์, ๊ฒ์, ์ฌํ ๊ฒ์, ์์ฑ ๋จ๊ณ๋ก ๋ถ๋ฅํฉ๋๋ค. ์น์ 3์์ 6๊น์ง๋ ์ด ๋จ๊ณ ๋ด์์ ์ฌ์ฉ๋๋ ๊ธฐ์ ๋ค์ ๋ํ ์ฌ๋ ์๋ ๋ถ์์ ์ ๊ณตํฉ๋๋ค. ์น์ 7์์๋ ๊ฒํ ๋ ์ฐ๊ตฌ๋ค์ ๋ํ ์์ฝ๊ณผ ํจ๊ป ์ฌ์ฉ๋ ๊ฒ์๊ธฐ์ ์์ฑ๊ธฐ๋ฅผ ์ ์ํฉ๋๋ค. ์น์ 8์์๋ RAG์ ๋ํ ํ๊ฐ ๋ฐฉ๋ฒ๋ก ์ ์์ธํ ์ค๋ช ํฉ๋๋ค. ์น์ 9์์๋ ํ ์คํธ ๊ธฐ๋ฐ ์ฐ๊ตฌ์ ์ค์ ์ ๋๊ณ ์ด๋ฏธ์ง ๋ฐ ๋ค์ค ๋ชจ๋ ๋ฐ์ดํฐ๋ก ํ์ฅํ์ฌ ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ์ ํ๊ตฌํฉ๋๋ค. ๊ฒฐ๋ก ์ ์น์ 10์ ์ ์๋ฉ๋๋ค.
์ด ๋ ผ๋ฌธ์ ๊ธฐ์ฌ๋ ์ธ ๊ฐ์ง๋ก ์์ฝํ ์ ์์ต๋๋ค. ์ฒซ์งธ, ์ด ๋ ผ๋ฌธ์ RAG ๋ถ์ผ๋ฅผ ์ดํดํ๊ธฐ ์ํ ํฌ๊ด์ ์ธ ํ๋ ์์ํฌ๋ฅผ ์ ๊ณตํ์ฌ ๊ฐ์ ์ด ํ์ํ ์์ญ๊ณผ ๋ฏธ๋ ์ฐ๊ตฌ๋ฅผ ์ํ ๊ณผ์ ๋ฅผ ์๋ณํฉ๋๋ค. ๋์งธ, RAG์ ํต์ฌ ๊ธฐ์ ์ ๋ํ ์์ธํ ๋ถ์์ ์ ๊ณตํ์ฌ, ๊ฒ์ ๋ฐ ์์ฑ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ ๋ฐ ์์ด์์ ๊ฐ์ ์ ์กฐ์ฌํฉ๋๋ค. ๋ง์ง๋ง์ผ๋ก, RAG ์ฐ๊ตฌ์์ ์ฌ์ฉ๋๋ ํ๊ฐ ๋ฐฉ๋ฒ์ ์๊ฐํ๋ฉฐ, ํ์ฌ์ ๊ณผ์ ๋ฅผ ๊ฐ์กฐํ๊ณ ๋ฏธ๋ ์ฐ๊ตฌ๋ฅผ ์ํ ์ ๋งํ ๋ฐฉํฅ์ ์ ์ํฉ๋๋ค.
ํ๊ฐ(hallucinations)์ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(LLM)์ด ์ต์ ์ ๋ณด๋ฅผ ์ ๊ทผํ์ง ๋ชปํ๋ ๋ฐ ์ฃผ๋ก ๊ธฐ์ธํฉ๋๋ค. ์ด๋ฌํ ํ๊ณ๋ ๋ชจ๋ธ์ด ๊ทธ๋ค์ ํ๋ จ ๋ฐ์ดํฐ์ ์ ์์กดํ๋ ๊ฒ์์ ๋น๋กฏ๋ฉ๋๋ค. RAG๋ ๊ฒ์ ๋ชจ๋ธ์ ํตํด ์ธ๋ถ ์์ค๋ก๋ถํฐ ์ต์ ์ ๋ณด๋ฅผ ๋ณด์ถฉํ์ฌ LLM์ ํ๋ จ ๋ฐ์ดํฐ๋ฅผ ๋ณด์ํจ์ผ๋ก์จ, ์ ํํ ์๋ต์ ์์ฑํ ์ ์๋ ํด๊ฒฐ์ฑ ์ ์ ์ํฉ๋๋ค. RAG๋ LLM์ ๋ํด ์ผ๋ฐ์ ์ผ๋ก ํ์ํ ๊ด๋ฒ์ํ ํ๋ จ ๋ฐ ๋ฏธ์ธ ์กฐ์ ๊ณผ์ ์ ๋์ฒดํ ์ ์๋ ๋น์ฉ ํจ์จ์ ์ธ ๋์์ ์ ๊ณตํฉ๋๋ค. ์ด๋ ์ ํต์ ์ธ ๊ฒ์ ๋ฐฉ๋ฒ์ด๋ ์ฌ์ ํ๋ จ๋ ์ธ์ด ๋ชจ๋ธ์ ํตํด ์ต์ ์ ๋ณด๋ฅผ ๋์ ์ผ๋ก ํตํฉํ ์ ์๊ฒ ํ๋ฉฐ, ์ด ์๋ก์ด ๋ฐ์ดํฐ๋ฅผ ์ง์ LLM์ ํตํฉํ ํ์๊ฐ ์์ต๋๋ค. ์ด๋ฌํ ํน์ง ๋๋ถ์ RAG๋ ์ ์ฐ์ฑ๊ณผ ํ์ฅ์ฑ์ ๊ฐ์ถ๊ณ ์์ด ๋ค์ํ ๋ชฉ์ ์ ์ํ ๋ค์ํ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(LLM)์์ ์ ์ฉํ๋๋ฐ ์ ์ฉํฉ๋๋ค. RAG๋ฅผ ํตํด ๊ฒ์๋ ์ ๋ณด๋ ์ค์ ๋ฐ์ดํฐ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ๋ฉฐ, ์ธ๊ฐ์ด ์์ฑํ ๊ฒ์ผ๋ก, ์ด๋ ์์ฑ ๊ณผ์ ์ ๋จ์ํํ ๋ฟ๋ง ์๋๋ผ ์์ฑ๋ ์๋ต์ ์ ๋ขฐ์ฑ์ ๋์ฌ์ค๋๋ค. Figure 02๋ ๊ธฐ๋ณธ ์์ ํ๋ฆ๊ณผ ํจ๋ฌ๋ค์์ ํฌํจํ ํตํฉ๋ RAG ํ๋ ์์ํฌ๋ฅผ ๋ณด์ฌ์ค๋๋ค.
Khandelwal ๋ฑ(Khandelwal et al., 2020)์ ์ฐ๊ตฌ๋ ํ๋ จ ๋ฐ์ดํฐ์ ์์ฒด์์ ๊ด๋ จ ์ ๋ณด๋ฅผ ์ ๊ทผํ๋ ๊ฒ์ด LLM ์ฑ๋ฅ์ ํฌ๊ฒ ํฅ์์ํฌ ์ ์์์ ๋ณด์ฌ์ฃผ๋ฉฐ, RAG์ ํจ๊ณผ๋ฅผ ๊ฐ์กฐํฉ๋๋ค. ์๊ฐ์ด ์ง๋๋ฉด์, RAG๋ ๋ณด์ถฉ ์ ๋ณด๋ฅผ ์ ๊ณตํ๋ ์๋จ์์ ๊ฒ์๊ณผ ์์ฑ ๊ตฌ์ฑ ์์ ๊ฐ์ ์ฌ๋ฌ ์ํธ์์ฉ์ ๊ฐ๋ฅํ๊ฒ ํ๋ ๋ฐฉ์์ผ๋ก ์งํํด์์ต๋๋ค. ์ด๋ ์ ๋ณด์ ์ ํ์ฑ์ ๋์ด๊ธฐ ์ํด ์ฌ๋ฌ ์ฐจ๋ก์ ๊ฒ์์ ์ํํ๊ณ , ์์ฑ๋ ์ถ๋ ฅ๋ฌผ์ ํ์ง์ ๋ฐ๋ณต์ ์ผ๋ก ๊ฐ์ ํ๋ ๊ฒ์ ํฌํจํฉ๋๋ค. LangChain๊ณผ LlamaIndex์ ๊ฐ์ ํ๋ซํผ์ RAG ์ ๊ทผ ๋ฐฉ์์ ๋ชจ๋ํํ์ฌ, ์ ์์ฑ์ ๋์ด๊ณ ์์ฉ ๋ฒ์๋ฅผ ํ์ฅํ์ต๋๋ค. ์ด๋ค ํ๋ซํผ์ RAG์ ๋ค์ํ ์ธก๋ฉด์ ๋ค๋ฃจ๊ธฐ ์ํด ์ฌ๋ฌ ๊ฒ์ ๋ฐ๋ณต๋ถํฐ ๋ฐ๋ณต์ ์ธ ์์ฑ๊น์ง ๋ค์ํ ๋ฐฉ๋ฒ๋ก ์ ์ฌ์ฉํ๊ณ ์์ง๋ง, ๊ธฐ๋ณธ์ ์ธ RAG ์์ ํ๋ฆ์ ์ค์ํ๊ณ ์์ต๋๋ค. ์ด๋ฌํ ์ผ๊ด์ฑ์ ์ด๋ค์ ์๋ ๋ฐฉ์์ ์ดํดํ๊ณ ์ถ๊ฐ ๊ฐ๋ฐ์ ๊ธฐํ๋ฅผ ์๋ณํ๋ ๋ฐ ์์ด ๋งค์ฐ ์ค์ํฉ๋๋ค.
RAG์ ๊ธฐ๋ณธ ์์ ํ๋ฆ์ ์ธ๋ถ ์์ค๋ฅผ ํฌํจํ๋ ์ธ๋ฑ์ค์ ์์ฑ์ผ๋ก ์์๋ฉ๋๋ค. ์ด ์ธ๋ฑ์ค๋ ํน์ ์ฟผ๋ฆฌ์ ๊ธฐ๋ฐํ์ฌ ๊ฒ์ ๋ชจ๋ธ์ด ๊ด๋ จ ์ ๋ณด๋ฅผ ๊ฒ์ํ๋ ๊ธฐ์ด๋ก ์์ฉํฉ๋๋ค. ๋ง์ง๋ง ๋จ๊ณ์์๋ ์์ฑ ๋ชจ๋ธ์ด ๊ฒ์๋ ์ ๋ณด์ ์ฟผ๋ฆฌ๋ฅผ ๊ฒฐํฉํ์ฌ ์ํ๋ ์ถ๋ ฅ์ ์์ฑํฉ๋๋ค.
๐ผ Figure 02 : ๊ธฐ๋ณธ ์์ ํ๋ฆ๊ณผ ํจ๋ฌ๋ค์์ ํฌํจํ ํตํฉ RAG ํ๋ ์์ํฌ.
ํจ์จ์ ์ธ ๊ฒ์์ ํฌ๊ด์ ์ธ ์ธ๋ฑ์ฑ์์ ์์๋๋ฉฐ, ๋ฐ์ดํฐ ์ค๋น๊ฐ ํต์ฌ์ ๋๋ค. ์ด ๋จ๊ณ๋ ํ ์คํธ๋ฅผ ์ธ๋ฑ์ฑ์ ์ ํฉํ๋๋ก ํ๋ ํ ์คํธ ์ ๊ทํ ๊ณผ์ ์ธ ํ ํฐํ(=Tokenization), ์คํ ๋ฐ(Stemming), ๋ถ์ฉ์ด ์ ๊ฑฐ(Removal Stop Words) ๋ฑ์ ํฌํจํฉ๋๋ค (Manning et al., 2008). ๊ทธ๋ฐ ๋ค์ ํ ์คํธ๋ฅผ ๋ฌธ์ฅ ๋๋ ๋จ๋ฝ์ผ๋ก ๊ตฌ์ฑํ์ฌ ๋ ์ง์ค๋ ๊ฒ์์ ๊ฐ๋ฅํ๊ฒ ํ๋ฉฐ, ๊ด๋ จ ํค์๋๋ฅผ ํฌํจํ ์ธ๊ทธ๋จผํธ๋ฅผ ์ ํํ๊ฒ ์ฐพ์๋ผ ์ ์๊ฒ ํฉ๋๋ค. ๋ฅ๋ฌ๋์ ํตํฉ์ ์ฌ์ ํ๋ จ๋ ์ธ์ด ๋ชจ๋ธ์ ์ฌ์ฉํ์ฌ ํ ์คํธ์ ์๋ฏธ๋ก ์ ๋ฒกํฐ ํํ์ ์์ฑํจ์ผ๋ก์จ ์ธ๋ฑ์ฑ์ ํ์ ์ ๊ฐ์ ธ์์ต๋๋ค. ์ด๋ ๊ฒ ์์ฑ๋ ๋ฒกํฐ๋ ์ ์ฅ๋์ด ๋ฐฉ๋ํ ๋ฐ์ดํฐ ์ปฌ๋ ์ ์์ ๋น ๋ฅด๊ณ ์ ํํ ๊ฒ์์ ๊ฐ๋ฅํ๊ฒ ํ์ฌ, ๊ฒ์ ํจ์จ์ฑ์ ํฌ๊ฒ ํฅ์์ํต๋๋ค.
์ ํต์ ์ธ ๊ฒ์ ๋ฐฉ๋ฒ, ์๋ฅผ ๋ค์ด BM25 ์๊ณ ๋ฆฌ์ฆ(Hancock-Beaulieu et al., 1996)์ ๋ฌธ์ ์์๋ฅผ ๋งค๊ธธ ๋ ์ฉ์ด ๋น๋์ ์กด์ฌ์ ์ค์ ์ ๋์ง๋ง, ์ฟผ๋ฆฌ์ ์๋ฏธ๋ก ์ ์ ๋ณด๋ฅผ ๊ฐ๊ณผํ๋ ๊ฒฝ์ฐ๊ฐ ๋ง์ต๋๋ค. ํ์ฌ์ ์ ๋ต์ BERT(Devlin et al., 2019)์ ๊ฐ์ ์ฌ์ ํ๋ จ๋ ์ธ์ด ๋ชจ๋ธ์ ํ์ฉํ์ฌ ์ฟผ๋ฆฌ์ ์๋ฏธ๋ฅผ ๋ณด๋ค ํจ๊ณผ์ ์ผ๋ก ํ์ ํฉ๋๋ค. ์ด๋ฌํ ๋ชจ๋ธ์ ๋์์ด์ ๊ตฌ๋ฌธ์ ๊ตฌ์กฐ๋ฅผ ๊ณ ๋ คํ์ฌ ๊ฒ์ ์ ํ๋๋ฅผ ํฅ์์ํค๋ฉฐ, ์๋ฏธ๋ก ์ ์ ์ฌ์ฑ์ ๊ฐ์งํ์ฌ ๋ฌธ์ ์์๋ฅผ ์ธ๋ถํํฉ๋๋ค. ์ด๋ ์ผ๋ฐ์ ์ผ๋ก ๋ฌธ์์ ์ฟผ๋ฆฌ ๊ฐ์ ๋ฒกํฐ ๊ฑฐ๋ฆฌ๋ฅผ ์ธก์ ํจ์ผ๋ก์จ ์ด๋ฃจ์ด์ง๋ฉฐ, ์ ํต์ ์ธ ๊ฒ์ ์งํ์ ์๋ฏธ๋ก ์ ์ดํด๋ฅผ ๊ฒฐํฉํ์ฌ ์ฌ์ฉ์ ์๋์ ์ผ์นํ๋ ๊ด๋ จ ๊ฒ์ ๊ฒฐ๊ณผ๋ฅผ ๋์ถํฉ๋๋ค.
์์ฑ ๋จ๊ณ๋ ์ฟผ๋ฆฌ์ ๊ด๋ จ์ด ์์ผ๋ฉฐ ๊ฒ์๋ ๋ฌธ์์ ์ ๋ณด๋ฅผ ๋ฐ์ํ๋ ํ ์คํธ๋ฅผ ์์ฑํ๋ ์ญํ ์ ๋งก๊ณ ์์ต๋๋ค. ์ผ๋ฐ์ ์ธ ๋ฐฉ๋ฒ์ ์ฟผ๋ฆฌ์ ๊ฒ์๋ ์ ๋ณด๋ฅผ ๊ฒฐํฉํ์ฌ ์ด๋ฅผ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(LLM)์ ์ ๋ ฅํ์ฌ ํ ์คํธ๋ฅผ ์์ฑํ๋ ๊ฒ์ ๋๋ค(Li et al., 2022). ์์ฑ๋ ํ ์คํธ๊ฐ ๊ฒ์๋ ๋ด์ฉ๊ณผ์ ์ผ์น์ฑ๊ณผ ์ ํ์ฑ์ ๋ณด์ฅํ๋ ๊ฒ์ ๋์ ๊ณผ์ ๊ฐ ๋์ง๋ง, ์๋ณธ ์๋ฃ์ ์ถฉ์คํ๋ฉด์๋ ์ถ๋ ฅ๋ฌผ์ ์ฐฝ์์ฑ์ ๋ถ์ฌํ๋ ๊ท ํ์ ์ ์งํ๋ ๊ฒ๋ ํ์์ ์ ๋๋ค. ์์ฑ๋ ํ ์คํธ๋ ๊ฒ์๋ ๋ฌธ์์ ์ ๋ณด๋ฅผ ์ ํํ๊ฒ ์ ๋ฌํ๊ณ ์ฟผ๋ฆฌ์ ์๋์ ์ผ์นํด์ผ ํ๋ฉฐ, ๋์์ ๊ฒ์๋ ๋ฐ์ดํฐ์ ๋ช ์์ ์ผ๋ก ํฌํจ๋์ง ์์ ์๋ก์ด ํต์ฐฐ์ด๋ ๊ด์ ์ ๋์ ํ ์ ์๋ ์ ์ฐ์ฑ์ ์ ๊ณตํด์ผ ํฉ๋๋ค.
RAG ํจ๋ฌ๋ค์์ ์ฐ๊ตฌ๋ฅผ ์ฒด๊ณ์ ์ผ๋ก ์ ๋ฆฌํ์ฌ LLM์ ์ฑ๋ฅ์ ํฅ์์ํค๊ธฐ ์ํ ๊ฐ๋จํ๋ฉด์๋ ๊ฒฌ๊ณ ํ ํ๋ ์์ํฌ๋ฅผ ์ ๊ณตํฉ๋๋ค. RAG์ ํต์ฌ์ ๊ณ ํ์ง์ ๊ฒฐ๊ณผ๋ฅผ ์์ฑํ๊ธฐ ์ํด ์ค์ํ ๊ฒ์ ๋ฉ์ปค๋์ฆ์ ๋๋ค. ๋ฐ๋ผ์ ์ด ํจ๋ฌ๋ค์์ ๊ฒ์ ๊ด์ ์์ ์ฌ์ ๊ฒ์, ๊ฒ์, ์ฌํ ๊ฒ์, ์์ฑ์ด๋ผ๋ ๋ค ๊ฐ์ง ์ฃผ์ ๋จ๊ณ๋ก ๊ตฌ์ฑ๋ฉ๋๋ค. ๋จ์ผ ๋จ๊ณ ๊ฒ์๊ณผ ๋ค์ค ๋จ๊ณ ๊ฒ์ ์ ๊ทผ๋ฒ ๋ชจ๋ ๋ฐ๋ณต์ ์ธ ๊ฒ์-์์ฑ ์ฌ์ดํด์ ํฌํจํ์ฌ ์ด ๋ค ๋จ๊ณ ๊ตฌ์กฐ๋ฅผ ๋ฐ๋ฆ ๋๋ค. Figure 03์ RAG์ ํต์ฌ ๊ธฐ์ ์ ๋ํ ๋ถ๋ฅ ํธ๋ฆฌ์ ๋๋ค.
๐ผ Figure 03 : RAG์ ํต์ฌ ๊ธฐ์ ์ ๋ํ ๋ถ๋ฅ ํธ๋ฆฌ
๊ฒ์ ์ฆ๊ฐ ์์ฑ(RAG)์ ์ฌ์ ๊ฒ์ ๋จ๊ณ(Pre-Retrieval)๋ ์ฑ๊ณต์ ์ธ ๋ฐ์ดํฐ ๋ฐ ์ฟผ๋ฆฌ ์ค๋น๋ฅผ ์ํ ๊ธฐ์ด๋ฅผ ๋ง๋ จํ๋ฉฐ, ํจ์จ์ ์ธ ์ ๋ณด ๊ฒ์์ ๋ณด์ฅํฉ๋๋ค. ์ด ๋จ๊ณ์์๋ ํจ๊ณผ์ ์ธ ๋ฐ์ดํฐ ์ ๊ทผ์ ์ค๋นํ๊ธฐ ์ํ ํ์ ์์ ์ ํฌํจํฉ๋๋ค.
Indexing
์ด ๊ณผ์ ์ ์ธ๋ฑ์ฑ์ผ๋ก ์์๋๋ฉฐ, ์ด๋ ๋น ๋ฅด๊ณ ์ ํํ ์ ๋ณด ๊ฒ์์ ๊ฐ๋ฅํ๊ฒ ํ๋ ์ฒด๊ณ์ ์ธ ์์คํ ์ ๊ตฌ์ถํ๋ ๊ฒ์ ๋๋ค. ์ธ๋ฑ์ฑ์ ๊ตฌ์ฒด์ฑ์ ์์ ๊ณผ ๋ฐ์ดํฐ ์ ํ์ ๋ฐ๋ผ ๋ฌ๋ผ์ง๋๋ค. ์๋ฅผ ๋ค์ด, ์ง๋ฌธ-์๋ต ์์คํ ์์๋ ์ ๋ต์ ์ ํํ๊ฒ ์ฐพ๊ธฐ ์ํด ๋ฌธ์ฅ ์์ค์ ์ธ๋ฑ์ฑ์ด ์ ์ฉํ๋ฉฐ, ๋ฌธ์์ ์ฃผ์ ๊ฐ๋ ๊ณผ ์์ด๋์ด๋ฅผ ์ดํดํ๊ธฐ ์ํด ๋ฌธ์๋ฅผ ์์ฝํ ๋๋ ๋ฌธ์ ์์ค์ ์ธ๋ฑ์ฑ์ด ๋ ์ ํฉํฉ๋๋ค.
Query Manipulation
์ธ๋ฑ์ฑ ์ดํ์๋ ์ฌ์ฉ์ ์ฟผ๋ฆฌ๋ฅผ ์ธ๋ฑ์ฑ๋ ๋ฐ์ดํฐ์ ๋ ์ ๋ง์ถ๊ธฐ ์ํด ์ฟผ๋ฆฌ ์กฐ์์ด ์ํ๋ฉ๋๋ค. ์ด ๊ณผ์ ์๋ ์ฟผ๋ฆฌ๋ฅผ ์ฌ์ฉ์ ์๋์ ๋ ๊ฐ๊น๊ฒ ์ฌ์์ฑํ๋ ์ฟผ๋ฆฌ ์ฌ๊ตฌ์ฑ(Jansen et al., 2009; Yu et al., 2020), ๋์์ด๋ ๊ด๋ จ ์ฉ์ด๋ฅผ ํตํด ๋ ๊ด๋ จ์ฑ ์๋ ๊ฒฐ๊ณผ๋ฅผ ์ป๊ธฐ ์ํด ์ฟผ๋ฆฌ๋ฅผ ํ์ฅํ๋ ์ฟผ๋ฆฌ ํ์ฅ(Huang et al., 2013), ๊ทธ๋ฆฌ๊ณ ์ฟผ๋ฆฌ ๋งค์นญ์ ์ผ๊ด์ฑ์ ์ํด ์ฒ ์๋ ์ฉ์ด์ ์ฐจ์ด๋ฅผ ํด๊ฒฐํ๋ ์ฟผ๋ฆฌ ์ ๊ทํ๊ฐ ํฌํจ๋ฉ๋๋ค.
Data Modification ๋ฐ์ดํฐ ์์ ๋ ๊ฒ์ ํจ์จ์ฑ์ ํฅ์ํ๋ ๋ฐ ์ค์ํฉ๋๋ค. ์ด ๋จ๊ณ์๋ ๊ฒฐ๊ณผ์ ํ์ง์ ๊ฐ์ ํ๊ธฐ ์ํด ๋ถํ์ํ๊ฑฐ๋ ์ค๋ณต๋ ์ ๋ณด๋ฅผ ์ ๊ฑฐํ๋ ์ ์ฒ๋ฆฌ ๊ธฐ๋ฒ๊ณผ ๊ฒ์๋ ์ฝํ ์ธ ์ ๊ด๋ จ์ฑ๊ณผ ๋ค์์ฑ์ ๋์ด๊ธฐ ์ํด ๋ฉํ๋ฐ์ดํฐ์ ๊ฐ์ ์ถ๊ฐ ์ ๋ณด๋ฅผ ๋ฐ์ดํฐ์ ๋ณด๊ฐํ๋ ์์ ์ด ํฌํจ๋ฉ๋๋ค (Bevilacqua et al., 2022a).
Search & Ranking
๊ฒ์ ๋จ๊ณ๋ ํ์๊ณผ ์์ ๋งค๊ธฐ๊ธฐ์ ์กฐํฉ์ ๋๋ค. ์ด๋ ๋ฐ์ดํฐ์ ์์ ๋ฌธ์๋ฅผ ์ ํํ๊ณ ์ฐ์ ์์๋ฅผ ๋งค๊ฒจ์ ์์ฑ ๋ชจ๋ธ์ ์ถ๋ ฅ ํ์ง์ ํฅ์์ํค๋ ๋ฐ ์ค์ ์ ๋ก๋๋ค. ์ด ๋จ๊ณ์์๋ ๊ฒ์ ์๊ณ ๋ฆฌ์ฆ์ ์ฌ์ฉํ์ฌ ์ธ๋ฑ์ฑ๋ ๋ฐ์ดํฐ๋ฅผ ํ์ํ๊ณ ์ฌ์ฉ์์ ์ฟผ๋ฆฌ์ ์ผ์นํ๋ ๋ฌธ์๋ฅผ ์ฐพ์ต๋๋ค. ๊ด๋ จ ๋ฌธ์๋ฅผ ์๋ณํ ํ, ์ด ๋ฌธ์๋ค์ ์ฟผ๋ฆฌ์์ ๊ด๋ จ์ฑ์ ๋ฐ๋ผ ์ ๋ ฌํ๋ ์ด๊ธฐ ์์ ๋งค๊ธฐ๊ธฐ ๊ณผ์ ์ด ์์๋ฉ๋๋ค.
์ฌํ ๊ฒ์ ๋จ๊ณ๋ ์ฒ์ ๊ฒ์๋ ๋ฌธ์๋ค์ ์ ์ ํ์ฌ ํ ์คํธ ์์ฑ์ ํ์ง์ ํฅ์์ํค๋ ์ญํ ์ ํฉ๋๋ค. ์ด ๋จ๊ณ๋ ์ฌ์์ ๋งค๊ธฐ๊ธฐ์ ํํฐ๋ง์ผ๋ก ๊ตฌ์ฑ๋๋ฉฐ, ๊ฐ๊ฐ ์ต์ข ์์ฑ ์์ ์ ์ํ ๋ฌธ์ ์ ํ์ ์ต์ ํํ๋ ๊ฒ์ ๋ชฉํ๋ก ํฉ๋๋ค.
Re-Ranking
์ฌ์์ ๋งค๊ธฐ๊ธฐ ๋จ๊ณ์์๋ ์ด์ ์ ๊ฒ์๋ ๋ฌธ์๋ค์ ์ฌํ๊ฐํ๊ณ , ์ ์๋ฅผ ๋งค๊ธฐ๋ฉฐ, ์ฌ๊ตฌ์ฑํฉ๋๋ค. ๋ชฉํ๋ ์ฟผ๋ฆฌ์ ๊ฐ์ฅ ๊ด๋ จ์ฑ ๋์ ๋ฌธ์๋ฅผ ๋ ์ ํํ๊ฒ ๊ฐ์กฐํ๊ณ , ๋ ๊ด๋ จ์ฑ ์๋ ๋ฌธ์์ ์ค์์ฑ์ ๋ฎ์ถ๋ ๊ฒ์ ๋๋ค. ์ด ๋จ๊ณ์์๋ ์ ๋ฐ๋๋ฅผ ๋์ด๊ธฐ ์ํด ์ถ๊ฐ์ ์ธ ์งํ์ ์ธ๋ถ ์ง์ ์์ค๋ฅผ ํตํฉํฉ๋๋ค. ์ด์ ๊ฐ์ ๋งฅ๋ฝ์์, ํจ์จ์ฑ์ ๋ฎ์ง๋ง ์ ํ๋๊ฐ ๋์ ์ฌ์ ํ๋ จ๋ ๋ชจ๋ธ์ ํ๋ณด ๋ฌธ์ ์งํฉ์ด ์ ํ๋ ๊ฒฝ์ฐ ํจ๊ณผ์ ์ผ๋ก ์ฌ์ฉํ ์ ์์ต๋๋ค (Huang and Hu, 2009).
Filtering
ํํฐ๋ง์ ์ง์ ๋ ํ์ง ๋๋ ๊ด๋ จ์ฑ ๊ธฐ์ค์ ์ถฉ์กฑํ์ง ๋ชปํ๋ ๋ฌธ์๋ฅผ ์ ๊ฑฐํ๋ ๊ฒ์ ๋ชฉํ๋ก ํฉ๋๋ค. ์ด๋ ํน์ ๊ด๋ จ์ฑ ์์ค ์ดํ์ ๋ฌธ์๋ฅผ ์ ์ธํ๊ธฐ ์ํด ์ต์ ๊ด๋ จ์ฑ ์ ์ ์๊ณ๊ฐ์ ์ค์ ํ๋ ๋ฑ์ ์ฌ๋ฌ ์ ๊ทผ ๋ฐฉ์์ ํตํด ์ํ๋ ์ ์์ต๋๋ค. ๋ํ, ์ฌ์ฉ์ ํผ๋๋ฐฑ์ด๋ ์ด์ ๊ด๋ จ์ฑ ํ๊ฐ๋ฅผ ์ฌ์ฉํ์ฌ ํํฐ๋ง ๊ณผ์ ์ ์กฐ์ ํจ์ผ๋ก์จ, ํ ์คํธ ์์ฑ์ ๊ฐ์ฅ ๊ด๋ จ์ฑ์ด ๋์ ๋ฌธ์๋ง ์ ์ง๋๋๋ก ๋ณด์ฅํฉ๋๋ค (Khattab and Zaharia, 2020; Huang and Huang, 2023).
์์ฑ ๋จ๊ณ๋ RAG ๊ณผ์ ์ ์ค์ํ ๊ตฌ์ฑ ์์๋ก, ๊ฒ์๋ ์ ๋ณด๋ฅผ ํ์ฉํ์ฌ ์์ฑ๋ ์๋ต์ ํ์ง์ ํฅ์์ํค๋ ์ญํ ์ ํฉ๋๋ค. ์ด ๋จ๊ณ๋ ๊ฐ๋ ์ฑ ์๊ณ , ํฅ๋ฏธ๋กญ๊ณ , ์ ์ตํ ์ฝํ ์ธ ๋ฅผ ์์ฑํ๊ธฐ ์ํ ์ฌ๋ฌ ํ์ ๋จ๊ณ๋ฅผ ํฌํจํฉ๋๋ค.
Enhancing
์์ฑ ๋จ๊ณ์ ํต์ฌ์ ํฅ์ ๋จ๊ณ์ด๋ฉฐ, ์ด ๋จ๊ณ์ ๋ชฉ์ ์ ๊ฒ์๋ ์ ๋ณด์ ์ฌ์ฉ์์ ์ฟผ๋ฆฌ๋ฅผ ๊ฒฐํฉํ์ฌ ์ผ๊ด๋๊ณ ๊ด๋ จ์ฑ ์๋ ์๋ต์ ์์ฑํ๋ ๊ฒ์ ๋๋ค. ์ฌ๊ธฐ์๋ ๊ฒ์๋ ์ฝํ ์ธ ์ ์ถ๊ฐ ์ธ๋ถ ์ฌํญ์ ๋ํด ์ด๋ฅผ ํ๋ถํ๊ฒ ๋ง๋๋ ๊ณผ์ ์ด ํฌํจ๋ฉ๋๋ค. ์ถ๋ ฅ๋ฌผ์ ํ์ง์ ํฅ์์ํค๊ธฐ ์ํด ์ฌ๊ตฌ์ฑ ๋ฐ ์ฌ๊ตฌ์ฑ์ ํตํด ๋ช ํ์ฑ, ์ผ๊ด์ฑ, ์คํ์ผ์ ์ธ ๋งค๋ ฅ์ ๋์ด๋ ๋ฐฉ๋ฒ์ ์ง์คํฉ๋๋ค. ๋ค์ํ ์ถ์ฒ์ ์ ๋ณด๋ฅผ ๊ฒฐํฉํ์ฌ ํฌ๊ด์ ์ธ ๊ด์ ์ ์ ๊ณตํ๊ณ , ์ฝํ ์ธ ์ ์ ํ์ฑ๊ณผ ๊ด๋ จ์ฑ์ ๋ณด์ฅํ๊ธฐ ์ํด ๊ฒ์ฆ์ ์ค์ํฉ๋๋ค.
Customization
๋ง์ถคํ๋ ์ ํ์ ์ธ ๋จ๊ณ๋ก, ์ฌ์ฉ์์ ํน์ ์ ํธ๋๋ ์์ฒญ์ ๋งฅ๋ฝ์ ๋ง๊ฒ ์ฝํ ์ธ ๋ฅผ ์กฐ์ ํ๋ ๊ฒ์ ํฌํจํฉ๋๋ค. ์ด ๋ง์ถคํ์๋ ์ฝํ ์ธ ๋ฅผ ๋ชฉํ ์ฒญ์ค์ ์๊ตฌ์ ๋ง์ถ๊ฑฐ๋ ์ ๊ณต๋ ํ์์ ์ ํฉํ๋๋ก ์กฐ์ ํ๊ณ , ์ ๋ณด์ ๋ณธ์ง์ ๊ฐ๊ฒฐํ๊ฒ ์ ๋ฌํ๊ธฐ ์ํด ๋ด์ฉ์ ์์ฝํ๋ ๊ฒ์ด ํฌํจ๋ฉ๋๋ค. ์ด ๊ณผ์ ์๋ ์ฃผ์ ์์ ์ด๋ ๋ ผ์ ์ ๊ฐ์กฐํ๋ ์์ฝ์ด๋ ๊ฐ์๋ฅผ ์์ฑํ์ฌ ์ถ๋ ฅ๋ฌผ์ด ์ ์ตํ๊ณ ๊ฐ๊ฒฐํ๊ฒ ๋๋๋ก ํ๋ ๊ฒ๋ ํฌํจ๋ฉ๋๋ค.
k-์ต๊ทผ์ ์ด์(kNN) ์๊ณ ๋ฆฌ์ฆ์ ์ฌ์ ํ๋ จ๋ ์ ๊ฒฝ๋ง ์ธ์ด ๋ชจ๋ธ(LM)๊ณผ ํตํฉํ ์ฌ๋ก์ธ kNN-LM(Khandelwal et al., 2020)์ ์ธ์ด ๋ชจ๋ธ๋ง์์ ์ค์ํ ์ง์ ์ ๋ํ๋ ๋๋ค. ์ด ๋ฐฉ๋ฒ์ ํ ์คํธ ๋ชจ์์์ ์์ฑ๋ ๋ฐ์ดํฐ์คํ ์ด๋ฅผ ์ฌ์ฉํ์ฌ ์ถ๊ฐ ํ๋ จ ์์ด๋ ๋ฌธ๋งฅ์ ์ผ๋ก ๊ด๋ จ ์๋ ์์๋ฅผ ๋์ ์ผ๋ก ๊ฒ์ํ์ฌ ๋นํน๋(perplexity)๋ฅผ ๊ฐ์ ํฉ๋๋ค.
FAISS(Johnson et al., 2021)๋ ๊ทธ ํจ์จ์ฑ์ผ๋ก ์ธํด ์ธ๋ฑ์ฑ ๋ชฉ์ ์ผ๋ก ๋ง์ ์ฐ๊ตฌ์์ ์ฑํ๋์์ต๋๋ค(Khandelwal et al., 2020; Lewis et al., 2020b; Khattab et al., 2022). ์ผ๋ถ ์ฐ๊ตฌ์์๋ Hierarchical Navigable Small World (HNSW) ๊ทผ์ฌ๋ฒ(Malkov and Yashunin, 2020)๊ณผ ๊ฐ์ ํฅ์๋ ๊ธฐ๋ฒ์ ํตํฉํ์ฌ ๋ ๋น ๋ฅธ ๊ฒ์์ ๋ฌ์ฑํ๊ณ ์์ต๋๋ค(Lewis et al., 2020b). ๋ํ, WebGPT(Nakano et al., 2021)์์ ์ค๋ช ๋ ์ค์ ์ฌ์ฉ์ ๊ฒ์ ๊ธฐ๋ก์ ๊ธฐ๋ฐ์ผ๋ก ์ธ๋ฑ์ฑํ๊ธฐ ์ํด Bing API 3์ ์ฌ์ฉํ๋ ๋์ฒด ๋๊ตฌ์ ๊ฐ์ ๋ค์ํ ์ธ๋ฑ์ฑ ๊ธฐ๋ฒ๋ ์กฐ์ฌ๋๊ณ ์์ต๋๋ค.
๋ํ, MEMWALKER (Chen et al., 2023a)๋ ์ ๋ ฅ ํ ์คํธ๋ก๋ถํฐ ๋ฉ๋ชจ๋ฆฌ ํธ๋ฆฌ๋ฅผ ์์ฑํ์ฌ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(LLM)์์ ๋ฌธ๋งฅ ์ฐฝ ํฌ๊ธฐ์ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๋ ํ์ ์ ์ธ ๋ฐฉ๋ฒ์ ๋์ ํฉ๋๋ค. ์ด ํธ๋ฆฌ๋ ํ ์คํธ๋ฅผ ๋จผ์ ์์ ์กฐ๊ฐ์ผ๋ก ๋๋ ๋ค์, ์ด๋ฌํ ์ธ๊ทธ๋จผํธ๋ฅผ ์์ฝ ๋ ธ๋์ ๊ณ์ธต์ ๊ตฌ์กฐ๋ก ์์ฝํ์ฌ ๋๋์ ์ ๋ณด๋ฅผ ํจ์จ์ ์ผ๋ก ์ธ๋ฑ์ฑํ๊ณ ๊ด๋ฆฌํ ์ ์๋๋ก ํ์ฑ๋ฉ๋๋ค.
FiD(Izacard and Grave, 2021), COK(Li et al., 2023), Query2doc(Wang et al., 2023a)์ ๊ฐ์ ์ฐ๊ตฌ๋ ๋ ๊ด๋ จ์ฑ ์๋ ๊ฒ์ ๊ฒฐ๊ณผ๋ฅผ ์ป๊ธฐ ์ํด ์๋ก์ด ์ฟผ๋ฆฌ๋ฅผ ์์ฑํ๊ฑฐ๋ ๊ธฐ์กด ์ฟผ๋ฆฌ๋ฅผ ์ ์ ํ๋ ๊ฒ์ ์ค์์ฑ์ ๊ฐ์กฐํฉ๋๋ค. ์ด๋ฌํ ์ฐ๊ตฌ๋ค์ ๊ตฌ์กฐํ๋ ๋ฐ์ดํฐ๋ ๋น๊ตฌ์กฐํ๋ ๋ฐ์ดํฐ๋ ๋ค์ํ ์ง์ ์์ค์ ๋ง์ถ์ด ์ฟผ๋ฆฌ๋ฅผ ์กฐ์ ํ๊ณ ์ฌ๋ฌ ๋ฌธ๋จ์์ ํจ์จ์ ์ผ๋ก ์ฆ๊ฑฐ๋ฅผ ์์งํ๋ ํ์์ฑ์ ๊ฐ์กฐํฉ๋๋ค. ์์ฌ ๋ฌธ์๋ฅผ ์์ฑํ์ฌ ์ฟผ๋ฆฌ๋ฅผ ๊ฐํํ๋ ๊ธฐ๋ฒ๋ค์ ๋ค์ํ ์ ๋ณด ๊ฒ์ ๋ฐ์ดํฐ์ ์์ ๊ฒ์ ์ฑ๋ฅ์ ํฅ์์ํค๋ ๊ฒ์ผ๋ก ๋ํ๋ฌ์ต๋๋ค.
Step-Back(Zheng et al., 2023)์ PROMPTAGATOR(Dai et al., 2023)์์๋ ์ฟผ๋ฆฌ ์กฐ์์ ๋ํ ์ถ๊ฐ ํ๊ตฌ๊ฐ ์ด๋ฃจ์ด์ก์ต๋๋ค. ์ด๋ค์ ๊ณ ์ฐจ์ ๊ฐ๋ ์ ์ถ์ํํ๊ฑฐ๋, ํ๋กฌํํธ ๊ธฐ๋ฐ ์ฟผ๋ฆฌ ์์ฑ์ ์ํด ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(LLM)์ ํ์ฉํ๋ ๋ฐ ์ค์ ์ ๋ก๋๋ค. ์ด๋ฌํ ์ ๋ต์ ์ฟผ๋ฆฌ๋ฅผ ๋ ์ผ๋ฐํ๋ ๋ฒ์ ์ผ๋ก ์ฌ๊ตฌ์ฑํ๊ฑฐ๋, ์ ํ๋ ์์์์ ์์ ์ ํนํ๋ ์ฟผ๋ฆฌ๋ฅผ ์์ฑํจ์ผ๋ก์จ ๊ฒ์ ์์คํ ์ ๊ธฐ๋ฅ๊ณผ ์ฟผ๋ฆฌ๋ฅผ ๋ ์ ๋ง์ถ๋ ค๊ณ ํฉ๋๋ค. ์ด๋ฌํ ๋ฐฉ๋ฒ๋ก ์ ์ฟผ๋ฆฌ์ ์ธ๋ฑ์ฑ๋ ๋ฐ์ดํฐ ๊ฐ์ ์ผ๊ด์ฑ์ ๋์ฌ ๋ ๊ด๋ จ์ฑ ์๊ณ ํต์ฐฐ๋ ฅ ์๋ ์ ๋ณด๋ฅผ ๊ฒ์ํ๋ ๋ฐ ๋์์ ์ค๋๋ค.
๊ฒ๋ค๊ฐ, KnowledGPT(Wang et al., 2023b)์ Rewrite-Retrieve-Read(Ma et al., 2023)๋ "์ฌ๊ณ ์ ํ๋ก๊ทธ๋จ" ํ๋กฌํํธ์ ํ์ ์ ์ธ ์ฟผ๋ฆฌ ์ฌ์์ฑ ๊ธฐ๋ฒ์ ํตํด ์ฟผ๋ฆฌ ์กฐ์์ ์ ๊ทผํ๋ ๋ฐฉ๋ฒ์ ์๊ฐํฉ๋๋ค. KnowledGPT๋ ์ฌ์ฉ์ ์ฟผ๋ฆฌ๋ฅผ ๊ตฌ์กฐํ๋ ๊ฒ์ ๋ช ๋ น์ด๋ก ๋ณํํ์ฌ ์ง์ ๋ฒ ์ด์ค์ ์ํธ์์ฉํ ์ ์๋ ์ฝ๋๋ฅผ ์์ฑํ๋ ํ์ ์ ์ธ ๋ฐฉ๋ฒ์ ๋์ ํฉ๋๋ค. ๋ฐ๋ฉด์, Rewrite-Retrieve-Read๋ ์ฟผ๋ฆฌ ์ฌ๊ตฌ์ฑ์ ์ํด ํ๋ จ ๊ฐ๋ฅํ ๊ฐ๊ฒฐํ ์ธ์ด ๋ชจ๋ธ์ ์ฌ์ฉํ์ฌ, ์ฌ์ฉ์ ์๋์ ๋งฅ๋ฝ์ ๋ ํจ๊ณผ์ ์ผ๋ก ๋ฐ์ํ๋๋ก ์กฐ์ ํฉ๋๋ค.
๋ง์ง๋ง์ผ๋ก, FLARE(Jiang et al., 2023)๋ ์ฟผ๋ฆฌ ์์ฑ์ ์์ด ์ ๋ขฐ๋๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ ์ ๋ต์ ์ ์ํฉ๋๋ค. ์ด๋ ์ ๋ณด ์๊ตฌ๋ฅผ ์ ํํ๊ฒ ๋ฐ์ํ๋ ์ฟผ๋ฆฌ๋ฅผ ๋ง๋๋ ๋ฐ ์ค์ ์ ๋ก๋๋ค. ์ด ๋ฐฉ๋ฒ์ ์์ฑ๋ ๋ฌธ์ฅ์ด๋ ๊ทธ ์ผ๋ถ๋ฅผ ๊ฒ์ ์ฟผ๋ฆฌ์ ๊ธฐ์ด๋ก ์ฌ์ฉํ๋ ๊ฒ์ ํฌํจํฉ๋๋ค. ์ด ์ ๊ทผ ๋ฐฉ์์ ๋ฌธ์ฅ์ ์ง์ ์ฌ์ฉํ๊ฑฐ๋ ์ ๋ขฐ๋๊ฐ ๋ฎ์ ํ ํฐ์ ์ ์ธํ๊ฑฐ๋ ๋ช ์์ ์ธ ์ง๋ฌธ์ ์์ฑํจ์ผ๋ก์จ ๊ฒ์ ํ๋ก์ธ์ค์ ํจ์จ์ฑ์ ๋์ด๊ณ , ๊ฒ์๋ ์ ๋ณด๊ฐ ์์ฑ ๊ณผ์ ์ ์๊ตฌ ์ฌํญ์ ์ถฉ์คํ๊ฒ ๋ง์กฑํ๋๋ก ํ๋ ๊ฒ์ ๋ชฉํ๋ก ํฉ๋๋ค.
RA-DIT(Lin et al., 2023b)์ RECITE(Sun et al., 2023)๋ ๋ด๋ถ ๋ฐ์ดํฐ ์์ ์ ์ํ ํฅ์์ ๊ฐ์กฐํฉ๋๋ค. RA-DIT๋ LLM(๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ)๊ณผ ๊ฒ์๊ธฐ๋ฅผ ์ํ ๋ฐ์ดํฐ์ ์ ๋ฏธ์ธ ์กฐ์ ํ๋ ๊ฒ์ ๊ตฌ๋ถํ์ฌ, LLM์ ๋ฌธ๋งฅ ์ดํด๋ ฅ๊ณผ ์ฟผ๋ฆฌ์ ๋ง์ถ๋ ๊ฒ์๊ธฐ์ ๋ฅ๋ ฅ์ ๊ฐํํ๋ ๊ฒ์ ๋ชฉํ๋ก ํฉ๋๋ค. ๋ฐ๋ฉด์ RECITE๋ ๋จ๋ฝ ํํธ์ ํฉ์ฑ๋ ์ง๋ฌธ-๋จ๋ฝ ์์ ํ์ฉํ์ฌ, ์์ฑ๋ ์ธ์ฉ๋ฌธ๊ณผ ์๋ต์ ๋ค์์ฑ๊ณผ ๊ด๋ จ์ฑ์ ๋์ ๋๋ค. ์ด๋ฌํ ์ ๊ทผ๋ฒ์ ๋ชจ๋ธ์ ์ง์ ๊ธฐ๋ฐ์ ํ์ฅํ๊ณ ์๋ต์ ์ ํ์ฑ์ ํฅ์์ํค๋ ๊ฒ์ ๋ชฉํ๋ก ํฉ๋๋ค.
UPRISE(Cheng et al., 2023a)์ GENREAD(Yu et al., 2023a)๋ ์ธ๋ถ ๋ฐ์ดํฐ์ ์ ์ ๋ฅผ ๋ชฉํ๋ก ํฉ๋๋ค. UPRISE๋ ์์ ์์ ๋ฐ์ดํฐ๋ฅผ ๊ตฌ์กฐํ๋ ํ์์ผ๋ก ๋ณํํ๊ณ , ๊ฒ์ ๊ฒฐ๊ณผ๋ฅผ ํฅ์์ํค๊ธฐ ์ํด ํ๋กฌํํธ ์ ํ์ ์ ์ ํฉ๋๋ค. ๋ฐ๋ฉด์ GENREAD์์ ์ฌ์ฉ๋ ํด๋ฌ์คํฐ๋ง ๊ธฐ๋ฐ ํ๋กฌํํธ ๋ฐฉ๋ฒ์ ์ง๋ฌธ์์ ๋ฌธ์๋ฅผ ์์ฑํ๊ณ ์ด๋ฅผ ํด๋ฌ์คํฐ๋งํ์ฌ ๊ด๋ จ์ฑ์ด ์๋ ๋ฐ์ดํฐ๋ฅผ ์ ๊ฑฐํ๊ณ , ๋ค์ํ ๋ฌธ๋งฅ์ ํต์ฐฐ๋ก ์ ๋ ฅ์ ํ๋ถํ๊ฒ ํฉ๋๋ค. ์ด ๊ธฐ๋ฒ์ ์์ฑ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ๊ฐ์ ํ๊ธฐ ์ํด ๋ณด๋ค ํ๋ถํ ์ ๋ณด ์ธํธ๋ฅผ ์ ๊ณตํ๋ ๊ฒ์ ๋ชฉํ๋ก ํฉ๋๋ค.
๊ฒ๋ค๊ฐ, KnowledGPT(Wang et al., 2023b)๋ ์ํฐํฐ ์ฐ๊ฒฐ์ ํตํด ์์ ํ ์คํธ ๋ฐ์ดํฐ๋ฅผ ๊ตฌ์กฐํ๋๊ณ ์๋ฏธ๊ฐ ํ๋ถํ ์ ๋ณด๋ก ํ์ฅํ๋ ๋ฐ ์ค์ ์ ๋ก๋๋ค. ์ด ํ์ฅ ๊ณผ์ ์ ๋ฐ์ดํฐ์ ๊ตฌ์กฐ๋ฅผ ๋ ์ผ๊ด์ฑ ์๊ฒ ๋ง๋ค์ด ์ฟผ๋ฆฌ์ ๋ ์ ํฉํ๊ฒ ํ ๋ฟ๋ง ์๋๋ผ ๋ชจ๋ธ์ ๊ฒ์ ํจ์จ์ฑ๋ ํฅ์์ํต๋๋ค. ์ ๋ฐํ๊ฒ ์ฐ๊ฒฐ๋ ์ง์์ ํ์ฉํ์ฌ ๋ชจ๋ธ์ ์ดํด์ ๊ด๋ จ ์๋ต ์์ฑ ๋ฅ๋ ฅ์ ๊ฐํํจ์ผ๋ก์จ ์ ๋ฐ์ ์ธ ์ฑ๋ฅ์ ๊ฐ์ ํฉ๋๋ค.
Atlas(Izacard et al., 2023)๋ Attention Distillation๊ณผ Perplexity Distillation์ ํฌํจํ ์์์ ์์๋ง์ ์ฌ์ฉํ์ฌ ํ์ตํ๋ ๋ฐฉ๋ฒ์ ์กฐ์ฌํ์ฌ ๊ฒ์๊ธฐ๊ฐ ๋ ๊ด๋ จ์ฑ ๋์ ๋ฌธ์๋ฅผ ๊ฒ์ํ๋๋ก ์ ๋ํฉ๋๋ค. IRCOT(Trivedi et al., 2023)์ ๊ฒ์์ ํจ๊ณผ๋ฅผ ๋์ด๊ธฐ ์ํด ๊ฒ์๊ณผ ์ถ๋ก ์ ํตํฉํฉ๋๋ค. SURGE(Kang et al., 2023)๋ ์ง์ ๊ทธ๋ํ์์ ๊ด๋ จ ์๋ธ๊ทธ๋ํ๋ฅผ ์ถ์ถํ๊ธฐ ์ํด ์๋ธ๊ทธ๋ํ ๊ฒ์๊ธฐ๋ฅผ ์ฌ์ฉํ๋ฉฐ, AAR(Yu et al., 2023b)์ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(LLM)์ด ๊ด๋ จ ๋ฌธ์๋ฅผ ๊ฒ์ํ๋ ๋ฐ ๋์์ด ๋๋๋ก ๊ฒ์ ์ ํธ๋๋ฅผ ์์ ํฉ๋๋ค.
PRCA(Yang et al., 2023a)๋ ๋๋ฉ์ธ์ ํนํ๋ ์ถ์์ ์์ฝ์ ์ฌ์ฉํ์ฌ ๋ฌธ์์์ ๊ด๋ จ์ฑ๊ณผ ๋ฌธ๋งฅ์ด ํ๋ถํ ์ ๋ณด๋ฅผ ์ถ์ถํ๋ ๋ฐ ์ค์ ์ ๋๊ณ , ๊ฐ๋ ํ์ต ์ ๋ต์ ํตํด ์ ํํ ์ฟผ๋ฆฌ ์๋ต์ ์ค์ํ ์ฝํ ์ธ ๋ฅผ ์ฐ์ ์ํฉ๋๋ค. ํํธ, MEMWALKER(Chen et al., 2023a)๋ ๊ตฌ์ฑ๋ ๋ฉ๋ชจ๋ฆฌ ํธ๋ฆฌ์์ ๋ด๋ถ ๊ฒ์ ๋ฐ ์์ ๋งค๊ธฐ๊ธฐ ๋ฉ์ปค๋์ฆ์ ํ์ฉํ์ฌ ๊ธด ๋ฌธ๋งฅ ์ง๋ฌธ์ ๋ํ ๋ต๋ณ์ ์ํด ์ ์ ํ ์ ๋ณด๋ฅผ ์๋ณํฉ๋๋ค. ๋ํ, FLARE(Jiang et al., 2023)์ ์ ๋ขฐ ๊ธฐ๋ฐ ๋ฅ๋ ๊ฒ์ ์ ๊ทผ๋ฒ์ ์์ฑ๋ ๋ฌธ์ฅ์ ์ ๋ขฐ๋ ์์ค์ ๋ฐ๋ผ ๋์ ์ผ๋ก ์ ๋ณด ๊ฒ์์ ํ์ฑํํ๋ฉฐ, ๋ฎ์ ์ ๋ขฐ๋์ ํ ํฐ์ด ์ธ๋ถ ์ง์์ด ํ์ํจ์ ๋ํ๋ธ๋ค๋ ํต์ฐฐ์ ์ด์ฉํฉ๋๋ค.
Re2G(Glass et al., 2022)์ ์ฟผ๋ฆฌ์ ๋จ๋ฝ์ ๋์์ ๋ถ์ํ๊ธฐ ์ํด BERT ํธ๋์คํฌ๋จธ๋ฅผ ํ์ฉํ๋ ์ํ์ค ์ ๋ถ๋ฅ ์ ๊ทผ๋ฒ์ ๋์ ํ์ฌ ์ฌ์์๋ฅผ ๋งค๊น๋๋ค. ์ด ์ํธ์์ฉ ๋ชจ๋ธ์ ์ํ์ค ๊ฐ์ ๊ต์ฐจ ์ฃผ์๋ฅผ ์ฌ์ฉํ์ฌ ์ด๊ธฐ ๊ฒ์ ๋จ๊ณ์์ ์ผ๋ฐ์ ์ผ๋ก ์ฌ์ฉ๋๋ ํํ ๋ชจ๋ธ๊ณผ ๋์กฐ๋ฅผ ์ด๋ฃน๋๋ค. PROMPTAGATOR(Dai et al., 2023) ๋ํ ์ฌ์ ์๋ฅผ ๋งค๊ธฐ๊ธฐ ์ํด ๊ต์ฐจ ์ฃผ์ ๋ชจ๋ธ์ ์ฌ์ฉํฉ๋๋ค. "์ค์ค๋ก๋ฅผ ๋ค์ด์ฌ๋ ค๋ผ" ์ ๋ต์ ํ์์ ์ต์์ ํ๋ณด๋ฅผ ๋ฐ๋ณต์ ์ผ๋ก ์ ํํ์ฌ ์ถ๊ฐ ์์ฑ ๋ผ์ด๋๋ฅผ ์ํํ๊ณ , ์๊ฐ ์์ฑ ์ฝํ ์ธ ๋ฅผ ํตํด ์ฝํ ์ธ ์ ํ์ง์ ์ ์ง์ ์ผ๋ก ๊ฐ์ ํฉ๋๋ค.
์ฌ์์ ๋งค๊ธฐ๊ธฐ๋ In-Context RALM(Ram et al., 2023)์์๋ ์ค์ํ ์ด์ ์ ๋๋ค. ๋ ๊ฐ์ง ์ฌ์์ ๋งค๊ธฐ๊ธฐ ์ ๊ทผ๋ฒ์ด ํ๊ตฌ๋์์ต๋๋ค: ์ธ์ด ๋ชจ๋ธ์ ์ฌ์ฉํ ์ ๋ก์ท ์ฌ์์ ๋งค๊ธฐ๊ธฐ์ ํ๋ จ๋ ๋ชจ๋ธ์ ํตํ ์์ธก์ ์ฌ์์ ๋งค๊ธฐ๊ธฐ. ์ด ๋จ๊ณ๋ ์ธ์ด ๋ชจ๋ธ ์ฑ๋ฅ ํฅ์์ ์ํด ๋ฌธ์์ ์์ ์ ์ฉ์ฑ์ ๋ฐ๋ผ ๋ฌธ์ ์ ํ์ ์ ์ ํ๋ ๊ฒ์ ๋ชฉํ๋ก ํฉ๋๋ค. ํนํ ITER-RETGEN(Shao et al., 2023)์ ์ฌ์์ ๋งค๊ธฐ๊ธฐ์์ ๋ฐ์ง ๊ฒ์๊ธฐ๋ก ์ง์ ์ฆ๋ฅ๋ฅผ ํ์ฉํ์ฌ, LLM ์ถ๋ ฅ์์ ๊ด๋ จ์ฑ ์ ํธ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๊ฒ์ ์์ ์ ๋ฏธ์ธ ์กฐ์ ํฉ๋๋ค. ์ด ๊ฒ์ ๋ชจ๋ธ์ ์ต์ ํ๋ ์ฟผ๋ฆฌ์ ๋ฏธ๋ฌํ ์ฐจ์ด๋ฅผ ๋ ์ ํํ๊ฒ ํฌ์ฐฉํ์ฌ ๋ฌธ์ ์ ํ์ ๊ฐ์ ํ๋ ๊ฒ์ ๋ชฉํ๋ก ํฉ๋๋ค.
DKS-RAC(Huang et al., 2023)๋ ๋ต๋ณ๊ณผ ๊ฒ์๋ ๋จ๋ฝ ๊ฐ์ ์ง์์ ์ํ์ค ์์ค์์ ์ผ์น์ํค๊ธฐ ์ํด ๋ฐ์ง ์ง์ ์ ์ฌ์ฑ(DKS)์ ๋์ ํฉ๋๋ค. ์ด ์ ๊ทผ๋ฒ์ ์ง์ ์ ์ฌ์ฑ์ ๊ธฐ๋ฐ์ผ๋ก ๋จ๋ฝ ์ ํ์ ์ง์ ์ ์ธ ์ํฅ์ ๋ฏธ์น๊ธฐ ๋๋ฌธ์ ์ฌ์์ ๋งค๊ธฐ๊ธฐ ๋ฒ์ฃผ์ ์ํ๋ฉฐ, ์ฟผ๋ฆฌ์ ๋ฌธ์ ๊ฐ์ ์ผ์น๋ฅผ ์ ๊ตํ๊ฒ ํฉ๋๋ค.
FiD-light(Hofstรคtter et al., 2023)๋ ์์ฐจ์ ์ธ ์์ฑ ๊ณผ์ ์์ ์์ค ํฌ์ธํฐ๋ฅผ ์ฌ์ฉํ์ฌ ์์ ์์๋ฅผ ์ต์ ํํ๋ ๋ชฉ๋กํ ์๊ธฐํ๊ท ์ฌ์์ ๋งค๊ธฐ๊ธฐ ๋ฐฉ๋ฒ์ ๋์ ํฉ๋๋ค. ์ด ๋ฐฉ๋ฒ์ ์์ฑ๋ ํ ์คํธ์ ์์ค ๋จ๋ฝ ๊ฐ์ ์ฐ๊ณ๋ฅผ ์ ์งํ์ฌ ๋ ๊ตฌ์กฐํ๋ ์์ฑ ๊ณผ์ ์ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค. ๋ชจ๋ธ์ ์ถ๋ ฅ๋ฌผ ๋ด์ ํ ์คํธ ์ธ์ฉ์ ๊ด๋ จ ์ ๋ณด ์์ค๋ก์ ํฌ์ธํฐ๋ก ํตํฉํจ์ผ๋ก์จ, ์ด ์ ๊ทผ๋ฒ์ ์ฒด๊ณ์ ์ธ ๊ฒ์ ๋ฐ ์์ฑ ๊ณผ์ ์ ์ด์งํ์ฌ ์์ฑ๋ ์ฝํ ์ธ ์ ์ ์ฒด์ ์ธ ์ผ๊ด์ฑ๊ณผ ๊ด๋ จ์ฑ์ ํฅ์์ํต๋๋ค.
COK(Li et al., 2023)๋ ๊ฒ์๋ ์ง์์ ํตํด ๊ทผ๊ฑฐ๋ฅผ ๋ฐ๋ณต์ ์ผ๋ก ์ ์ ํ๋ Progressive Rationale Correction ๊ธฐ๋ฒ์ ์ ์ํฉ๋๋ค. ์ด ๋ฐฉ๋ฒ์ ์ง์์ ์ธ ์ต์ ํ ๊ณผ์ ์ ๊ตฌ์ฑํ์ฌ ์ฝํ ์ธ ์์ฑ์ ์ฌ์ฉ๋๋ ์ ๋ณด์ ๊ด๋ จ์ฑ๊ณผ ํ์ง์ ํฌ๊ฒ ํฅ์์ํต๋๋ค. Self-RAG(Asai et al., 2023)๋ ๋ถํ์ํ ์ฝํ ์ธ ๋ฅผ ํจ์จ์ ์ผ๋ก ๊ฑธ๋ฌ๋ด๊ธฐ ์ํ ์๊ธฐ ์ฑ์ฐฐ ๋ฉ์ปค๋์ฆ์ ๋์ ํฉ๋๋ค. ์ด ์ ๊ทผ๋ฒ์ ๋นํ์ ํ ํฐ์ ์ฌ์ฉํ์ฌ ๊ฒ์๋ ๋จ๋ฝ์ ๊ด๋ จ์ฑ, ์ง์์ฑ, ์ ์ฉ์ฑ์ ํ๊ฐํจ์ผ๋ก์จ ์ฝํ ์ธ ์์ฑ ๊ณผ์ ์ ์ค์ง ๊ณ ํ์ง ์ ๋ณด๋ง ํตํฉ๋๋๋ก ๋ณด์ฅํฉ๋๋ค.
๋ํ, FiD-TF(Berchansky et al., 2023)์ RECOMP(Xu et al., 2023)๋ ๊ฒ์๋ ๋ฌธ์์์ ๊ด๋ จ ์๊ฑฐ๋ ์ค๋ณต๋ ํ ํฐ๊ณผ ์ ๋ณด๋ฅผ ์ ๊ฑฐํ๋ ๋ฐ ์ค์ ์ ๋ก๋๋ค. FiD-TF๋ ๋ถํ์ํ ํ ํฐ์ ์๋ณํ๊ณ ์ ๊ฑฐํ๊ธฐ ์ํด ๋์ ๋ฉ์ปค๋์ฆ์ ์ฌ์ฉํ์ฌ ์ ๋ณด ์ฒ๋ฆฌ์ ํจ์จ์ฑ์ ํฅ์์ํต๋๋ค. ๋ฐ๋ฉด์ RECOMP๋ ๋ฌธ์๋ฅผ ๊ฐ๊ฒฐํ ์์ฝ์ผ๋ก ์์ถํ์ฌ ์์ฑ ๊ณผ์ ์์ ๊ฐ์ฅ ๊ด๋ จ์ฑ ์๋ ์ฝํ ์ธ ๋ง์ ์ ํํ๋ ๋ฐ ์ด์ ์ ๋ง์ถฅ๋๋ค. ์ด๋ฌํ ๋ฐฉ๋ฒ๋ค์ ์ค์ง ๊ด๋ จ ์๊ณ ์ง์์ ์ธ ์ ๋ณด๋ง ์ฌ์ฉํ๋๋ก ํ์ฌ ์ฝํ ์ธ ์์ฑ ์์ ํ๋ฆ์ ๊ฐ์ํํจ์ผ๋ก์จ, ์์ฑ๋ ์ฝํ ์ธ ์ ์ ์ฒด์ ์ธ ํ์ง๊ณผ ๊ด๋ จ์ฑ์ ํฅ์์ํต๋๋ค.
DSP(Khattab et al., 2022)๋ ์ฌ๋ฌ ๊ฒ์ ์ฟผ๋ฆฌ๋ฅผ ์์ฑํ์ฌ ๋ค์ํ ๋จ๋ฝ์์ ์์ง๋ ์ ๋ณด๋ฅผ ๋ฐํ์ผ๋ก ์ง๋ฌธ์ ์์ฝํ๊ณ ๋ต๋ณํ๋ ํ๋ ์์ํฌ๋ฅผ ์๊ฐํฉ๋๋ค. ์ด ํ๋ ์์ํฌ๋ ๋ค์ํ ๊ฒ์ ๋ชฉ๋ก์์ ๋จ๋ฝ์ ๋์ ํ๋ฅ ์ ์๋ฅผ ๊ณ์ฐํ๊ธฐ ์ํด CombSUM(Fox and Shaw, 1994)์ ์ฌ์ฉํ์ฌ ์ฌ๋ฌ ์ถ์ฒ๋ก๋ถํฐ ํฌ๊ด์ ์ธ ์๋ต์ ์์ฑํ ์ ์๋๋ก ํฉ๋๋ค.
PRCA(Yang et al., 2023a)๋ ๋ณด์ ๊ธฐ๋ฐ ๋จ๊ณ(Reward-Driven Stage)๋ฅผ ๊ฐ์๋ก ์ค๋ช ํ๋ฉฐ, ์ด ๋จ๊ณ์์๋ ์์ฑ๊ธฐ์ ํผ๋๋ฐฑ์ ๋ฐํ์ผ๋ก ์ ์ ๋ ๋ฌธ๋งฅ์ด ์ธ๋ถํ๋ฉ๋๋ค. ์ด ๋จ๊ณ์์๋ ๊ฐํ ํ์ต์ ํ์ฉํ์ฌ ๊ด๋ จ ๋ฌธ๋งฅ ์ ๊ณต์ ๋ํด ๋ฐ์ ๋ณด์์ ๋ฐ๋ผ PRCA์ ๋งค๊ฐ๋ณ์๋ฅผ ์กฐ์ ํฉ๋๋ค. ๋ชฉํ๋ ์ถ์ถ๋ ๋ฌธ๋งฅ์ ์์ฑ๊ธฐ์ ํน์ ์๊ตฌ ์ฌํญ์ ๋ง๊ฒ ๋ฏธ์ธ ์กฐ์ ํ์ฌ ์์ฑ ๊ณผ์ ์ ์ต์ ํํ๋ ๊ฒ์ ๋๋ค.
REPLUG(Shi et al., 2023)์ ๋ธ๋๋ฐ์ค ์ธ์ด ๋ชจ๋ธ(LM)์ด ์ต์ข ์์ธก์ ์ํํ๊ธฐ ์ ์ ๊ฒ์๋ ๋ฌธ์๋ฅผ ์ ๋ ฅ ๋ฌธ๋งฅ์ ์์ ์ถ๊ฐํ๋ ๋ฐฉ๋ฒ์ ์ ์ํฉ๋๋ค. ์ด ๋ฐฉ๋ฒ์ ๊ฒ์๋ ๋ฌธ์๋ฅผ ๋ณ๋ ฌ๋ก ์ธ์ฝ๋ฉํ์ฌ ์ธ์ด ๋ชจ๋ธ์ ๋ฌธ๋งฅ ๊ธธ์ด ํ๊ณ๋ฅผ ๊ทน๋ณตํ๊ณ , ๋ ๋ง์ ๊ณ์ฐ ์์์ ํ ๋นํจ์ผ๋ก์จ ์ ํ์ฑ์ ํฅ์์ํค๋ ์์๋ธ ์ ๋ต์ ๋์ ํฉ๋๋ค. ์ด ์ ๊ทผ ๋ฐฉ์์ ์ธ์ด ๋ชจ๋ธ์ด ๋ ๋์ ๋ฒ์์ ๊ด๋ จ ์ ๋ณด๋ฅผ ์ ๊ทผํ ์ ์๋๋ก ๋ณด์ฅํ์ฌ ์์ฑ ๊ณผ์ ์ ๊ฐ์ ํฉ๋๋ค.
RECITE(Sun et al., 2023)์ ์ฌ๋ฌ ๋ฒ์ ๋ต๋ณ์ ๋ ๋ฆฝ์ ์ผ๋ก ์์ฑํ ํ, ๋ค์๊ฒฐ ์์คํ ์ ์ฌ์ฉํ์ฌ ๊ฐ์ฅ ์ ํฉํ ๋ต๋ณ์ ๊ฒฐ์ ํ๋ ์๊ธฐ ์ผ๊ด์ฑ ๊ธฐ๋ฒ์ ๊ตฌํํฉ๋๋ค. ์ด ๋ฐฉ๋ฒ์ ๋ต๋ณ์ ์ ๋ขฐ์ฑ๊ณผ ์ ํ์ฑ์ ๋์ฌ ์ถ๋ ฅ๋ฌผ์ ํ์ง๊ณผ ์ ๋ขฐ์ฑ์ ํฅ์์ํค๋๋ก ์ค๊ณ๋์์ต๋๋ค.
PKG ํ๋ ์์ํฌ๋ (Luo et al., 2023)์์ ๋์ ๋ ๊ฒ์ผ๋ก, ์ธ์ด ๋ชจ๋ธ(LM)์ ์ถ๋ ฅ์ ๋ง์ถคํํ๋ ์ ๊ทผ ๋ฐฉ์์ ๋ํ๋ ๋๋ค. PKG๋ ์ฌ์ ํ๋ จ๋ ๋ชจ๋ธ์ ์ฌ์ฉํ์ฌ ๋ด๋ถ์ ์ผ๋ก ๋ฐฐ๊ฒฝ ์ง์์ ์์ฑํจ์ผ๋ก์จ ์ ํต์ ์ธ ์ธ๋ถ ๊ฒ์ ๊ณผ์ ์ ๋ถํ์ํ๊ฒ ๋ง๋ญ๋๋ค. ์ด ๋ฐฉ๋ฒ์ ๋๋ฉ์ธ ๋๋ ์์ ๋ณ ์ง์์ ์์ฑ ๋จ๊ณ์ ์ง์ ํตํฉํ์ฌ ์ฃผ์ด์ง ๋งฅ๋ฝ์ด๋ ์๊ตฌ ์ฌํญ์ ๋ง์ถคํ๋ ์๋ต์ ์์ฑํ๋ ์ธ์ด ๋ชจ๋ธ์ ๋ฅ๋ ฅ์ ํฌ๊ฒ ํฅ์์ํต๋๋ค.
Self-RAG(Asai et al., 2023)์ ๋ง์ถคํ ๋์ฝ๋ฉ ์๊ณ ๋ฆฌ์ฆ ๋ด์ ์ฑ์ฐฐ ํ ํฐ์ ํตํฉํ๋ ์ ๋ต์ ์ ๊ณตํฉ๋๋ค. ์ด ๊ธฐ์ ์ ํน์ ์์ ์ ๋ฐ๋ผ ๋ชจ๋ธ์ ๊ฒ์ ๋ฐ ์์ฑ ํ๋์ ๋์ ์ผ๋ก ์กฐ์ ํ ์ ์์ด, ๋ณด๋ค ๋ค์ํ ์๋ต ์์ฑ์ ์ฉ์ดํ๊ฒ ํฉ๋๋ค. ์๊ตฌ ์ฌํญ์ ๋ฐ๋ผ ์ด ์ ๊ทผ ๋ฐฉ์์ ์ ํ์ฑ ๋๋ ์ฐฝ์์ฑ์ ์ํด ์กฐ์ ๋ ์ ์์ผ๋ฉฐ, ๋ค์ํ ํ์๋ฅผ ์ถฉ์กฑํ๋ ์ถ๋ ฅ์ ์์ฑํ ์ ์๋ ์ ์ฐ์ฑ์ ์ ๊ณตํฉ๋๋ค.
SURGE(Kang et al., 2023)๋ ๊ทธ๋ํ-ํ ์คํธ ๋์กฐ ํ์ต์ ์ ์ฉํ์ฌ ๋ง์ถคํ๋ฅผ ๋ฌ์ฑํฉ๋๋ค. ์ด ๋ฐฉ๋ฒ์ ์์ฑ๋ ๋ํ ์๋ต์ด ๊ฒ์๋ ์๋ธ๊ทธ๋ํ์ ํฌํจ๋ ์ง์๊ณผ ๊ธด๋ฐํ๊ฒ ์ผ์นํ๋๋ก ๋ณด์ฅํ์ฌ, ๊ตฌ์ฒด์ ์ด๊ณ ๊ด๋ จ์ฑ์ด ์์ผ๋ฉฐ ๋ํ ๋งฅ๋ฝ์ ๊น์ด ๋ฟ๋ฆฌ๋ฐํ ์๋ต์ ์์ฑํฉ๋๋ค. ๊ฒ์๋ ์ง์๊ณผ ์์ฑ๋ ํ ์คํธ ๊ฐ์ ์ผ๊ด์ฑ์ ์ ์งํจ์ผ๋ก์จ, SURGE๋ ์๋ธ๊ทธ๋ํ์ ์์ธํ ์ง์์ ์ ํํ๊ฒ ๋ฐ์ํ๋ ์ถ๋ ฅ์ ์์ฑํ ์ ์์ผ๋ฉฐ, ์๋ต์ ๊ด๋ จ์ฑ๊ณผ ๊ตฌ์ฒด์ฑ์ ๋์ ๋๋ค.
๐ผ Table 01 : RAG ์ฐ๊ตฌ์ ๋ํ ์ข ํฉ์ ์ธ ์์ฝ์ ๋๋ค. โMulti-hopโ ์ด์ ์ฒดํฌํ์๋ ์ฐ๊ตฌ๊ฐ ๋ค์ค ๊ฒ์ ๋ผ์ด๋๋ฅผ ํฌํจํ๋ค๋ ๊ฒ์ ์๋ฏธํฉ๋๋ค. ๋ง์ฐฌ๊ฐ์ง๋ก, โTrainingโ ์ด์ ์ฒดํฌํ์๋ ์ฐ๊ตฌ๊ฐ ํ๋ จ ๋จ๊ณ๋ฅผ ํฌํจํ๋ค๋ ๊ฒ์ ๋ํ๋ ๋๋ค. ์ฌ๊ธฐ์ "Training"์ ์ด๊ธฐ ๋ชจ๋ธ ํ๋ จ๊ณผ ๋ฏธ์ธ ์กฐ์ ๊ณผ์ ์ ๋ชจ๋ ํฌํจํ๋ค๋ ์ ์ ์ ์ํด์ผ ํฉ๋๋ค.
Table 01์ ์ด ๋ ผ๋ฌธ์์ ๋ ผ์๋ RAG ์ฐ๊ตฌ๋ค์ ๋ํ ์์ธํ ๋ถ์์ ์ ์ํฉ๋๋ค. ์ด ๋ถ์์ ๋ฐ๋ฅด๋ฉด, ๋๋ถ๋ถ์ ์ฐ๊ตฌ์์ LLM(๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ)์ ์ฝํ ์ธ ๋ฅผ ํ๋ถํ๊ฒ ํ๊ธฐ ์ํด ์ธ๋ถ ๋ฐ์ดํฐ ์์ค๋ฅผ ์ฌ์ฉํ ๊ฒ์ผ๋ก ๋ํ๋ฌ์ต๋๋ค. ๋จ์ผ ๋จ๊ณ ๊ฒ์๋ณด๋ค ๋ค์ค ๋จ๊ณ ๊ฒ์์ ์ ํธํ๋ ๊ฒฝํฅ์ด ์์์ผ๋ฉฐ, ์ด๋ ๋ฐ๋ณต์ ์ธ ๊ฒ์ ๋ผ์ด๋๊ฐ ์ผ๋ฐ์ ์ผ๋ก ๋ ์ฐ์ํ ๊ฒฐ๊ณผ๋ฅผ ๋์ถํ๋ค๋ ๊ฒ์ ์๋ฏธํฉ๋๋ค. ์ฆ, ๋๋ถ๋ถ์ ๋ฐฉ๋ฒ์ ๊ณ ํ์ง์ ํ๋ณด ๋ฌธ์๋ฅผ ํ๋ณดํ๊ธฐ ์ํด ๋ฐ์ง ๊ฒ์์ ์ฌ์ฉํฉ๋๋ค. ์ฌ์ ๊ฒ์ ๋จ๊ณ์์ ๋ฐ์ดํฐ์ ์ ์์ ํ๋ ๊ฒ๊ณผ ๋น๊ตํ์ฌ, ๊ฒ์ ์ฑ๋ฅ์ ๊ฐ์ ํ๊ธฐ ์ํด ์ฟผ๋ฆฌ๋ฅผ ์กฐ์ํ๋ ๊ฒ์ ์ด์ ์ ๋ง์ถ ์ฐ๊ตฌ๊ฐ ๋ ๋ง์ต๋๋ค. ๋ํ, ๊ฒ์ ๋จ๊ณ๋ฅผ ์ต์ ํํ๋ ๊ฒ์ ์๋นํ ์ค์ ์ ๋๊ณ ์์ผ๋ฉฐ, ์ด๋ ์ฐ๊ตฌ์์ ์ค์ํ ์ญํ ์ ํ๊ณ ์์์ ๊ฐ์กฐํฉ๋๋ค. ๊ทธ๋ฌ๋ ์์ฑ ๋จ๊ณ์์์ ๋ง์ถคํ์ ์ง์คํ๋ ์ฐ๊ตฌ๋ ๋ถ์กฑํ ๊ฒ์ผ๋ก ๋ณด์ด๋ฉฐ, ์ด๋ ๋ฏธ๋ ํ๊ตฌ์ ์ ์ฌ์ ์ธ ์์ญ์ผ๋ก ์ง์ ๋๊ณ ์์ต๋๋ค. ์ ๋ฐ์ ์ผ๋ก, RAG์ ๋ชฉํ๋ LLM์ ์๋ต ํ์ง์ ํฅ์์ํค๋ ๊ฒ์ด์ง๋ง, ๊ฒ์ ์ธก๋ฉด์ ๊ฐ์ ํ๋ ๋ฐ ๋ ๋ง์ ๋ ธ๋ ฅ์ด ๊ธฐ์ธ์ฌ์ ธ ์์ต๋๋ค.
๐ผ Table 02 : ๊ฒ์๊ธฐ์ ์์ฑ๊ธฐ์ ์์ฝ์ ๋๋ค. ์ด ์ฐ๊ตฌ๋ค์์ ๋ช ์์ ์ผ๋ก ์ธ๊ธ๋ ๊ฒ์ ๋ชจ๋ธ๊ณผ ์ฌ์ ํ๋ จ๋ ์ธ์ด ๋ชจ๋ธ์ด ๊ธฐ๋ก๋์์ต๋๋ค.
RAG์์๋ ๊ฒ์๊ธฐ์ ์์ฑ๊ธฐ๊ฐ ์ฃผ์ ๊ตฌ์ฑ ์์์ ๋๋ค. Table 02๋ ์ด ๋ ผ๋ฌธ์์ ๋ ผ์๋ ์ฐ๊ตฌ๋ค์์ ์ฌ์ฉ๋ ๊ฒ์๊ธฐ์ ์์ฑ๊ธฐ๋ฅผ ์์ฝํฉ๋๋ค. ํ์์ ์ ์ ์๋ฏ์ด, ๋๋ถ๋ถ์ ์์ฑ๊ธฐ๊ฐ ๊ณ ๊ธ ์ธ์ด ๋ชจ๋ธ์ ์ฌ์ฉํ๋ ๋ฐ๋ฉด, ์๋น์์ ๊ฒ์๊ธฐ๋ ์ฌ์ ํ ๊ทธ ํจ์จ์ฑ ๋๋ฌธ์ ์ ํต์ ์ธ BM25๋ฅผ ์ฌ์ฉํ๊ณ ์์ต๋๋ค. ๊ฒ์ ๋ฐฉ๋ฒ์ RAG์์ ์ค์ํ ์ธก๋ฉด์ด๋ฉฐ, ํจ์จ์ฑ์ ์ ํดํ์ง ์์ผ๋ฉด์ ๊ฒ์ ์ฑ๋ฅ์ ํฅ์์ํค๋ ๋ฐฉ๋ฒ์ ๋ชจ์ํ๋ ๊ฒ์ด ์ค์ํฉ๋๋ค. ๋ง์ฐฌ๊ฐ์ง๋ก, ๊ฐ๋ ฅํ ์ธ์ด ๋ชจ๋ธ(LLM)์ธ LLaMA2, GPT-3.5, ๋๋ GPT-4์ ๊ฐ์ ์์ฑ๊ธฐ๋ฅผ ์ฑํํ ์ฐ๊ตฌ๋ ๋ง์ง ์์ต๋๋ค. T5์ ๊ฐ์ ์ธ์ด ๋ชจ๋ธ์ ์ฌ์ ํ ์ธ๊ธฐ๊ฐ ์์ง๋ง, BERT์ ํธ๋์คํฌ๋จธ์ ๊ฐ์ ๊ธฐ๋ณธ ๋ชจ๋ธ์ 2023๋ ์ ๊ฑฐ์ ์ฌ์ฉ๋์ง ์์์ต๋๋ค. ์์ฑ๊ธฐ์ ๋น๊ตํ์ ๋, ์ ๋ณด ๊ฒ์ ๊ธฐ๋ฐ LLM์ด ๊ฒ์๊ธฐ์ ๋ง์ด ์ฌ์ฉ๋์ง ์์ ๊ฒ์ด ๋ถ๋ช ํ๋ฉฐ, ์ด๋ ๋ฏธ๋์ ๊ทธ๋ฌํ ๋ชจ๋ธ์ ๊ฐ๋ฐํ ์ ์๋ ์ ๋งํ ๋ฐฉํฅ์ ์์ฌํฉ๋๋ค.
์ธ๋ถ ์ง์์ ํ์ฉํ์ฌ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(LM)์ด ๋ ์ ํํ๊ณ ๊ด๋ จ์ฑ ์์ผ๋ฉฐ ๊ฐ๋ ฅํ ์๋ต์ ์์ฑํ๋ ํจ๊ณผ๋ฅผ ์ดํดํ๊ธฐ ์ํด, RAG ์์คํ ์ ํ๊ฐ๊ฐ ์ค์ํ ์ฐ๊ตฌ ๋ถ์ผ๋ก ๋ถ๊ฐ๋์์ต๋๋ค. ๋ํ ๊ธฐ๋ฐ ์ํธ์์ฉ์ ์ธ๊ธฐ๊ฐ ๋์์ง์ ๋ฐ๋ผ, ์ต๊ทผ ์ฐ๊ตฌ๋ ์ด๋ฌํ ๋ค์ด์คํธ๋ฆผ ์์ ์์ RAG ๋ชจ๋ธ์ ์ฑ๋ฅ์ ํ๊ฐํ๋ ๋ฐ ์ค์ ์ ๋๊ณ ์์ผ๋ฉฐ, ์ด๋ฅผ ์ํด ์ ํ ์ผ์น(Exact Match, EM)์ F1 ์ ์์ ๊ฐ์ ํ๋ฆฝ๋ ์งํ๋ฅผ ์ฌ์ฉํ๊ณ ์์ต๋๋ค. ๋ํ, ์ด ๋ชฉ์ ์ ์ํด TriviaQA(Joshi et al., 2017), HotpotQA(Yang et al., 2018), FEVER(Thorne et al., 2018), Natural Questions(Kwiatkowski et al., 2019), Wizard of Wikipedia(Dinan et al., 2019), T-REX(ElSahar et al., 2018)์ ๊ฐ์ ๋ค์ํ ๋ฐ์ดํฐ์ ์ด ํ์ฉ๋์์ต๋๋ค.
๊ทธ๋ฌ๋ ๋ค์ด์คํธ๋ฆผ ์์ ์ ๊ด์ ์์๋ง ํ๊ฐํ๋ ๊ฒ์ RAG ๊ฐ๋ฐ์ ๋ณํํ๋ ์๊ตฌ๋ฅผ ์ถฉ๋ถํ ๋ฐ์ํ์ง ๋ชปํฉ๋๋ค. ์ต๊ทผ ์ฐ๊ตฌ์์๋ ์์ฑ๋ ํ ์คํธ์ ํ์ง, ๊ฒ์๋ ๋ฌธ์์ ๊ด๋ จ์ฑ, ๊ทธ๋ฆฌ๊ณ ๋ชจ๋ธ์ ํ์ ์ ๋ณด์ ๋ํ ๋ด์ฑ์ ํฌํจํ ์ฌ๋ฌ ์ฐจ์์์ ์ด ์์คํ ์ ํ๊ฐํ๋ ๋ค์ํ ํ๋ ์์ํฌ์ ๋ฒค์น๋งํฌ๋ฅผ ๋์ ํ์ต๋๋ค. ์ด๋ฌํ ํ๊ฐ๋ค์ ๋ ธ์ด์ฆ ๋ด์ฑ, ๋ถ์ ์ ํ๋กฌํํธ, ์ ๋ณด ํตํฉ, ๊ทธ๋ฆฌ๊ณ ๋ฐ์ฌ์ค์ ๋ด์ฑ๊ณผ ๊ฐ์ ํน์ ๋ฅ๋ ฅ์ ํ๊ฐํ๋ ๋ฐ ์ค์ ์ ๋๋ฉฐ, ์ค์ ์์ฉ์์ RAG ์์คํ ์ด ์ง๋ฉดํ๋ ๋ณต์กํ ๋ฌธ์ ๋ค์ ๊ฐ์กฐํฉ๋๋ค. ์ด๋ Table 03์์ ํ์ธํ ์ ์์ต๋๋ค. ํ๊ฐ ํ๋ ์์ํฌ์ ์งํ์ ์ง์์ ์ธ ๊ฐ๋ฐ์ ์ด ๋ถ์ผ์ ๋ฐ์ , RAG ์์คํ ์ ์ ์ฉ ๋ฒ์ ํ์ฅ, ๊ทธ๋ฆฌ๊ณ ๋ณต์กํ๊ณ ๋ณํํ๋ ์ ๋ณด ํ๊ฒฝ์ ์๊ตฌ๋ฅผ ์ถฉ์กฑ์ํค๋ ๋ฐ ์์ด ๋งค์ฐ ์ค์ํฉ๋๋ค.
๐ผ Table 03 : ์๋ก ๋ค๋ฅธ RAG ํ๊ฐ ํ๋ ์์ํฌ์ ๋น๊ต
์ ๋ณด ๊ฒ์์์ ๊ฒ์ ๊ฒฐ๊ณผ์ ํ์ง์ ์ผ๋ฐ์ ์ผ๋ก ํ๊ท ์ ๋ฐ๋(MAP), ์ ๋ฐ๋, ์ญ์์, ์ ๊ทํ ํ ์ธ ๋์ ์ด๋(NDCG)๊ณผ ๊ฐ์ ํ์ค ์งํ๋ฅผ ์ฌ์ฉํ์ฌ ํ๊ฐ๋ฉ๋๋ค (Radlinski and Craswell, 2010; Reimers and Gurevych, 2019; Nogueira et al., 2019). ์ด๋ฌํ ์งํ๋ค์ ์ฃผ๋ก ์ฃผ์ด์ง ์ฟผ๋ฆฌ์ ๋ํด ๊ฒ์๋ ๋ฌธ์์ ๊ด๋ จ์ฑ์ ํ๊ฐํฉ๋๋ค. RAG์์ ๊ฒ์ ๊ธฐ๋ฐ ์งํ๋ ์์ฑ ์์ ์ ์ง์ํ๊ธฐ ์ํด ๊ด๋ จ ์ ๋ณด๋ฅผ ๊ฒ์ํ๋ ํจ๊ณผ์ ์ค์ ์ ๋ก๋๋ค. ์ฌ๊ธฐ์๋ ์ฟผ๋ฆฌ์ ๋ํ ์ ๋ต ์ ๋ณด๋ฅผ ์ ๊ณตํ๋ ๊ฒ์๋ ๋ฌธ์์ ์ ํ๋๋ฅผ ์ธก์ ํ๋ ์ ํ๋(Accuracy), ๊ทธ๋ฆฌ๊ณ ๊ด๋ จ ์ ๋ณด๊ฐ ์์ ๋ ์๋ต์ ๊ฑฐ๋ถํ ์ ์๋ ์์คํ ์ ๋ฅ๋ ฅ์ ํ๊ฐํ๋ ๊ฑฐ๋ถ์จ(Rejection Rate)(Chen et al., 2023b)๊ฐ ํฌํจ๋ฉ๋๋ค. ๋ํ, ์ค๋ฅ ํ์ง์จ(Error Detection Rate)(Chen et al., 2023b)์ ๊ฒ์๋ ๋ฌธ์์์ ์๋ชป๋๊ฑฐ๋ ์คํด์ ์์ง๊ฐ ์๋ ์ ๋ณด๋ฅผ ์๋ณํ๊ณ ๋ฌด์ํ๋ ๋ชจ๋ธ์ ๋ฅ๋ ฅ์ ํ๊ฐํฉ๋๋ค. ๋ฌธ๋งฅ ๊ด๋ จ์ฑ(Context Relevance)์ ๋ ๋ค๋ฅธ ์ค์ํ ์งํ๋ก, ๊ฒ์๋ ๋ฌธ์๊ฐ ์ฟผ๋ฆฌ์ ์ผ๋ง๋ ๊ด๋ จ์ด ์๋์ง๋ฅผ ํ๊ฐํฉ๋๋ค. ์ด๋ ์์ฑ๋ ์๋ต์ ์ฌ์ฉ๋ ์ ๋ณด๊ฐ ์ฟผ๋ฆฌ์ ๋ฌธ๋งฅ๊ณผ ์ง์ ์ ์ผ๋ก ๊ด๋ จ์ด ์์์ ๋ณด์ฅํ๋ ๋ฐ ์ค์ํฉ๋๋ค. ์ ๋ขฐ์ฑ(Faithfulness)(Shahul et al., 2023)์ ์์ฑ๋ ์ฝํ ์ธ ๊ฐ ๊ฒ์๋ ๋ฌธ์์ ์ ๋ณด๋ฅผ ์ผ๋ง๋ ์ ํํ๊ฒ ๋ฐ์ํ๋์ง๋ฅผ ์ธก์ ํ๋ฉฐ, ์์ฑ ๊ณผ์ ์์ ์๋ชป๋ ์ ๋ณด๊ฐ ์๋์ง ํ์ธํฉ๋๋ค.
๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(LLM)์ด ์์ฑํ ํ ์คํธ์ ํ์ง์ ํ๊ฐํ๋ ๊ฒ์ ๋ค์ํ ๋ค์ด์คํธ๋ฆผ ์์ ์์์ ์ฑ๋ฅ์ ํ์ค ์งํ๋ฅผ ์ฌ์ฉํ์ฌ ๋ถ์ํ๋ ๊ฒ์ ํฌํจํฉ๋๋ค. ์ด๋ฌํ ์งํ๋ ์ธ์ด์ ํ์ง, ์ผ๊ด์ฑ, ์ ํ์ฑ, ์์ฑ๋ ํ ์คํธ๊ฐ ์ค์ ๋ฐ์ดํฐ๋ฅผ ์ผ๋ง๋ ๋ฐ์ํ๋์ง๋ฅผ ํ๊ฐํฉ๋๋ค. ์ธ์ด์ ํ์ง๊ณผ ์ผ๊ด์ฑ์ ์ธ๊ฐ์ด ์์ฑํ ํ ์คํธ์์ ์ ์ฐฝ์ฑ๊ณผ ์ ์ฌ์ฑ์ ์ธก์ ํ๋ BLEU(Papineni et al., 2002)์ ์ฐธ์กฐ ์์ฝ๊ณผ์ ์ค๋ณต์ ์ ๋ํํ์ฌ ํ ์คํธ๊ฐ ์ฃผ์ ์์ด๋์ด์ ๊ตฌ๋ฌธ์ ์ผ๋ง๋ ์ ํฌ์ฐฉํ๋์ง๋ฅผ ํ๊ฐํ๋ ROUGE-L(Lin, 2004)๊ณผ ๊ฐ์ ์งํ๋ฅผ ํตํด ํ๊ฐ๋ฉ๋๋ค. ์ ํ์ฑ๊ณผ ์ค์ ๋ฐ์ดํฐ์์ ์ค๋ณต์ ๊ฐ๊ฐ ์์ ํ ์ ํํ ๋ต๋ณ์ ๋น์จ์ ๊ฒฐ์ ํ๋ EM๊ณผ ๊ด๋ จ ๋ต๋ณ์ ๊ฒ์ํ๋ฉด์ ๋ถ์ ํ์ฑ์ ์ต์ํํ๋ ์ ๋ฐ๋์ ์ฌํ์จ์ ๊ท ํ ์กํ ํ๊ฐ๋ฅผ ์ ๊ณตํ๋ F1 ์ ์์ ๊ฐ์ ์งํ๋ฅผ ์ฌ์ฉํ์ฌ ์ธก์ ๋ฉ๋๋ค.
์ด ํ์ค ์งํ ์ธ์๋, ํ๊ฐ์๋ ํน์ ์์ฉ ๋ถ์ผ์ ๋ง์ถ ์์ ๋ณ ๊ธฐ์ค๊ณผ ์๋ก์ด ์งํ๊ฐ ํฌํจ๋ ์ ์์ต๋๋ค. ์๋ฅผ ๋ค์ด, ๋ํ ์์ฑ์์๋ ์๋ต์ ๋ค์์ฑ๊ณผ ์์ฐ์ค๋ฌ์์ ํ๊ฐํ๊ธฐ ์ํด ๋นํน๋(perplexity)์ ์ํธ๋กํผ(entropy)๊ฐ ์ฌ์ฉ๋ฉ๋๋ค. ๋ํ, Misleading Rate์ Mistake Reappearance Rate(Liu et al., 2023)๊ณผ ๊ฐ์ ์งํ๋ ๋ชจ๋ธ์ด ํ์ ์ ๋ณด์ ๋ถ์ ํ์ฑ์ ํผํ๋ ๋ฅ๋ ฅ์ ์ธก์ ํฉ๋๋ค. ๋ค๋ฅธ ํนํ๋ ์งํ๋ก๋ ์ฟผ๋ฆฌ์ ๋ํ ์๋ต์ ์ ํ์ฑ์ ํ๊ฐํ๋ Answer Relevance(Shahul et al., 2023), RAG ์์คํ ์ ์์๋ฅผ ํ๊ฐํ๋ Kendallโs tau(Saad-Falcon et al., 2023), ์ฌ๋ฌ ๊ฐ์ ์ ๋ต์ด ์๋ ์์ ์์ ์ ํ์ฑ ํ๊ฐ๋ฅผ ๋ฏธ์ธ ์กฐ์ ํ๋ Micro-F1(Saad-Falcon et al., 2023), ๊ทธ๋ฆฌ๊ณ ์์ฑ๋ ๋ต๋ณ์ด ์์ ์๋ต๊ณผ ์ผ๋ง๋ ์ผ์นํ๋์ง๋ฅผ ์ง์ ์ธก์ ํ์ฌ ์์คํ ์ด ์ ํํ ์ฝํ ์ธ ๋ฅผ ์์ฑํ๋ ํจ๊ณผ๋ฅผ ์ง์ ์ ์ผ๋ก ํ๊ฐํ๋ Prediction Accuracy๊ฐ ์์ต๋๋ค.
RAG๋ฅผ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(LLM)์ ํตํฉํ๋ ๋ฐ๋ ์ธํฐ๋ท์ ์กด์ฌํ๋ ๋ฐฉ๋ํ ์์ ์ ๋ขฐํ ์ ์๋ ์ ๋ณด, ํนํ ๊ฐ์ง ๋ด์ค๋ก ์ธํด ์๋นํ ์ด๋ ค์์ด ๋ฐ๋ฆ ๋๋ค. ์ด๋ ์ ์ฉํ ์ง์์ ์ ํํ๊ฒ ๊ฒ์ํ๋ ๋ฐ ์ด๋ ค์์ ์ด๋ํ์ฌ, LLM์ด ์ ๋ขฐํ ์ ์๋ ์๋ต์ ์์ฑํ๊ฒ ๋ง๋ญ๋๋ค. ๊ทธ ๊ฒฐ๊ณผ, LLM์ ์๋ชป๋ ์ ๋ณด๋ฅผ ๋ฐํ์ผ๋ก ์ฝํ ์ธ ๋ฅผ ์์ฑํ ์ ์์ผ๋ฉฐ, ์ด๋ ๋ชจ๋ธ์ ์ ๋ขฐ์ฑ์ ์ ํ์ํฌ ์ ์์ต๋๋ค. ์ต๊ทผ ์ฐ๊ตฌ ๋ ธ๋ ฅ์ LLM์ด ์ ํํ๊ณ ์ ๋ขฐํ ์ ์๋ ์๋ต์ ์์ฑํ๋ ๋ฐ ์์ด ํจ์จ์ฑ, ํ์ฅ์ฑ, ํจ๊ณผ์ฑ์ ํฅ์์ํค๊ธฐ ์ํด ๊ฒ์ ๋ฐฉ๋ฒ์ ๊ฐ์ ํ๋ ๋ฐ ์ด์ ์ ๋ง์ถ๊ณ ์์ต๋๋ค.
์ฐจ๋ณํ๋ ๊ฒ์ ์ธ๋ฑ์ค(Tay et al., 2022)์ (Bevilacqua et al., 2022b)๋ ๊ฒ์ ๊ณผ์ ์ ํธ๋์คํฌ๋จธ ๋ชจ๋ธ ๋ด์ ํตํฉํ์ฌ ํ ์คํธ ์ฟผ๋ฆฌ๋ฅผ ๋ฌธ์ ์๋ณ์๋ก ์ง์ ๋งคํํ ์ ์๋ ์ฐจ๋ณํ๋ ๊ฒ์ ์ธ๋ฑ์ค๋ฅผ ๊ฐ๋ฐํ์ต๋๋ค. ์ด๋ฌํ ์ ๊ทผ ๋ฐฉ์์ ๋ ๋์ ์ฑ๋ฅ์ ์ ๊ณตํ๋ฉฐ, ๋ ํจ์จ์ ์ด๊ณ ํ์ฅ ๊ฐ๋ฅํ ๊ฒ์์ ๊ฐ๋ฅ์ฑ์ ์ ์ํฉ๋๋ค.
GERE(Chen et al., 2022a)๋ ์ฌ์ค ๊ฒ์ฆ ์์ ์ ์ํด ๋ฌธ์ ์ ๋ชฉ๊ณผ ์ฆ๊ฑฐ ๋ฌธ์ฅ์ ์ง์ ์์ฑํ ์ ์์ต๋๋ค. PARADE(Li et al., 2024)๋ ๋ฌธ์์ ์ฌ๋ฌ ๋จ๋ฝ์ ํตํฉํ์ฌ ๋จ์ผ ๋ฌธ์ ๊ด๋ จ์ฑ ์ ์๋ก ์ง๊ณํ๋ ๋ฌธ์ ์ฌ์์ ๋งค๊ธฐ๊ธฐ ๋ฐฉ๋ฒ์ ๋๋ค. ์ด ๋ ๊ฐ์ง ๋ฐฉ๋ฒ ๋ชจ๋ ์ ํต์ ์ธ ๋ฐฉ๋ฒ์ ๋นํด ๊ฒ์ ํ์ง์์ ์๋นํ ํฅ์์ ๋ณด์ฌ์ค๋๋ค.
RankT5(Zhuang et al., 2023)์ ํ ์คํธ ์์๋ฅผ ๋งค๊ธฐ๊ธฐ ์ํด T5 ํ๋ ์์ํฌ๋ฅผ ํนํํ์ฌ ๋ฏธ์ธ ์กฐ์ ํ ๋ชจ๋ธ์ ๋๋ค. ์ด ๋ชจ๋ธ์ ์์ ์์ค์ ํ์ฉํ์ฌ ์ฑ๋ฅ ์งํ๋ฅผ ์ต์ ํํ๊ณ , ๋๋ฉ์ธ ์ธ ๋ฐ์ดํฐ์์๋ ์ ๋งํ ์ ๋ก์ท ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋๋ค.
Noise Power(Cuconasu et al., 2024)๋ RAG ์์คํ ์์ ์ ๋ณด ๊ฒ์(IR) ๊ตฌ์ฑ ์์์ ์ํฅ์ ๋ํ ํฌ๊ด์ ์ธ ๋ถ์์ ์ ๊ณตํ๋ฉฐ, ๊ด๋ จ์ด ์๋ ๋ฌธ์์ ํฌํจ์ด ์ ํ๋๋ฅผ ์๋นํ ๊ฐ์ ํ ์ ์์์ ๋ฐํ๋ ๋๋ค. ์ด ์ฐ๊ตฌ๋ ๊ธฐ์กด์ ๊ฒ์ ์ ๋ต์ ๋์ ํ๋ฉฐ, ๊ฒ์์ ์ธ์ด ์์ฑ ๋ชจ๋ธ๊ณผ ํตํฉํ๋ ํนํ๋ ์ ๊ทผ ๋ฐฉ์์ ๊ฐ๋ฐํ ๊ฐ๋ฅ์ฑ์ ๊ฐ์กฐํฉ๋๋ค.
Multi Modal RAG ๋ถ์ผ๋ ํ ์คํธ์ ์๊ฐ์ ์ดํด์ ์ตํฉ์์ ์ค์ํ ๋ฐ์ ์ ์ด๋ฃจ๋ฉฐ ์๋นํ ์ฑ์ฅ์ ๊ฒฝํํ์ต๋๋ค. MuRAG(Chen et al., 2022b)์ ๋์ ์ ํ ์คํธ์ ์๊ฐ ์ ๋ณด๋ฅผ ๊ฒฐํฉํ์ฌ ์ธ์ด ์์ฑ์ ์ํํ๋ ํ์ ์ ์ธ ์ฑ๊ณผ๋ก, ๋ฉํฐ๋ชจ๋ฌ ๋ฐ์ดํฐ์ ์ ์๋ก์ด ๊ธฐ์ค์ ํ๋ฆฝํ์ต๋๋ค. ์ด ๋ชจ๋ธ์ ๋ค์ค ๋ชจ๋ ๋ฉ๋ชจ๋ฆฌ ์์คํ ์ ํ์ฉํ์ฌ ์ง๋ฌธ ์๋ต ๋ฐ ์ถ๋ก ์์ ์ ์ ํ์ฑ์ ํฅ์์ํค๋ ๋ฐ ํจ๊ณผ์ ์์ ๋ณด์ฌ์ฃผ์์ต๋๋ค. MuRAG ์ดํ, REVEAL(Hu et al., 2023)๊ณผ Re-Imagen(Chen et al., 2023c)์ ๊ฐ์ ์ฐ๊ตฌ๋ค์ ์๊ฐ์ ์ง๋ฌธ ์๋ต ๋ฐ ํ ์คํธ-์ด๋ฏธ์ง ์์ฑ์ ํฅ์์ ์ค์ ์ ๋์์ต๋๋ค. ์ด๋ค์ ๊ฐ๊ฐ ๋์ ๊ฒ์ ๋ฉ์ปค๋์ฆ์ ํตํฉํ๊ณ ์ด๋ฏธ์ง ์ถฉ์ค๋๋ฅผ ๊ฐ์ ํจ์ผ๋ก์จ ์ด๋ฌํ ๋ชฉํ๋ฅผ ๋ฌ์ฑํ์ต๋๋ค. ์ด๋ฌํ ๋ฐ์ ์ Sarto et al.(Sarto et al., 2022)์ ์ด๋ฏธ์ง ์บก์ ๋๊ณผ Yuan et al.(Yuan et al., 2023)์ ํ ์คํธ-์ค๋์ค ์์ฑ๊ณผ ๊ฐ์ ์ฐ๊ตฌ์๋ค์ ์ํด ๋ ๋ฐ์ ๋ ๋ชจ๋ธ์ ์ํ ๊ธฐ์ด๋ฅผ ๋ง๋ จํ์ผ๋ฉฐ, RAG์ ์ ์ฉ ๋ฒ์๋ฅผ ๋ค์ํ ๋ชจ๋ฌ๋ฆฌํฐ๋ก ํ์ฅํ๊ณ ์์ฑ๋ ์ถ๋ ฅ๋ฌผ์ ํ์ง๊ณผ ํ์ค์ฑ์ ๊ฐ์ ํ์ต๋๋ค. ๋ํ, Re-ViLM(Yang et al., 2023b)์ ๊ฒ์ ์ฆ๊ฐ ์๊ฐ ์ธ์ด ๋ชจ๋ธ์ ํตํด ์ด๋ฏธ์ง ์บก์ ๋ ๊ธฐ๋ฅ์ ์ ์ ํ์ต๋๋ค. ๋ชจ๋ธ ๋งค๊ฐ๋ณ์๋ฅผ ๋ฏธ์ธ ์กฐ์ ํ๊ณ ํ์ ์ ์ธ ํํฐ๋ง ์ ๋ต์ ๊ตฌํํ์ฌ ๋ณด๋ค ์ ํํ๊ณ ๋ฌธ๋งฅ์ ์ผ๋ก ์ ์ ํ ์บก์ ์ ์์ฑํ๋ ๋ฐ ํฐ ์ง์ ์ ์ด๋ฃจ์์ต๋๋ค. ์ด๋ฌํ ๋ชจ๋ธ๋ค์ ์ธ๋ถ ๋ฆฌ์์ค๋ฅผ ํ์ฉํ์ฌ ์ ํต์ ์ธ ๋ฒค์น๋งํฌ๋ณด๋ค ์๋นํ ํฅ์์ ์ด๋ฃจ์์ผ๋ฉฐ, ๋ค์ํ ์ง์ ์์ค๋ฅผ ํตํฉํ๋ ๊ฒ์ ์ด์ ์ ๊ฐ์กฐํ์ต๋๋ค.
์ด ๋ ผ๋ฌธ์์๋ RAG ๋ถ์ผ๋ฅผ ์ดํดํ๊ธฐ ์ํ ํฌ๊ด์ ์ธ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๊ณ , RAG๊ฐ LLM(๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ)์ ๊ธฐ๋ฅ์ ํฅ์์ํค๋ ๋ฐ ์ค์ํ ์ญํ ์ ํ๋ค๋ ์ ์ ๊ฐ์กฐํ์์ต๋๋ค. RAG์ ๋ํ ์ฒด๊ณ์ ์ธ ๊ฐ์, ๋ค์ํ ๋ฐฉ๋ฒ์ ๋ถ๋ฅ, ํต์ฌ ๊ธฐ์ ๋ฐ ํ๊ฐ ๋ฐฉ๋ฒ์ ๋ํ ์ฌ๋ ์๋ ๋ถ์์ ํตํด, ์ด ์ฐ๊ตฌ๋ ํฅํ ์ฐ๊ตฌ๋ฅผ ์ํ ๋ฐฉํฅ์ ๋ฐํ์ค๋๋ค. ์ด ๋ ผ๋ฌธ์ ์ค์ํ ๊ฐ์ ์์ญ์ ์๋ณํ๊ณ , ํนํ ํ ์คํธ ๋ฌธ๋งฅ์์ RAG ์์ฉ์ ๋ฐ์ ์ํค๊ธฐ ์ํ ์ ์ฌ์ ์ธ ๋ฐฉํฅ์ ์ ์ํฉ๋๋ค. ์ด ์กฐ์ฌ์ ๋ชฉ์ ์ ๊ฒ์ ๊ด์ ์์ RAG ๋ถ์ผ์ ํต์ฌ ๊ฐ๋ ์ ๋ช ํํ ํ๊ณ , ์ ๋ณด์ ์ ํํ ๊ฒ์ ๋ฐ ์์ฑ์ ์ํ ์ถ๊ฐ ํ๊ตฌ์ ํ์ ์ ์ด์งํ๋ ๋ฐ ์์ต๋๋ค.
๋ณธ survey๋ ๊ธฐ์กด RAG ๋ชจ๋ธ์ ํฌ๊ด์ ์ผ๋ก ๊ฒํ ํ๊ณ , ๊ฒ์ ๊ด์ ์์ ๊ทธ ํต์ฌ ๊ธฐ์ ์ ๋ค ๊ฐ์ง ์ฃผ์ ๋จ๊ณ๋ก ์์ฝํฉ๋๋ค. ์ผ๋ถ ๋ฐฉ๋ฒ์ด ์ฌ๋ฌ ๋จ๊ณ๋ฅผ ํฌํจํ ์ ์์ผ๋ฉฐ, ์ด๋ฌํ ๋จ๊ณ๋ฅผ ๋ถ๋ฆฌํ๋ฉด ๋ณธ์ง์ ์ธ ์ฐ๊ฒฐ์ด ๋ชจํธํด์ง ์ ์์์ ์ธ์ํฉ๋๋ค. ๊ทธ๋ผ์๋ ๋ถ๊ตฌํ๊ณ , ์ฃผ์ ๋ชฉ์ ์ ์ ๊ทผ ๋ฐฉ์์ ๋ณต์ก์ฑ์ ๋จ์ํํ๊ณ , ํด๊ฒฐํ๋ ค๋ ํน์ ๋ฌธ์ ๋ฅผ ๋ช ํํ ๊ตฌ๋ถํ๋ ๊ฒ์ ๋๋ค. ์ด๋ฅผ ํตํด ์ถ๊ฐ ์ต์ ํ ๋ฐ ๊ฐ์ ์ด ๊ฐ๋ฅํ ์์ญ์ ๋ ๋ช ํํ๊ฒ ์๋ณํ ์ ์์ต๋๋ค. ์ฒ ์ ํ ์กฐ์ฌ๋ฅผ ํ์์๋ ๋ถ๊ตฌํ๊ณ , ์ด ๋ถ์ผ์ ๋น ๋ฅธ ๋ฐ์ ๊ณผ ํ์ด์ง ์ ํ์ผ๋ก ์ธํด ํน์ ์ธก๋ฉด์ด ์์ ํ ๋ถ์๋๊ณ ํ๊ตฌ๋์ง ๋ชปํ๊ฑฐ๋ ์ต๊ทผ์ ๋ฐ์ ์ด ๋๋ฝ๋์์ ์ ์์ต๋๋ค. ๋ ผ๋ฌธ์์๋ RAG ๊ฐ๋ฐ์ ๋์์ด ๋ ์ ์๋ ํ๊ฐ ๋ฐฉ๋ฒ์ ์ธ๊ธํ๊ณ ์์ผ๋ฉฐ, LangChain ๋ฐ LlamaIndex์ ๊ฐ์ ์ฑ์ํ ๋๊ตฌ๋ค์ ์ ์ฉํ ์์์ผ๋ก ์ธ์ ํ๊ณ ์์ต๋๋ค. ๊ทธ๋ฌ๋ ์ด ์กฐ์ฌ์ ์ด์ ์ ํ๊ฐ ์ ์ฐจ์ ์ธ๋ถ ์ฌํญ์ด๋ ์ด๋ฌํ ๋๊ตฌ๊ฐ ์ด๋ป๊ฒ ์ฌ์ฉ๋๋์ง๋ฅผ ์ค๋ช ํ๋ ๊ฒ์ด ์๋๋ผ, ํ๊ฐ ์ธก๋ฉด์ด ์ด๋ป๊ฒ RAG์ ๋ฐ์ ์ ์ง์ํ ์ ์๋์ง๋ฅผ ๋ณด์ฌ์ฃผ๋ ๋ฐ ์์ต๋๋ค. ์ด ์ ํ์ ๋ฐฉ๋ฒ๋ก ์ ๋ช ํ์ฑ๊ณผ RAG ๋ชจ๋ธ์ ์ ์ ํ๊ณ ๊ฐ์ ํ๋ ๋ฐ ํ๊ฐ ๋๊ตฌ๋ฅผ ์ ์ฉํ๋ ๊ฒ์ ์ค์์ฑ์ ๊ฐ์กฐํ๋, ํฅํ ์ฐ๊ตฌ๋ฅผ ์ํ ์์ญ์ ๋ถ๊ฐ์ํต๋๋ค.