Ash Space
GitHubHuggingFace
  • Contents
  • 🥑Resume / CV
    • Reseume / CV
  • 📄Paper Review
    • Paper List
      • [2017] Attention is all you need
      • [2023] CoVe : Chain of Verification Reduces Hallucination in Large Language Models
      • [2024] RAG Survey : A Survey on Retrieval-Augmented Text Generation for Large Language Models
      • [2023] Interleaving Retrieval with Chain-of-Thought for Knowledge-Intensive Multi-Step Questions
      • [2024] Take a Step Back: Evoking Reasoning via Abstraction in Large Language Models
      • [2020] ColBERT: Efficient and Effective Passage Search via Contextualized Late Interaction over BERT
      • [2024] Retrieval Augmented Generation (RAG) and Beyond
      • [2009] Reciprocal Rank Fusion outperforms Condorcet and individual Rank Learning Methods
      • [2024] Don't Do RAG : When Cache-Augmented Generation is All you Need for Knowledge Tasks
      • [2024] Text2SQL is Not Enough : Unifying AI and Database with TAG
  • 🗂️Research Article
    • Reference List
      • Dataset
      • LLM
      • Prompt Engineering
      • LLMops
      • RAG & Agent
      • Etc
    • Compounded AI System : The Shift from Models to Compound AI Systems
    • LLM과 Grounding
    • Essence of RAG
    • How to reduce Hallucinations
    • Golden Gate Claude Review
    • Editorial Thinking
    • Embedding을 평가하는 방법
    • 나야, Chunk
    • 당신.. Chunking이 뭔지 정확히 알아..?
    • 그래서 제일 좋은 Chunking이 뭔데?
    • 웅장한 대결 AI Agent와 Agentic AI
    • UV써도 괜찮아~ 딩딩딩딩딩
    • 아무도 RAG 평가 셋 만드는 것에 관심가지지 않아~
    • Linguistic Prompts
    • Chroma야, Chunking 평가를 어떻게 한다고?
    • Generations Never Easy
    • Model Context Protocol
    • Chill칠치 못한 Function Calling
    • RAG 평가지표 정복하기
    • LLM Quantization 방법론 알아보기
    • LLM은 더우면 헛소리를 해?
    • Text2SQL 넌 내꺼야!
  • 🏵️Conference
    • 일할맛 판교 3월 세미나
    • LangChainOpenTutorial를 진행하며
    • Talk: Prompt and Language The Science of Prompts 후기
    • 2024년 회고
    • 제 7회 Kako Tech Meet Up 후기
    • Moducon 2023 행사 후기
    • GDGXGDSC DevFest Happy Career 행사 후기
    • 모두를 위한 한국어 오픈액세스 언어모델 못다한 이야기 (feat. 모두연) #1
    • 모두를 위한 한국어 오픈액세스 언어모델 못다한 이야기 (feat. 모두연) #2
    • 맨땅에서 구축해본 개인화시스템 구축기 Session 후기
  • ♟️Basic
    • 00 Introduction
    • 01-1 LLM 지도
    • 01-2 LLM의 중추 트랜스포머 아키텍처 살펴보기
Powered by GitBook
On this page
  1. Research Article

Golden Gate Claude Review

2024년 11월 3일

Last updated 6 months ago

UPDATE : "Golden Gate Claude"는 연구 데모로 24시간 동안 온라인 상태였으며, 현재는 더 이상 이용할 수 없습니다. Claude의 기능 활성화 및 해석 가능성에 대한 저희 연구에 대해 더 알고 싶으시다면, 또는 전체 을 확인해 주세요. (해당 내용에 대해서 각각 따로 리뷰하겠습니다.)

화요일에 저희는 대규모 언어 모델 해석에 관한 새로운 주요 연구 논문을 발표했습니다. 이 논문에서는 AI 모델인 Claude 3 Sonnet의 내부 작동 방식을 탐구하기 시작했습니다. Claude의 “mind” 속에서는 모델이 관련 텍스트를 읽거나 관련 이미지를 볼 때 활성화되는 수백만 개의 개념들이 발견되었으며, 저희는 이를 “features”이라고 부릅니다.

그 중 하나가 바로 Golden Gate Bridge에 대한 개념이었습니다. Claude의 신경망에는 샌프란시스코의 이 유명한 랜드마크를 언급하거나 사진을 볼 때 활성화되는 특정 뉴런 조합이 있음을 발견했습니다. 이러한 기능을 식별할 수 있을 뿐만 아니라, 활성화 강도를 조절하여 Claude의 행동에서 나타나는 변화를 확인할 수도 있습니다.

저희 연구 논문에서 설명한 바와 같이, "Golden Gate Bridge" 기능의 강도를 높이면 Claude의 응답이 금문교에 집중하기 시작합니다. 질문이 직접 관련이 없더라도, 대부분의 답변에서 금문교를 언급하게 됩니다.

예를 들어, 이 "Golden Gate Bridge Claude"에게 10달러를 어떻게 쓸지 묻는다면, golden gate bridge를 건너면서 통행료를 내라고 추천할 것입니다. 사랑 이야기를 써달라고 하면, 안개 낀 날 사랑하는 다리를 건너고 싶어하는 자동차의 이야기를 들려줄 겁니다. 만약 자신이 어떻게 생겼을지 상상해보라고 묻는다면, golden gate bridge처럼 생겼다고 상상할 가능성이 큽니다.

잠시 동안, 누구나 이 모델과 상호작용할 수 있도록 공개합니다. claude.ai에서 “금문교 Claude”와 대화해 볼 수 있으며, 오른쪽에 있는 금문교 로고를 클릭하면 됩니다. 다만, 이 모델은 연구 시연용이므로, 예상치 못한때 당혹스러운 반응이 나타날 수도 있다는 점을 유의해 주세요.

저희의 목표는 해석 가능성 연구가 실제로 어떤 영향을 미칠 수 있는지 보여드리는 것입니다. Claude 내에서 이러한 기능을 발견하고 조정할 수 있다는 사실은 대규모 언어 모델의 작동 원리를 이해하기 시작했다는 자신감을 줍니다. 이것은 단순히 모델에게 역할극을 요청하거나, Claude에게 다리라고 상상하라고 명령하는 추가 텍스트를 입력에 붙이는 “시스템 프롬프트” 방식이 아닙니다. 또한, 전통적인 “미세 조정” 기법 혹은 추가 학습 데이터를 사용해 기존 모델의 행동을 수정하는 또 다른 블랙박스를 만드는 방식도 아닙니다. 이것은 모델의 내부 활성화 구조에서 가장 기본적인 부분을 정밀하게 조정하는 작업입니다.

논문에서 설명했듯이, 동일한 기술을 사용해 위험한 컴퓨터 코드, 범죄 활동, 기만과 같은 안전 관련 기능의 강도를 조절할 수도 있습니다. 추가 연구를 통해 이 작업이 AI 모델을 더욱 안전하게 만드는 데 기여할 수 있을 것이라고 믿습니다.


※ 원문 :

🗂️
https://www.anthropic.com/news/golden-gate-claude
이 게시물
연구 논문
Antropic News : Goldedn Gate Claude