과학자들은 AI 연구에서 '환각'하는 대규모 언어 모델을 발견하는 방법을 개발합니다.

획기적인 개발을 통해 옥스포드 대학의 연구원들은 인공 지능(AI) 연구에 사용되는 LLM(대형 언어 모델)에서 환각 현상을 식별하고 예방하는 데 중요한 진전을 이루었습니다.

연구자들은 LLM이 언제 "환각"을 일으키거나 그럴듯하게 들리지만 상상의 사실을 만들어낼 가능성이 있는지를 탐지하는 새로운 방법을 고안했습니다.

보다 간단한 설명은 LLM이 정답을 정의하는 것이 무엇인지 식별하지 못하지만 정답을 제공해야 할 의무감을 느끼고 정보를 조작하는 행위, 즉 "조작"을 유도한다는 것입니다.

이 연구 결과는 특히 부정확성이 심각한 결과를 초래할 수 있는 법률 및 의학적 질문 답변과 같은 분야에서 유용할 수 있습니다.

LLM 구성을 감지하는 방법론

연구팀이 개발한 방법론은 통계에 강력하게 기반을 두고 있으며 개별 단어 순서가 아닌 의미 수준에서 불확실성을 추정하는 데 중점을 두고 있습니다.

이 방법은 LLM 응답의 불확실성을 계산하기 위해 여러 출력 간의 변동량을 측정하는 의미론적 엔트로피를 활용합니다.

연구자들은 LLM에서 생성된 확률을 의미에 대한 확률로 변환함으로써 LLM이 문구뿐만 아니라 답변의 실제 의미에 대해 불확실한 경우를 식별할 수 있었습니다.

실험 중에 새로운 방법은 조작을 탐지하는 데 있어 이전 접근 방식보다 지속적으로 성능이 뛰어났습니다.

연구팀은 Google 검색부터 기술적인 생물 의학 질문 및 수학 단어 문제에 이르는 다양한 데이터 세트를 사용하여 GPT-4 및 LLaMA 2와 같은 잘 알려진 모델을 포함한 6개의 오픈 소스 LLM에 대해 방법을 테스트했습니다. 이 방법은 ChatGPT 에서 생성된 짧은 전기에서 특정 허위 주장을 성공적으로 식별했습니다.

이 기술의 주요 장점 중 하나는 작업별 데이터가 필요한 이전 접근 방식과 달리 이 방법은 사전 지식 없이 다양한 데이터 세트 및 작업에서 작동한다는 것입니다. 새로운 작업에 대한 강력한 일반화 덕분에 광범위한 응용 분야에서 정확성과 신뢰성을 보장하는 데 유용합니다.

탐지 방법은 구성과 관련된 특정 신뢰성 문제를 해결하지만 앞으로 더 많은 과제가 놓여 있습니다. LLM이 저지르는 지속적인 실수는 더 많은 주의가 필요한 영역입니다.

AI의 가장 치명적인 실패는 시스템이 지속적으로 부정확하지만 자신감 있고 체계적인 결과를 생성할 때 발생합니다. 연구자들은 이와 관련하여 아직 해야 할 일이 많다는 점을 인정합니다.