트렌드

생성형 AI는 “왜?” 쉽고도 친절한 문답서 ①

2024-09-10

[시리즈 미리보기]

① 초급의 탈을 쓴 중급 난이도의 [개념 사전] (→ 우리는 지금 여기에 있어요!)

초급을 가장한 중급 난이도의 콘텐츠입니다. 쉽게 읽히지만 의외로 생각지 못한 유용한 정보를 가져갈 수 있을 거예요. 생성형 AI 관련 꼬리에 꼬리를 무는 다양한 질문과 명쾌한 답변들, 그리고 가까운 미래의 생성형 AI를 예측해 보면서 우리는 어떤 부분에 대해 경각심을 갖고 AI를 바라보고 또 활용해야 할지에 대한 쉽고 친절한 문답서를 만들어 보았어요. 아는 것은 분명하게, 헷갈리는 것은 선명하게 알려드릴게요.

챗GPT 인터뷰로 가벼운 몸풀기 🎤

챗GPT는 왜 1인칭 시점으로 말할까?
현재 LLM의 선두주자인 챗GPT가 1인칭 시점으로 말하는 이유는 사용자와 보다 자연스럽고 친밀하게 상호작용하기 위한 설계상의 결정이었습니다. 쉽게 공감하고 소통하는 대화체로 ‘1인칭 대명사’를 사용하도록 세팅되었습니다.

챗GPT가 한국 사용자로부터 가장 많이 들었던 질문은?
“어떻게 하면 효율적으로 공부할 수 있을까요?”라는 질문입니다. – 라고 답했습니다. 챗GPT는 ‘특히 수험생이나 대학생이 이런 질문을 많이 했다’라고 덧붙였습니다.

챗GPT는 검색 도구로써 사용자의 마음 속에 몇 순위일까?
오픈서베이가 지난 3월 공개한 ‘검색 트렌드 리포트 2024’에 따르면 챗GPT 이용률은 17.8%로 검색 도구 8위에 올랐습니다. 부동의 1위는 네이버(87%)로 나타났는데요. 아직 검색 도구로서는 큰 신뢰를 얻지 못한 것 같습니다.

챗GPT의 인지도 vs 사용성 vs 신뢰도는?
‘검색 트렌드 리포트 2024’ 설문 결과, 챗GPT의 인지도는 80.8%로 매우 높았습니다. 반면, 실제 사용을 해 본 경험이 있는 사람은 34.5%에 불과했는데요. 인지도에 비해 사용률이 절반도 되지 않아 놀랍습니다. 챗GPT 답변에 대한 신뢰도 평가에서는 사용 경험자의 40%만이 “믿을 만하다”고 답했습니다. 답변의 신뢰도 측면에서 많은 개선이 필요해 보입니다.

생성형 AI [개념 사전] 뿌시기 ⛏️

1) 대규모 언어 모델(Large Language Models, LLM)

⁕ 정의 : 일반적 언어로 질문이나 지시에 대한 답을 생성하는 생성형 AI 시스템.
⁕ 쉽지만 깊은 설명 : ‘트랜스포머’라는 특수한 다층 및 다면 신경망을 이용해 인터넷 등에서 수집된 방대한 양의 자연어 데이터를 학습합니다. 기본 학습을 마치면 인간 피드백을 통한 강화학습으로 사회화 단계를 거치는데요. ‘폭탄 제조법’이나 ‘법망을 피하는 방법’ 등 금지된 내용을 논하지 않는 교육을 받는 작업이라 할 수 있습니다.

2) 임베딩(Embeddings)

⁕ 정의 : 사람이 쓰는 자연어를 기계가 이해할 수 있는 숫자 벡터(목록)로 나타낸 것.
⁕ 쉽지만 깊은 설명 : LLM은 각각의 단어를 임베딩이라는 특정 형태의 숫자 벡터로 변환합니다. 비슷한 의미의 단어들은 비슷한 백터로 표현되지요. 예를 들어 ‘집’, ‘저택’, ‘움막’, ‘초가집’과 같은 단어들은 서로 비슷한 벡터로 표현되는 식입니다. 단어 임베딩은 단어 연관성에 관한 통계적 측정치로 표현되는 고유의 어휘 목록을 만듭니다. 사람은 이것을 읽을 수 없지만 컴퓨터 프로그램은 읽을 수 있어요.

3) 트랜스포머(Transformer)¹⁾

⁕ 정의 : LLM이 사용하는 특수한 유형의 신경망.
⁕ 쉽지만 깊은 설명 : 우리가 집 밖을 나섰을 때, 다양한 소음이 한꺼번에 들려오는 것을 느낍니다. 자동차 소리, 새 소리, 아이들의 목소리, 공사장에서 땅을 뚫는 소리, 사이렌 소리, 지나가는 행인의 재채기 소리 등 손꼽아본다면 정말 많은 소리를 들을 수 있는데요. 우리가 이러한 여러 소리 중 몇 가지에 특히 주의를 기울여 중요 정보를 수집하는 것처럼, 트랜스포머도 같은 역할을 합니다. 입력된 문장 속 각 단어의 경중을 따져 문장의 구조와 질문의 의도를 포착하는 것입니다. 챗GPT 등 LLM에게 질문할 때, 때때로 멈칫거리거나 점진적으로 토큰을 생성하는 모습을 볼 수 있었을 텐데요. 이것은 트랜스포머가 입력된 데이터의 여러 부분을 처리한 후, 효율적으로 결합해 결과를 산출하는 모습입니다.

4) 환각(Hallucination)

⁕ 정의 : 질문과 관련성이 떨어지거나 지어낸 이야기를 답으로 출력하는 현상.
⁕ 쉽지만 깊은 설명 : LLM이 언제나 모든 콘텐츠의 원본에 접근할 수 있는 것은 아니며, 해당 정보가 축소된 통계적 요약에만 접근합니다. 여러 자료를 참조할 수 있어도 신뢰할 수 있는 정보를 반드시 찾아낸다는 보장은 없는 것입니다. 그래서 ctrl-C, ctrl-V한 것처럼 정보를 복사해 오지는 못하는 것인데요. 이 결함을 해결하는 것이 지속적인 연구 주제가 되고 있습니다.

5) 생성적 대립 신경망(Generative Adversarial Network, GAN)

⁕ 정의 : 이미지 생성형 AI에서 일반적으로 사용하는 모델, 두 개의 신경망으로 구성.
⁕ 쉽지만 깊은 설명 : 생성적 대립 신경망은 ‘생성자(generator)’ 신경망과 ‘판별자(discriminator)’ 신경망의 두 요소로 구성되어 있습니다. 이 두 신경망이 서로 경쟁적으로 훈련하여 더 확실한 새 데이터를 생성하는데요. 생성자의 역할은 학습 데이터 속 이미지와 최대한 비슷한 이미지를 만드는 것이고, 판별자는 평가자가 되어 생성된 이미지와 학습 데이터 속 이미지를 구분합니다. 생성자가 형편없는 이미지를 만들면 판별자는 그것이 좋은 결과가 아니라는 걸 쉽게 알아챕니다. 판별자는 생성자에게 피드백을 제공해 생성자의 성능이 계속 개선되도록 합니다.

1) Attention is all you need, 2017

이어지는 2편 콘텐츠에서는 가까운 미래의 생성형 AI가 어떻게 발전할지, 또 나날이 발전하는 생성형 AI를 위해 인간이 고민해야 할 부분은 무엇일지 담았습니다. 세계적인 인공지능 권위자, 제리 카플란의 견해를 담은 문답서 2편 바로보기 (클릭!)

뉴스레터 구독하기

목록보기

플래티어

서비스 메뉴

Family Site

BLOG

트렌드

생성형 AI는 “왜?” 쉽고도 친절한 문답서 ①

챗GPT 인터뷰로 가벼운 몸풀기 🎤

생성형 AI [개념 사전] 뿌시기 ⛏️

뉴스레터 구독하기