최근 AI의 발전으로 누구나 코딩 경험 없이도 대규모 언어 모델(LLM, Large Language Model)을 손쉽게 만들 수 있는 시대가 되었습니다.

이번 [샵투월드 TV] 실습 영상에서는 셰익스피어의 Hamlet(햄릿) 텍스트를 예시 데이터로 활용하여 텍스트 수집 → 정제 → 토큰화 → 숫자 시퀀스 변환 → 입력/정답 쌍 생성 → 모델 훈련 → 생성 결과 확인까지 LLM의 기본 구조와 실습 과정을 단계별로 시연합니다.

★ 주요 내용:
– 코딩이나 고급 수학 지식이 없어도, 발전된 도구(AI, 파이썬)로 LLM을 구축하는 과정을 실시간으로 보여줍니다.
– 실습 데이터(햄릿 영어 텍스트) 수집 후, 자동/AI 기반의 정제 및 토큰화, 숫자 인코딩 및 입력-정답 데이터 생성
– 모델 훈련 과정에서 “To be or not to be”와 같은 문장을 예측·생성하는 실습 시연
– Temperature(온도) 조절을 통해 창의적·보수적 결과 생성 제어법 소개
– LLM 훈련 전 과정이 단 몇 분 내에 끝남을 실제로 확인할 수 있음

★ 실습 흐름:
1. 텍스트 데이터 수집 및 정제: 인터넷에서 Hamlet 텍스트 수집 → 불필요한 요소 자동 정리
2. 토큰화 및 숫자 변환: 텍스트를 작은 조각(토큰)으로 분해해 고유 번호 할당
3. 데이터셋 생성: 입력/정답 쌍(shifted sequence) 자동 준비
4. 마스킹 및 학습: 정답을 가려서(마스킹) 다음 단어 예측만 가능하도록 설정
5. 모델 훈련: AI가 알아서 학습 진행, 최종 로스(loss) 감소 확인
6. 결과 생성 및 온도(Temperature) 설정: 훈련 모델로 자유롭게 문장 생성, 온도 조절로 창의성 제어

✓ 이런 분께 추천합니다
– 코딩/수학 지식이 없어도 AI 언어모델 만들기에 관심 있는 분
– LLM, 생성형 AI(AI 모델링) 실습을 빠르고 쉽게 경험해보고 싶은 분
– 최신 AI 기술 흐름, 자동화된 빅데이터-모델링 파이프라인을 현장에서 체험하고 싶은 분

[영상 링크] https://youtu.be/KX0v4ClbB_I?si=rLgzkOCzPtiezcdH

더 많은 내용과 실습을 원하신다면 shop2world.com을 방문해주세요!

#shop2world #LLM #언어모델 #인공지능 #AI #생성AI #실습