4.2.2 기능 요소
1) 분야: AI 모델이 적용되는 특정 산업이나 분야를 의미하며, 예를 들어 의료, 금융, 교육 등 다양한 분야에서 활용될 수 있다.
모델 유형(Model Type): AI 모델의 구조나 설계 방식에 따라 분류된 유형을 지칭한다. 언어 모델, 이미지 분류 모델 등 다양한 유형이 존재하며, 각 모델은 특정 작업 수행을 위해 설계된다.
작업(Task): AI 모델이 수행하는 특정 작업을 의미한다. 언어 모델의 경우 문장 완성, 번역, 감정 분석 같은 작업이 포함될 수 있으며, 작업의 종류에 따라 모델의 목적과 성능 평가 기준이 달라진다.
2) 모달리티: AI 모델이 처리하는 텍스트, 이미지, 오디오 등 데이터 유형을 의미한다.
입력(Input): AI 모델이 처리하는 데이터의 유형을 의미한다. 텍스트, 이미지, 오디오, 비디오 등이 포함된다.
출력(Output): AI 모델이 생성하거나 예측하는 데이터 유형을 의미한다. 출력은 입력 데이터에 따라 다르며, 텍스트 응답, 이미지 생성, 숫자 예측 등 다양한 형태로 나타날 수 있다.
모달리티 종류(Modality type): 개별 모달리티(Unimodal), 멀티 모달리티(Multimodality), 교차 모달리티(Cross-Modality), 바인딩 모달리티(Binding Modality) 등 모달리티의 유형을 의미한다.
3) 언어: AI 모델이 한국어를 이해하고 처리할 수 있는지 여부와 모델이 지원하는 언어 목록을 포함한다.
한국어 지원(Korean Supported): AI 모델이 한국어를 이해하고 처리할 수 있는지를 나타낸다. 한국어 지원 모델은 번역, 질의응답, 요약 등 한국어 기반 작업을 수행할 수 있다.
지원 언어(Supported Languages): AI 모델이 지원하는 언어 목록을 의미하며, 모델이 여러 언어로 작업할 수 있는지를 보여준다. 다국어 모델은 다양한 언어 사용자에게 유용하다.
4) 모델 유형: AI 모델의 구조나 설계 방식을 기준으로 분류된다.
언어 모델 유형(Language Model Type): ➀ 방대한 텍스트 데이터를 학습하여 자연어 처리 작업을 수행하는 LLM(Large Language Model)과 ➁ 텍스트, 이미지, 소리, 영상 등 여러 데이터를 동시에 처리하는 LMM(Large Multimodal Model)로 구분된다.
부모 모델(Parent Model):여러 하위 모델(자식 모델)을 생성하거나 훈련하기 위해 사용되는 기반 모델을 의미한다.
5) 제공 방식: AI 모델은 다양한 방식으로 제공될 수 있으며, 이는 사용자의 요구와 환경에 따라 선택된다.
모델 제공 방식(Deployment Channel):AI 모델이 제공되는 방식을 나타낸다. API 서비스, 온프레미스 설치, 클라우드 기반 서비스 등이 있으며, 사용자 편의성과 요구사항에 따라 선택된다.
4.2.4 품질 요소
1) 모델 빌드 & 학습: AI 모델을 구축하고 학습시키는 단계로, 모델이 원하는 작업을 수행할 수 있도록 데이터와 알고리즘을 통해 훈련되는 과정이다.
파라미터 수(Parameters): AI 모델이 학습한 매개변수의 총 수로, 모델의 복잡도와 성능을 나타내는 중요한 지표이다. 모델의 크기나 성능을 평가할 때 중요한 요소로 작용한다.
한국어 성능: 거대 언어모델의 한국어 성능을 평가하는 벤치마크로, 주요 평가지표는 다음과 같다.
- KMMLU : 한국어에 특화된 다분야 학습 평가 벤치마크로, 다양한 분야에서 한국어 기반 지식을 활용한 논리적 추론 및 학습 능력을 테스트하며, 한국어 자연어 이해 성능을 측정하는 데 사용된다.
- Horangi Leaderboard : 거대 언어모델(LLM)의 한국어 능력을 평가하기 위한 도구로, Q&A 형식의 언어 이해와 대화를 통해 생성 능력을 평가하는 MT-Bench 측정 도구를 제공한다.
분야별 지식 수준:AI 모델이 다양한 분야에서 지식을 얼마나 잘 이해하고 처리하는지를 평가하는 지표이다.
- MLU-Pro : 여러 언어에서 다분야 학습 능력을 평가하는 리더보드로, 자연어 처리 모델이 역사, 과학, 수학 등 다양한 주제를 얼마나 잘 이해하고 응답하는지를 평가한다. 이를 통해 모델의 다국어 이해 및 학습 능력을 검증할 수 있다.
- MMMU : 다중 모달 학습과 이해를 평가하는 벤치마크로, 텍스트, 이미지 등 다양한 형태의 데이터를 함께 처리하는 AI 모델의 성능을 측정한다. 여러 입력 모달을 통합하여 정확하게 예측하고 이해하는 능력을 평가한다.
종합 전문지식 수준: AI 모델이 복잡한 질문에 대해 정확하고 일관된 답변을 제공하는 능력을 평가하는 지표로, 모델이 질문의 문맥을 이해하고 다양한 정보를 기반으로 논리적이고 사실적인 답변을 생성하는지, 그리고 복잡한 추론을 처리하는 능력을 측정한다.
휴먼 선호도: AI 모델의 성능을 평가할 때, 인간의 선호도를 반영하여 모델 간의 상대적인 우수성을 측정하는 지표이다.
- 아레나 점수(Arena Score) : 챗봇 아레나에서 모델의 성능을 평가하는 점수로, 사용자들이 두 익명화된 모델이 동일한 질문에 대해 생성한 답변을 비교하고 선호하는 답변에 투표하여 모델의 우수성을 평가한다.
- 투표(Votes) : 챗봇 아레나에서 사용자가 두 모델의 답변을 비교해 선호하는 답변에 투표하는 방식으로, 이를 통해 모델 간 성능을 객관적으로 비교하고 크라우드소싱을 통해 실제 사용 환경에서의 성능을 평가한다.
추론력(Reasoning): 모델이 주어진 정보에 따라 논리적인 결론을 도출하고, 멀티스텝 추론을 통해 복잡한 문제를 해결하는 능력이다. 이 능력은 모델이 다양한 상황을 분석하고, 다단계 사고 과정을 통해 정확한 결론에 도달할 수 있는지 평가하는 데 중요하다.
다국어 추론(MGSM): 여러 언어에서 모델의 논리적 추론 능력을 평가하는 벤치마크로, 다양한 언어로 주어진 질문에 일관된 추론 수행을 확인하여, 언어적 편향 없이 추론 능력 유지에 대해 검증한다.
수학 추론 성능: LLM의 수학적 성능을 평가하는 지표로, 초등 수준부터 고급 수학(경시대회 수준) 문제까지 다양한 난이도의 평가를 포함한다.
- GSM-8k : 수학 문제를 해결하는 모델의 논리적 추론 능력을 테스트하는 데이터셋으로, 초등학교와 중학교 수준의 문제들로 구성되어 있으며 단계적 접근과 논리적 사고 능력이 요구된다.
- MATH : 대수, 기하, 확률 등 다양한 수학 영역의 복잡한 문제를 해결하는 모델의 성능을 평가하는 벤치마크로, 고급 수학적 이해와 정확한 계산 능력을 시험한다.
코딩역량:AI 모델이 코딩 문제를 해결하는 능력을 평가하는 벤치마크로, 프로그래밍 언어와 관련된 다양한 작업에서 모델의 정확성과 효율성을 검증한다.
- HumanEval : 주로 Python을 기반으로 코딩 문제를 해결하는 모델의 성능을 측정하는 벤치마크로, 작성된 코드의 정확성과 효율성을 평가한다.
- Big Code Bench : 대규모 코드 생성 및 분석 능력을 평가하는 벤치마크로, 코드 완성, 오류 감지 등 다양한 프로그래밍 언어 관련 작업에서 AI 모델의 성능을 검증한다.
AI 신뢰성: AI 시스템이 특정 조건에서 안전하고 일관되며, 예측 가능한 방식으로 작동하는지 평가하는 과정으로, 편향성, 안전성, 및 윤리적 책임을 포함한 다양한 요소를 고려한다.
- 환각대응추론(TruthfulQA) : AI 모델이 사실적이고 진실된 답변을 생성하는 능력을 평가하는 벤치마크로, 모델이 환각 현상(허구적이거나 잘못된 정보를 생성하는 현상)에 대한 대응력을 시험하며, 정직하고 정확한 답변을 제공하는지를 검증한다.
- Enkrypt Safety Score : AI 모델이 생성하는 출력의 안전성과 윤리적 적합성을 평가하는 지표로, 유해하거나 위험한 콘텐츠 없이 사회적으로 안전한 출력을 제공하는지 능력을 측정한다.
- Enkrypt Risk Score : AI 시스템의 출력이 초래할 수 있는 잠재적 위험성을 평가하는 지표로, 모델의 신뢰성을 높이는 데 필요한 위험 요인을 분석하고 개선점을 도출한다.
AI 처리 속도: AI 모델이 1초당 생성할 수 있는 출력 토큰(Output Tokens per Second)의 수로 측정된다. 이 지표는 모델의 처리 성능을 나타내며, 특히 응답 시간이 중요한 응용 프로그램에서 필수적인 성능 요소로 평가된다.
2) 비용: AI 모델을 구축하고 운영하는 데 드는 전체 비용을 평가하는 주요 지표로, 개발부터 배포, 유지까지의 경제적 부담을 측정한다.
학습 하드웨어(GPU)(Training Hardware):AI 모델 학습에 사용되는 GPU나 기타 하드웨어를 지칭하며, 대규모 데이터와 복잡한 모델을 빠르게 학습하도록 지원한다.
학습 시간(Training Time): AI 모델 학습에 소요되는 총 시간으로, 데이터 크기, 모델 복잡성, 하드웨어 성능 등에 따라 달라진다.
권장 추론 하드웨어(GPU)(Recommended Inference Hardware): 학습된 AI 모델이 실시간 응답 생성이나 예측 수행 시 사용할 가장 적합한 하드웨어를 의미한다.
예상 클라우드 이용 비용(Expected cloud usage costs): 클라우드 플랫폼에서 AI 모델 훈련 및 서비스를 제공할 때 발생하는 비용으로, GPU 사용, 데이터 스토리지, 네트워크 트래픽 등을 포함한다.
입력 1M 토큰당 비용(Input costs per 1M Tokens): AI 모델이 100만 개의 입력 토큰을 처리하는 데 드는 비용으로, AI 모델의 경제적 효율성을 평가하는 지표다.
출력 1M 토큰당 비용(Output costs per 1M Tokens): AI 모델이 100만 개의 출력 토큰을 생성하는 데 드는 비용으로, 운영 효율성과 관련이 있으며, 기존 비용 대비 성능 분석 시 고려된다.
예상 GPU 소비 전력(expected GPU power consumption): GPU가 학습 및 추론 작업 중 사용하는 전력량을 의미하며, 에너지 효율성을 판단하는 데 사용된다.
3) 개방성: AI 모델의 개방성은 모델의 학습 과정과 사용 가능한 데이터, 공개된 자료에 대한 접근성을 평가하는 지표로, 공공부문에서 모델을 재사용하거나 개선할 때 고려해야 할 요소들을 포함한다.
사전학습 데이터(Pre-training Data): AI 모델이 처음 학습할 때 사용하는 대규모 데이터셋으로, 모델이 언어나 기타 입력 데이터의 일반적인 패턴을 학습하는 데 사용된다. 본 세부 요소는 사전학습 데이터의 공개 여부를 의미한다.
사전학습 데이터 상세정보(Pre-training data properties): 사전학습 데이터의 속성에 따라 모델의 기능을 예측할 수 있으며, 공개된 데이터의 특성(멀티턴(Multi-turn) 가능 여부, 모델 학습에 활용된 데이터 정보 등)을 포함한다.
파인튜닝 데이터(Fine-tuning Data): 모델의 성능을 특정 작업에 맞춰 개선하기 위해 사용하는 데이터다. 사전 학습 후에 추가 학습을 통해 모델이 구체적이고 맞춤화된 작업을 수행할 수 있도록 조정된다.
파인튜닝 데이터 상세정보(Fine-tuning data properties): 파인튜닝 데이터의 속성에 따라 모델의 기능을 예측할 수 있으며, 공개된 데이터의 특성(멀티턴(Multi-turn) 가능 여부, SFT 단계의 데이터셋 정보, 모델 학습에 활용된 데이터 정보 등)을 포함한다.
모델 가중치(LLM Weights): 대규모 언어 모델(LLM)의 학습된 매개변수를 의미하며, 모델이 입력 데이터를 바탕으로 예측을 생성하는 데 중요한 역할을 한다. 모델의 성능과 품질에 큰 영향을 미치며, 공개된 모델의 경우 가중치 파일이 제공되어 모델을 재사용하거나 도메인에 맞게 추가 학습을 통해 맞춤형 서비스를 개발할 수 있다.
모델 아키텍처(Model Architecture):AI 모델의 구조와 설계 방식을 지칭하며, 모델이 데이터를 처리하고 학습하는 방법을 정의한다.
코드 공개(Model code):모델을 학습할 때 활용한 코드 및 추론 코드의 공개 여부를 의미한다.
라이센스(License):AI 모델이나 소프트웨어를 사용할 때 적용되는 법적 조건을 의미한다.