)가 한국어 실무에 강한 LLM(Large Language Model, 거대언어모델)인 '알파-인스트럭트(Alpha-Instruct)’를 출시한다고 3일 밝혔다.
올거나이즈, 한국어 실무에 특화된 LLM ‘알파-인스트럭트’ 오픈소스로 출시
올거나이즈의 알파-인스트럭트 모델은 메타의 오픈소스 LLM인 ‘라마3’를 기반으로 제작된 파라미터(매개변수) 8B(80억) 규모의 경량 LLM이다. 한국어를 잘 이해할 수 있도록 라마3를 개량한 모델과 지시 사항을 따르는 데 특화된 라마3의 인스트럭트 모델을 병합하는 방식으로 제작됐다. 이후 보편적인 답변 선호도를 반영한 지시 사항 데이터 세트 2000개를 추가 학습시켜 동일 대답 반복, 불필요한 영어 대답 등의 오류를 최소화했다.
알파-인스트럭트 모델은 한국어 이해도가 높아 문서 생성 및 요약 등의 실무에 특화돼 있다. 한국어 언어모델의 다분야 사고력을 측정하는 ‘Logickor’ 리더보드에서도 높은 점수를 기록하고 있다. Logickor는 한국어 추론, 수학, 글쓰기, 코딩, 이해 등의 요소를 측정하며, 올거나이즈의 알파-인스트럭트 모델은 글쓰기 및 이해 부분에서 높은 점수를 기록 중이다.
올거나이즈는 알파-인스트럭트 모델을 오픈소스로 공개해 라이선스 제한 없이 누구나 자유롭게 사용 가능하다. 올거나이즈의 알리 플랫폼 내에서 알파-인스트럭트 모델을 사용할 수도 있으며, 기업 맞춤형 특화모델로 파인튜닝하거나 LLM을 내부 데이터에 연결해서 검색증강생성(RAG) 솔루션과 자유롭게 결합해 활용할 수 있다.
한편 올거나이즈는 알리(Alli) 플랫폼을 통해 기업용 LLM 인에이블러(Enabler) 서비스를 제공하고 있다. 다양한 오픈소스 LLM 모델을 이용한 LLM 앱 개발 도구 및 미리 개발된 LLM 앱들을 앱 마켓 형태로 제공하며, 금융 특화 LLM ‘알파-F(Alpha-Finance)’를 비롯해 산업·기업별 특화 언어 모델을 제작해 기업들에 공급하고 있다.
이창수 올거나이즈 대표는 “완성도 높은 한국어 모델을 만들기 위해 공들여 데이터 세트를 구성하고, 다양한 방법론에 대한 수많은 테스트를 거쳐 극히 적은 리소스만으로 성능 좋은 모델을 만들 수 있었다”며 “앞으로도 최신 오픈소스 모델의 성능을 계속 평가하고, 고객이 효율적으로 잘 활용할 수 있는 모델을 지속적으로 만들어 나갈 것”이라고 밝혔다.