AI 최적화 | Notion

문제 상황 및 배경

저희는 “**사용자가 학습한(정리) 내용을 바탕으로 맞춤형 문제를 생성해주는 서비스”**를 개발하고 있습니다.

현재 프로젝트의 핵심인 모의고사 생성 API의 QA 과정에서 여러 문제점들을 발견했고 이 글에서는 기존 모의고사 API가 가진 문제점들을 분석하고 이를 해결하기 위한 과정을 공유하고자 합니다.

현재 모의고사 API의 문제점

우리 서비스에서 현재 선택 가능한 모의고사 유형은 6가지 문제 유형이 존재합니다.

모든 유형의 생성 조건을 담은 프롬프트는 하나의 파일로 관리되었으며 이 프롬프트의 길이는 5,096자에 달했고, 사용자의 입력값(학습 내용)은 대략 1,000~10,000자까지 매우 유동적이었습니다.

문제 유형
프롬프트

이러한 구조는 다음과 같은 네 가지 주요 문제점을 야기했습니다.

결과물의 일관성 및 정확도 부족

→ AI 모델이 방대한 프롬프트를 완벽하게 이해하지 못했습니다. (6가지 문제 유형별 특징을 제대로 반영하지 못해 좋지 않은 품질의 문제 생성)

→ 요청한 20문제를 생성하지 못하고 5~17개 사이를 유동적으로 반환하는 점이었습니다.

→ 일정하지 않은 JSON 형식으로 반환되어 파싱 과정에서 오류가 비번하게 발생하였습니다.
사용자 입력에 따른 품질 저하

→ 사용자 입력의 길이에 따라 결과물의 편차가 컸습니다.
- 입력이 적을 경우 : 비교적 문제 품질은 높았지만 전체 내용 중 특정 주제의 문제만 편중되어 출제되는 경향이 있었습니다.
- 입력이 많을 경우 : 오히려 문제 품질이 크게 하락했으며,여러 번 요청을 보내도 항상 동일한 1번 문제가 생성되는 등 결과의 다양성이 부족했습니다.
- 낮은 품질의 문제 예시

해결을 위한 시도와 새로운 난관

문제 해결을 위해 사용 중인 HCX-007 모델의 '추론 정도' 옵션을 활성화해 보았습니다.

이 시도는 긍정적인 변화를 가져왔습니다. 문제 수가 소폭 증가했고 복잡했던 프롬프트의 조건들을 이전보다 조금 더 준수했지만 여전히 정확도가 실서비스 수준까지 올라오지 않았고 추가적인 문제가 발생하였습니다.
- 속도 문제: 가장 큰 문제는 API 요청 후 응답까지 5분에서 최대 10분이 소요된다는 점이었습니다. 이로 인해 사용자가 응답을 기다리다 이탈하거나 API 요청이 타임아웃으로 중단되는 등 서비스의 근간을 흔드는 문제가 발생했습니다.

리펙토링 목표

일관성

~~→ 항상 정확히 20개의 문제 or 추후 기획에 따라 원하는 문제의 수를 생성해야 한다.~~ (Structured Outputs 해결)

~~→ 항상 동일한 JSON 형식으로 반환되어야한다.~~ (Structured Outputs 해결)