이번 글에서는 Document OCR 서비스 3종을 비교해보려고 한다. 비교 대상은 Google Document AI, Clova OCR, Upstage OCR이다.
테스트에 사용한 문서는 다음 3가지이다.
- 등기부등본
- 영수증
- 병원 진료비 납입 확인서
테스트 환경
각 서비스의 무료 플랜 또는 플레이그라운드에서 테스트를 진행했다.
1. 등기부등본 OCR 테스트
등기부등본은 복잡한 표 구조를 가지고 있어 OCR 성능을 테스트하기에 적합한 문서라고 판단했다.
개인 정보에 해당하는 부분들은 마스킹 처리하였고, 테스트 시에는 마스킹 없이 진행했다.
Google Document AI 결과

평가:
- ✅ 한글 인식률은 우수함
- ❌ 표의 구획을 제대로 나누어서 추출하지 못함
- ❌ 표 구조 파악 실패로 인해 실제 사용성이 낮음
Clova OCR 결과


평가:
- ✅ 표 추출이 대부분 정확함
- ✅ 오타가 거의 없음
- ✅ 실제 업무에 활용 가능한 수준
아쉬운 점
[표제부]에서 표제부만 나오고 ]는 뒤 셀에 추가되는 문제가 발생했다.
이 정도의 오차는 크게 문제되지 않는다고 생각하지만, 서비스 간 비교를 위해 기록한다.
결과물은 파일로 다운로드할 수 있는데, 엑셀과 JSON 중 선택할 수 있다. JSON으로 다운로드하면 아래 캡처와 같이 나오는데, 실제 값을 사용하려면 가공 작업이 필요하다.
반면 뒤에 나올 Upstage의 경우 결과물 포맷을 HTML, Markdown, Inner Text 등으로 선택할 수 있어 비교적 쉽게 활용할 수 있다.

Upstage OCR 결과


평가:
- ✅ 표 레이아웃 정확도가 가장 높음 (해당 테스트 파일에서는 잘못된 레이아웃이 없었음)
- ✅ 오타가 거의 없음
- ✅ Clova OCR보다 우수한 결과를 보임
아쉬운 점
셀 안에 개행이 되어 있는 경우, 추출된 정보에서는 개행 없이 모두 붙어서 나오는 문제가 있다. 이번 등기부등본 케이스에서는 문제가 없었지만, 다른 문서에서는 이 점을 염두에 둘 필요가 있다.
등기부등본 비교 요약
| 항목 | Google Document AI | Clova OCR | Upstage |
|---|---|---|---|
| 한글 인식률 | ⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐ |
| 표 추출 정확도 | ⭐ | ⭐⭐ | ⭐⭐⭐ |
| 실사용 가능성 | ⭐ | ⭐⭐⭐ | ⭐⭐⭐ |
2. 영수증 OCR 테스트
영수증을 찍을 때 회사에 증빙하는 경우가 아니면 깔끔하게 찍지 않는 경우가 많다. 그래서 이번에는 대충 찍은 영수증 사진으로 어떤 결과가 나오는지 테스트해보았다. 대충 찍은 사진도 잘 처리하는 제품이라면, 깔끔한 영수증 사진은 더 잘 처리할 것이라고 가정했다.
⚠️ 참고: Clova OCR의 경우 영수증 OCR은 무료로 제공되지 않으며, 플랜 업그레이드 시 기본 월 비용이 발생한다. 따라서 이번 테스트에서는 Clova OCR을 제외하고 Google Document AI와 Upstage만 비교했다.
원본 이미지 (흐릿한 영수증)

Google Document AI 결과 (흐릿한 영수증)

평가:
- ✅ 각 품목 라인을 잘 추출함
- ❌ 승인번호 등 일부 정보를 인식하지 못함
Upstage OCR 결과 (흐릿한 영수증)

평가:
- ✅ 승인번호, 주소 등 희미한 부분도 잘 추출함
- ❌ 각 품목 라인을 잘못 추출함
원본 이미지 (긴 마트 영수증)
아래 영수증은 놀러 갔을 때 마트에서 장 본 영수증이다.

Google Document AI 결과 (긴 마트 영수증)
영수증을 분석시켜 보니 대부분 잘 추출되었으나, 인식되지 않은 항목도 있었다. 또한 한 라인에 상품명, 수량, 단가, 금액이 구분되어 있는데, 이를 제대로 구분하지 못한 경우가 꽤 많았다.

평가:
- ❌ 긴 영수증에서 상품 구매 이력을 정확하게 가져오지 못함
- ❌ 항목별 구분이 명확하지 않음
Upstage OCR 결과 (긴 마트 영수증)
1차 시도 (살짝 기울어진 사진)
원본 사진이 살짝 기울어져 있었는데, 이 상태로 시도하니 항목 이름에 다른 상품의 단가와 금액이 매칭되는 오류가 발생했다.

평가:
- 대부분의 항목을 추출했으나, 단가와 금액이 다른 항목과 매칭되는 오류가 있었다.
2차 시도 (기울기 보정한 사진)
기울어진 영수증 사진을 바르게 보정하여 다시 시도했다.

그러나 영수증 하단의 집계 영역에서 문제가 발생했다. Total Subtotal Price가 면세물품으로 인식되었는데, 실제로는 24,028원의 과세물품으로 추출되어야 했다.

평가:
- ✅ 각 항목이 혼동 없이 잘 추출됨
- ❌ 집계 영역에서 과세물품을 면세물품으로 잘못 인식함
영수증 비교 요약
| 항목 | Google Document AI | Clova OCR | Upstage |
|---|---|---|---|
| 흐릿한 이미지 인식 | ⭐⭐⭐⭐ | 테스트 제외 | ⭐⭐⭐ |
| 긴 영수증 항목 추출 | ⭐⭐ | 테스트 제외 | ⭐⭐⭐⭐ |
| 무료 테스트 제공 | ⭐⭐⭐⭐ | ❌ | ⭐⭐⭐⭐ |
3. 병원 진료비 납입 확인서 OCR 테스트
구글 제품은 테스트하지 않았는데 이유는 표 형식일 경우 추출이 잘 되지 않음을 위에서 확인하였고 또 실제 테스트에도 잘 되지 않음을 확인하였기 때문이다.
병원 진료비 납입 확인서는 표와 텍스트가 혼합된 문서로, 실생활에서 자주 사용되는 문서 유형이다.
원본 이미지
개인정보만 지우면 문제가 없을 것 같지만, 혹시 몰라 병원 정보도 마스킹 처리했다.

Google Document AI 결과

평가:
- ✅ 텍스트 인식률은 우수함
- ❌ 표 구조를 파악하지 못해 데이터가 뒤섞여서 추출됨
Clova OCR 결과

평가:
- ✅ 표 추출이 대체로 잘됨
- ⚠️ 셀 병합 처리가 되지 않은 부분이 일부 있음
- ✅ 그 외에는 문제없이 추출되어 실사용 가능한 수준
Upstage OCR 결과

평가:
- ✅ 표 추출이 완벽하게 이루어짐
- ⚠️ 작성 일자란 옆에 병원 정보가 담긴 도장이 있어 “서울특: 강서구 2025년“과 같이 혼합 추출되는 문제 발생
병원 진료비 납입 확인서 비교 요약
| 항목 | Google Document AI | Clova OCR | Upstage |
|---|---|---|---|
| 한글 인식률 | ⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐ |
| 표 추출 정확도 | ⭐ | ⭐⭐ | ⭐⭐⭐ |
| 도장/워터마크 처리 | ⭐⭐ | ⭐⭐ | ⭐⭐ |
최종 결론
종합 비교표
| 항목 | Google Document AI | Clova OCR | Upstage |
|---|---|---|---|
| 한글 인식률 | ⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐ |
| 표 추출 정확도 | ⭐ | ⭐⭐ | ⭐⭐⭐ |
| 흐릿한 영수증 추출 | ⭐⭐⭐⭐ | 테스트 제외 | ⭐⭐⭐ |
| 영수증 항목 추출 | ⭐⭐ | 테스트 제외 | ⭐⭐⭐⭐ |
| 결과물 활용 편의성 | ⭐⭐ | ⭐⭐ | ⭐⭐⭐ |
용도별 추천
- 표가 많은 공문서 (등기부등본, 계약서 등): Upstage OCR 추천
- 흐릿하거나 품질이 낮은 이미지: Google Document AI 또는 Upstage OCR 비교 후 선택
- 긴 영수증 또는 구매 내역 추출: Upstage OCR 추천
총평
전반적으로 Upstage OCR이 표 추출과 구조화된 데이터 추출에서 가장 우수한 성능을 보였다. 특히 등기부등본과 같은 복잡한 표 구조를 가진 문서에서 확연한 성능 차이를 보였다. 또한 HTML, Markdown 등 다양한 출력 포맷을 지원하여 결과물 활용 측면에서도 장점이 있다.
다만 이미지 품질이 좋지 않은 경우에는 Google Document AI이 더 나은 결과를 보여주었다. 흐릿한 영수증 테스트에서 품목 라인 추출은 Google Document AI이 더 정확했다.
Clova OCR의 경우 성능은 준수하지만, 영수증 OCR은 무료로 제공되지 않아 간편한 테스트가 어렵다는 점이 아쉬웠다.
결론적으로, 문서 유형과 이미지 품질에 따라 적절한 서비스를 선택하는 것이 좋겠다.