2024년 최고의 자동 자막 프로그램 비교 분석 및 추천: 프리미어 프로, 컷백, 캡컷, 브루, 위스퍼

Premiere Pro
Premiere Pro

영상 제작에서 자막은 더 이상 선택 사항이 아닙니다. 자막은 시청자 유지율을 높이고, 공공장소에서도 이어폰 없이 영상을 시청할 수 있게 도와줍니다. 또한, 자막을 통해 검색 엔진 최적화(SEO)가 가능하여 더 많은 사람들이 영상을 찾고 시청하게 할 수 있습니다.


자막 작업을 해야 하는 이유

시청자 유지율 증가

  1. 이해도와 정보 전달력 향상: 자막이 있는 영상은 내용을 더 쉽게 이해할 수 있으며, 짧고 간결한 자막은 시청자의 이해도와 기억력을 높입니다.

  2. 영상 완주율 증가: 연구에 따르면 자막이 있는 영상은 시청자들이 끝까지 시청할 확률이 80% 더 높습니다.

조회수 증가

  1. 조회수 40% 증가: Plymedia의 연구에 따르면 자막을 추가하면 영상 조회수가 40% 증가합니다.

  2. 다양한 시청자층 확보: 청각 장애인, 노인, 비원어민 등 더 넓은 범위의 시청자가 접근할 수 있게 됩니다.

  3. SEO 향상: 자막을 통해 검색 엔진이 영상의 내용을 인덱싱할 수 있어 검색 결과에 더 잘 나타나게 됩니다.

  4. 다국어 자막 제공: 다양한 언어로 자막을 제공하면 국제적인 시청자층을 확보할 수 있습니다.

추가 혜택

  • 참여도 향상: 자막은 시청 시간을 늘리고, 더 많은 좋아요, 공유, 댓글을 유도합니다.

  • 교육적 가치: 자막은 학습 콘텐츠의 이해도를 높여 자기 계발 및 교육 영상에 특히 유용합니다.


자동 자막 프로그램을 이용해야하는 이유

직접 자막을 입력하는 것은 매우 오래 걸리고 스트레스를 받는 고된 작업입니다. 따라서 기계가 대신 입력해주는 자동 자막 프로그램을 이용하는게 좋습니다. TTS(text-to-speach)라고 불리우는 이 기술은 다행히도 최근 AI의 발전으로 다양한 자동 자막 생성 도구가 등장했습니다. 하지만 성능을 알기 위해서는 실제로 사용해봐야 합니다. 이번 글에서는 많이 사용되는 자동 자막 도구들을 비교 분석해 보겠습니다.


자동 자막 프로그램을 선택할 때 고려해야 할 사항

좋은 자동 자막 프로그램을 선택하기 위해서는 다음 다섯 가지 기준을 면밀히 살펴봐야 합니다:

1. 인식 시간

  • 자막 인식에 걸리는 시간이 중요합니다. 특히 긴 영상일수록 인식 시간이 짧아야 효율적입니다.

  • 빠르게 인식하기 위해 고사양 GPU가 필요하다면 쉽게 사용하기 어렵습니다.

2. 정확도

  • 가장 중요한 기준입니다. 부정확한 자막은 수정에 많은 시간이 소요됩니다.

  • 다음 요소들의 정확도를 체크해야 합니다:

    • 일반적인 단어와 문장

    • 전문 용어와 고유명사

    • 말끝을 흐리거나 발음이 불분명한 경우

    • 배경 소음이 있는 상황

  • AI의 '할루시네이션' 문제: 실제로 말하지 않은 내용을 생성하는 경우가 있어 주의가 필요합니다.

3. 단어 단위의 시간 싱크

  • 정확한 타이밍은 자막 편집과 시청자 경험에 큰 영향을 미칩니다.

  • 중요한 이유:

    • 자막 길이 조절 시 필요 (긴 자막을 나누거나 짧은 자막을 합칠 때)

    • 영상 편집 시 자막 위치 조정에 필수적

    • 자막 사이 간격 조절에 필요 (자막이 깜빡이는 현상 방지)

4. 자막 편집의 편리함

  • 효율적인 워크플로우를 위해 중요한 요소입니다.

  • 고려해야 할 기능들:

    • 단축키 지원 여부

    • 자막 줄 나누기/합치기 기능의 편의성

    • AI를 활용한 자동 문맥 정리 기능

    • 중복 내용 감지 기능

    • 맞춤법 검사 기능

5. 영상 편집기와의 호환성

  • 사용 중인 편집 프로그램과의 원활한 연동이 작업 효율을 크게 좌우합니다.

  • 고려사항:

    • 편집 프로그램에 직접 자막 삽입 가능 여부

    • SRT, VTT 등 다양한 포맷으로 내보내기 지원

    • 타임라인에 자막 트랙 생성 기능


자동 자막 프로그램 비교

오늘은 영상 편집자들이 가장 많이 이용하는 자막 인식 프로그램들인 프리미어 프로, 컷백, 캡컷, 브루, Whisper, Subtitle Edit, Whisper Transcription을 비교해보려고합니다.

모두 같은 영상으로 테스트를 진행했으며, 야외 벤치에서 촬영한 1분짜리 영상입니다. 영상 음질이 나쁜편은 아니나 전용 마이크가 아닌 에어팟으로 녹음했기 때문에 최상의 컨디션은 아닙니다.


프리미어 프로 (Premiere Pro)

프리미어 프로에 내장된 자동 자막 기능입니다.

인식 시간: 5점 (약 10초) ⭐⭐⭐⭐⭐

  • 매우 빠른 처리 속도를 보여줍니다.

정확도: 2점 ⭐⭐

  • 일반적인 대화에서도 오류가 많이 발생합니다.

  • 전문 용어나 고유명사 인식률이 낮습니다.

단어 단위 시간 싱크: 2점 ⭐⭐

  • 단어 단위 싱크를 제공하지 않아 정교한 편집이 어렵습니다.

  • 자막 줄을 나누면 싱크가 틀어지는 문제가 있습니다.

  • 자막 사이에 불필요한 간격이 생겨 수동 조정이 필요합니다.

자막 편집 편리성: 2점 ⭐⭐

  • 단축키 지원이 부족합니다.

  • 줄을 나누고 합치는걸 제공하는게 아니라 똑같은 캡션을 복사하고, 시간을 절반 가져다 나누게 되어있습니다. 그렇기 때문에 자막을 나눌 때 시간을 손으로 조정하고 중복 되는 부분을 일일이 삭제해야합니다.

  • 자막을 나눌 때 자연스러운 맥락에서 나눠주는 편입니다.

  • 자막 최대 길이는 자막을 만들기 전에만 설정 가능하며, 그 이후 설정할 수 없습니다.

호환성: 3점 ⭐⭐⭐

  • 프리미어 프로를 이용한다면 프리미어 프로 내에서 바로 캡션 트랙으로 추가할 수 있어서 편리합니다.

  • SRT 포맷으로 내보내서 다른 편집기에서 불러오기가 가능합니다.


컷백 (Cutback)

프리미어 프로의 플러그인으로 한국어에 특화된 자막 AI를 이용합니다.

인식 시간: 5점 (약 15초) ⭐⭐⭐⭐⭐

  • 빠른 처리 속도를 보여줍니다.

정확도: 5점 ⭐⭐⭐⭐⭐

  • 테스트 결과 오타가 거의 없습니다.

  • 자막을 인식하기 전에, AI가 인식하기 어려운 용어를 받아서 정확도를 높혀주기 때문에 전문 용어와 고유명사 인식률이 높습니다.

  • 말끝을 흐리는 경우에도 정확히 인식합니다.

단어 단위 시간 싱크: 5점 ⭐⭐⭐⭐⭐

  • 정확한 단어 단위 싱크를 제공합니다.

  • 자막 나누기/합치기 시에도 싱크가 유지됩니다.

  • 자막 간 불필요한 간격이 없습니다. 그렇기 때문에 자막이 깜박거리는 현상을 방지하기 위해 자막 시간을 조정할 필요가 없습니다.

자막 편집 편리성: 5점 ⭐⭐⭐⭐⭐

  • 다양한 단축키를 지원합니다.

  • 키보드만으로도 자막 편집 작업이 가능합니다.

  • 기본적으로 자연스럽게 나뉘어지며, AI를 이용해서 원하는 최대 자막길이 내 문맥에 맞게 다시 정렬해주는 기능이 있습니다.

  • AI 내용 요약 기능으로 자막으로 문맥에 맞게 문단을 나누고, 내용을 요약해줍니다.

  • AI 중복 내용 감지 기능으로 중복되는 자막을 빠르게 파악할 수 있습니다

  • 맞춤법 검사 기능을 제공합니다.

영상 편집기와의 호환 (4점) ⭐⭐⭐⭐

  • 프리미어를 이용한다면 5점입니다. srt를 내보낼 필요 없이 바로 프리미어 트랙에 추가할 수 있습니다.

  • SRT 포맷으로 내보내서 다른 편집기에서 불러오기가 가능합니다.

  • 또한 요약과 자막을 일반 텍스트 파일로 내보내서 다른 사람들과 공유 가능합니다.


캡컷 (CapCut)

TikTok의 개발사가 만든 영상 편집 앱입니다.

인식 시간: 5점 (약 15초) ⭐⭐⭐⭐⭐

  • 빠른 처리 속도를 보여줍니다.

정확도: 3점 ⭐⭐⭐

  • 일반적인 대화는 잘 인식하지만, 가끔 오류가 발생합니다.

  • 전문 용어나 고유명사 인식에 어려움이 있습니다.

    • 음질이 음식으로 인식되고 위스퍼가 리스퍼로 인식되었습니다.

단어 단위 시간 싱크: 2점 ⭐⭐

  • 단어 단위 싱크를 제공하지 않습니다.

  • 그렇기 때문에 자막 나누기 시 싱크가 틀어지는 경우가 있습니다.

  • 자막 간 불필요한 간격이 생겨 수동 조정이 필요합니다.

  • 자막을 나누는게 문맥에 맞게 나누는 것이 아닌 글자 수로만 나누기 때문에 다시 맞춰줘야 하는 불편함이 있습니다.

자막 편집 편리성: 2점 ⭐⭐

  • 단축키 지원이 매우 부족합니다. enter와 delete로 줄을 나누고 합치는 정도만 가능합니다.

  • 마우스를 계속 이용해야 합니다.

호환성: 2점 ⭐⭐

  • 캡컷 내에서만 사용 가능합니다.

  • SRT 내보내기는 유료 기능입니다.


브루 (Vrew)

AI 기반의 영상 편집 및 자막 생성 도구입니다.

브루는 위스퍼, 구글, 아마존 세 가지 모델을 제공하고 있습니다. 보통 위스퍼를 가장 많이 이용하기 때문에 위스퍼를 사용해서 테스트했습니다.

인식 시간: 2점 (약 3분) ⭐⭐

  • 다른 프로그램들에 비해 처리 시간이 깁니다.

정확도: 4점 ⭐⭐⭐⭐

  • 대체로 정확하지만 가끔 오류가 발생합니다.

    • 음질이 움직임으로, 위스퍼가 리스퍼로 인식되었습니다.

    • "자막 인식 정확도"가 "자막인식정확도"라는 한 단어로 인식되었습니다.

      (음질이 움직임으로 인식됨)

단어 단위 시간 싱크: 3점 ⭐⭐⭐

  • 단어 단위 싱크를 제공하지만, 뒤에 비교된 이미지를 보시면 아시겠지만 정확도가 다소 떨어집니다.

  • 자막 사이에 빈 공간이 있어서 자막이 깜박이는 구간들이 있습니다. 별도로 늘려주는 작업이 필요합니다.

자막 편집 편리성: 4점 ⭐⭐⭐⭐

  • 다양한 단축키를 지원합니다.

  • 키보드만으로도 자막 수정 작업이 가능합니다.

  • 맞춤법 검사 기능을 제공합니다.

호환성: 4점 ⭐⭐⭐⭐

  • 브루로 영상 편집을 한다면 매우 편리합니다.

  • SRT 포맷으로 내보내서 다른 편집기에서 불러오기가 가능합니다.


Whisper 직접 이용 (Whisper Transcription Pro, Subtitle Edit)

OpenAI에서 개발한 오픈소스 음성 인식 모델을 직접 사용하는 방법입니다. 여러 AI 모델을 제공하는데, 그 중에 내가 원하는 모델을 컴퓨터에 다운 받고 실행 프로그램을 설치해야합니다. 가장 많이 사용하는 large model 기준으로 약 3GB의 용량을 차지합니다. 또한 GPU가 없는 경우 속도가 느릴 수 있습니다.

Python 등 개발로 직접 설치하시는건 개발을 모르는 분들이라면 많이 어렵기 때문에 보통 맥 사용자는 Whisper Transcription를 이용합니다. 윈도우 사용자는 Python을 이용하여 설치한 후 Subtitle Edit과 같은 프로그램을 이용하여 편집합니다.

인식 시간: 2점 (컴퓨터의 사양에 따라 몇 십 초~몇 분) ⭐⭐

  • 사용자의 컴퓨터 성능에 따라 차이가 큽니다.

  • GPU가 없으면 처리 시간이 매우 깁니다.

정확도: 4점 ⭐⭐⭐⭐

  • 대체로 정확하지만 가끔 오류가 발생합니다.

  • 최신 모델(large-v3)은 정확도가 높지만, 영상과 전혀 관련이 없는 자막이 나타나는 '할루시네이션' 문제가 자주 발생합니다.

단어 단위 시간 싱크: 3점 ⭐⭐⭐

  • 단어 단위 싱크를 제공하지만, 뒤에 비교된 이미지를 보시면 아시겠지만 정확도가 다소 떨어집니다.

  • 자막 사이에 빈 공간이 있어서 자막이 깜박이는 구간들이 있습니다. 별도로 늘려주는 작업이 필요합니다.

자막 편집 편리성: 편집 기능 제공 안함

  • 위스퍼는 srt로 인식만 하고 편집 기능은 제공하지 않습니다.

  • 다른 편집 프로그램을 이용해야합니다. 윈도우의 경우 Subtitle Edit을 많이 이용하는데, 이 프로그램의 경우 고급 편집 기능을 제공하지만, 처음에 익숙해지기 위해 학습하는데 시간이 좀 걸립니다.

  • 대부분의 도구가 영어 인터페이스만 제공합니다.

호환성: 2점 ⭐⭐

  • SRT 등 다양한 포맷으로 내보내기가 가능합니다.

  • 하지만 편집을 위해서는 영상 프로그램과 별개로 자막 편집 프로그램을 또 사용해야하는 것이 불편합니다.


단어 단위 시간 싱크 결과 종합 비교

이번에는 실제 단어 단위의 싱크 결과를 비교해보겠습니다.

  • 분홍색: 실제 말의 부분을 제가 따로 기록한 정답지입니다.

  • 파란색: Whisper의 large-v2 모델입니다.

  • 초록색: 컷백(Cutback)입니다.

  • 보라색: Whisper 모델을 이용한 브루(Vrew)입니다.

보시면 아시겠지만 각 프로그램마다 결과가 많이 다릅니다. 앞서 말씀드린대로 자막이 깜박거리지 않고, 수동으로 시간을 조정하는 작업을 줄이기 위해서는 오타 뿐만 아니라 단어 단위의 싱크가 정확해야합니다.

단어 사이에 공백이 많으면, 자막으로 만들었을 때 몇 프레임씩 빈 부분이 생겨 단어가 깜박거리는 현상이 발생합니다. 이런 부분을 수동으로 시간을 늘려 잡아줘야하는데 초록색(컷백)의 경우 정말 긴 공백이 아닌 이상 여백을 두지 않습니다. 다른 색들은 중간에 비어있는 부분이 많아서 수동으로 잡아주는 작업을 추가로 해야합니다.

그리고 분홍색인 정답과 가장 타이밍이 비슷한 것도 초록색(컷백)입니다. 다른 색은 간혹 엉뚱한 곳에서 시간이 시작하거나 끝나는 경우가 있었습니다.



결론

테스트 결과를 정리하면 다음과 같습니다.

사용하는 영상 편집기에 따라 적합한 자동 자막 도구가 다릅니다. 많이 이용하시는 프리미어 프로를 사용하는 경우 어려 부분에서 많이 부족한 프리미어 프로의 기본 기능이나 다른 프로그램을 번갈아가면서 사용해야하는 것보다 컷백이 가장 정확하고 편리합니다.

현재 이용중이신 영상 편집 프로그램과 각 프로그램의 장단점을 고려하여 최적의 선택을 하시기 바랍니다.

컷백(Cutback)

상호명: 주식회사 컷백
사업자등록번호: 530-86-03384
대표: 김담형
주소: 서울 강남구 테헤란로 217 2층
통신판매업 신고번호: 2024-서울성동-0664
문의: support@cutback.video

리소스

Korean

컷백(Cutback)

상호명: 주식회사 컷백
사업자등록번호: 530-86-03384
대표: 김담형
주소: 서울 강남구 테헤란로 217 2층
통신판매업 신고번호: 2024-서울성동-0664
문의: support@cutback.video

리소스

Korean

컷백(Cutback)

상호명: 주식회사 컷백
사업자등록번호: 530-86-03384
대표: 김담형
주소: 서울 강남구 테헤란로 217 2층
통신판매업 신고번호: 2024-서울성동-0664
문의: support@cutback.video

리소스

Korean