선 요약:
1. ChatGPT를 만든 곳에서 Whisper라는 자막 만드는 프로그램을 '오픈 소스'로 작년에 공개함.
2. 사용해 보니 자막 정확도가 높다.
3. 3~4시간 분량의 영상이면 1시간 정도 걸린다. (구글 무료 서버 기준)
4. 침투부는 대략 1만 시간의 분량. 100일 정도 걸리니까, 가능은 하다.
5. AI 침착맨은 멀지 않을지도?
1.
OpenAI는 ChatGPT와 DALLE로 유명한 AI 연구단체임.
여기서 작년에 Whisper라고 영상이나 음성을 넣으면 글자로 바꿔주는 Speech-to-Text 모델을 공개함.
공짜임. MIT 라이센스로 상업적 활용도 풀려있는듯.
친절하신 분들이 구글 Colab에서 사용할 수 있게 만들어 놓은 노트를 켜고,
클릭 몇 번 하면,
자막을 생성해 줌.
2.
유튜브 자동 생성 자막, 그리고 인간이 들리는 대로 쓴 자막과 비교를 해보자.
YouTube:
Whisper: 시청해주셔서 감사합니다.
Human: (작은 TV소리) 이에 맞서는 또 한 명의 승부사. (그 뒤론 잘 안들림)
Y: 아 얘가 거 많이 보러 예 으 아
W: 이거 할라고? 아니 와봐
H: 이거 할라고? 아니 와봐. 와봐
Y: 으 가둬놓고 스텔라 고 으
W: 왜? 가둬놓고 탈라고? 아니
H: 왜? 가둬놓고 팰라고? 아니
Y: 이렇게 느껴 설치 주려고 또 빵 아 [웃음]
W: 왜 이렇게 늦게 왔어 뒤질려고
H: 왜 이렇게 늦게 왔어 뒤질려고 [통 웃음]
Y: 뒤지고 싶어요 어떻게 개막 0 좀 한다고 했잖아요
W: 뒤지고 싶냐? 나 개 맡겨놓고 온다고 했잖아
H: 뒤지고 싶냐? 나 개, 개 맡겨놓고 온다고 했잖애
Y: 그렇게 키우는게 뭐
W: 그러니까 개 키우는 게 뭐?
H: 그러니까 개 키우는 게 뭐?
Y: 주세요 주세요 으 어 창조해 냐 아
W: 유세야 상전이야? 국회의원인데?
H: 유세야. 유세야? 응. 어? 상전이야? 국회의원이야.
Y: 상장 쑥 애니 뒤지기 시험 빨리빨리 다녀요 아 그러셨어요
W: 국회의원인데? 뒤지기 싫으면 빨리 빨리 다녀라 알았어 알았어
H: 어 상전. 국회의원인디? 뒤지기 싫으면 빨리빨리 다녀라. [하!] 알았어 몰랐어?
훌륭하다.
말 소리 겹칠때나, 탈라고 -> 팰라고 정도만 빼면 거의 완벽하다.
3.
긴 영상도 될까?
침투부 최고의 시청 영상인 삼국지 통합본 5시간짜리를 넣고 돌려보자.
(어째서인지 이 영상은 유튜브의 자동생성 자막이 안 붙어있다. 유튜브의 자동생성 기준은 정말 모르겠다. 오락가락한다.)
짧은 영상들 돌려본 경험상, 대충 5시간 영상이면 1시간 15분이 걸릴 것 같았으나...
막상 돌려보니 2시간 걸렸음.
공백 없이 말이 계속 있는 영상이라 조금 오래걸린 것일지도?
아무튼 긴 영상도 이렇게 결과가 잘 나옵니다.
띄어쓰기 포함 156,797자로 책 한 권 정도임.
AI로 받아쓰기 하고, 인간이 검수하면 바로 책으로 만들 수 있을 듯.
출판사 제안이 있었는데 거절하셨다는 이야기 전에 하신 거 같기도?
4.
코딩 공부하다가 이런 사이트 만들어서 침하하에 갔었는데,
( https://chimlang.pythonanywhere.com 동접 1인까지만 가능 ㅎㅎ )
사이트를 만들면서 보니, 자동 자막이 안 달린 영상이 30%나 됨.
자동 자막 퀄리티도 (몇 년 전보다는 많이 좋아졌지만) 여전히 필요한 거 검색으로 찾기에는 부족하다 느낌.
Whisper로 직접 자막을 추출하는 거 가능할까?
침착맨 트위치 생방 전체 시간은 9665시간. ㄷㄷㄷ
아프리카 시절 포함하면 1만 시간?
5시간 영상이 2시간이 걸렸으면...
10,000시간이면 4,000 시간? 그럼 167일?
RTX 3070 정도만 돼도 서너배 더 빠르다고 하니 50일?
10명 정도만 구하면 5일?
결론: 가능은 하다.
5.
1만 시간의 영상.
그러고 보면 이 정도로 데이터가 많은 대상은 드물듯?
AI로 만들기 딱 좋을 듯.
챗 GPT4 유료 버전은 2만 5천 자까지 입력된다는데, 침착맨 삼국지에서 2만 5천 자 골라서 넣고 돌리면 미국 가버린 삼국지 장수 시리즈를 생성할 수 있을까?
다음 시간에 계속 (계속안함)