용건만 간단히, 움짤은 한 번 더 생각
금병영에 상의하세요
야생의 이벤트가 열렸다
즐겨찾기
최근방문

침착맨 영상 검색기 제작 후기(with GPTs)

침착한검새끼
24.04.18
·
조회 6016

AI업계에 머물다 세상(회사)에 출사표(퇴직서)를 던지고 프리랜서(백수)로서 2개월…

요새 핫하디 핫한 LLM을 이용해서 뭔가 대단한 것을 만들어 세상을 바꾸고 싶다는 생각으로 뛰쳐 나왔으나

현실은 시궁창.. ㅎ

 

뭐라도 해봐야겠다는 생각에 나온 아이디어 ‘침착한 검색기’!!

‘침투부 찾아요’ 게시판에서 착안하여 해당 게시판의 역할을 할 수 있는 앱을 만들어 봐야겠다 결심.

재밌을 것 같기도 하고 요새 기업들 사이에서 가장 수요 높은 기능과 유사한 AI 기술 스택을 필요로 하기 때문에 단순 경험으로써도 나쁘지 않겠다 생각.

 

그리하야 ‘침착한 검색기’ 프로젝트 시작!

처음은 즐거웠음.. 처음엔..

가벼운 마음으로 임했으나 전혀 가볍지 않았던 프로젝트..

생각보다 복잡도가 엄청난 프로젝트라는 것을 깨닫는데 그리 오래걸리지는 않았음..

 

기능 : 사용자가 보고 싶은 부분을 입력 → 사용자가 보고 싶어하는 부분의 후보군을 링크로 제공

 

구현 및 인터페이스 : chatGPT의 유료 버전으로 사용 가능한 GPTs를 통하여 앱 실행 및 사용자 인터페이스 구성 

  • 안타깝게도 유료 버전이 아닌 앱을 만들기 위해서는 상당한 GPU 또는 API 사용료가 들며 직접 구성해야할 부분이 많아지기 때문에 일단 패스
  • 개인 사이트에서 누구나 쓸 수 있도록 개방하는 것도 염두는 하고 있으나, 사용자가 거의 없을 것이고 관리해야 될 부분은 늘어날 것이기에 그럴 가능성은 적을 듯..

 

데이터 흐름 : 사용자의 질문 → GPT → 자체 제작 서버 → GPT → 답변 링크

  • 먼저 사용자가 GPTs를 통하여 질문 시 해당 질문이 자체 제작 서버로 넘어옴
  • 자체 제작 서버에서는 질문의 답이 될 만한 후보군을 검색하여 해당 부분 영상 링크를 다시 GPTs로 넘겨줌
  • GPTs는 넘겨 받은 후보군을 말로써 설명하며 사용자에게 링크 제공

 

 

여기 까지는 참 좋았음..

뭔가 다 잘 될거 같고 생각보다 쉬울 것 같고 ㅎㅎ

침착맨 영상의 스크립트의 질과 양을 보기 전까지는..

 

위의 로직은 기본적으로 영상 자막을 활용하여 검색을 함.

그러다 보니 영상의 스크립트의 질이나 양이 검색 수준에 매우 큰 영향을 미침.

 

문제1. 원박 영상이 모든 영상을 커버하지 못한다.(종종 원박에 없는 영상이 존재)

그렇다고 본채널, 플러스채널 등의 영상 내용도 넣는 다면 중복이 생기는 바람에 성능에 악영향을 미친다.

원박과 본채널 영상이 동일한 부분임에도 편집이 들어가 스크립트가 살짝 다르다 보니 이걸 걸러내는 것도 상당한 노동이 소요되므로 원박만 ㄱㄱ

 

문제2. 원박 영상 중에서도 스크립트가 사용 불가한 영상의 경우 스크립트가 없다.

약 1300개의 원박 영상 중 200개 가량은 스크립트 사용 불가 영상이기에 검색 불가 상태. 하지만 이 부분은 돈으로 해결 가능. 

사용자가 꾸준히 있다면 추가할 계획

 

문제3. 여기서부터 정말 큰 문제.. 너무나 큰 문제.. 양이 너무 많다.

약 6000만자 가량의 스크립트.. 책으로 150~200권 분량..

일반적인 기업 수준으로 들어오는 과제 레벨을 넘어 섰음..

 

‘침착맨이 빵이에요라고 하는 영상 알려주세요’

‘여러분 똥 맛 볼거에요? 라고 침착맨이 말하는 영상 알려주세요’  

 

이런 류의 질문을 책 150권 안에서 찾는 작업..

어렵다.. 하지만 이게 끝이 아니다..

 

문제4. 스크립트 내용이 상당히 난해하다..

사실 이렇게 상당한 분량 안에서 원하는 내용을 검색하려면 텍스트 내용이 어느 정도 취합이 되어야 검색 성능을 높힐 수 있음.

글의 내용이 요약이 된다거나 특정 의미를 가진다 던가, 내용의 세부 분류가 있다던가 해야 하는데

우리 모두 알고있겠지만…

내용이 앞뒤가 없는 경우가 대부분...

특히 게임 영상은 오디오가 겹치는 경우도 많고 글만 보면 도대체 어떤 상황인지 알 수 없는 경우가 많음.

 

예를 들면,

 

‘너무 호들 떨었어 빵 나 잘하고 있었 나 진짜 잘하고 있었는데 나 길 다 보이고 있었는데 빵 빵 빠바방 응요 빵 응요 빵 방구뽕 응요 빵 이미 이미 글러스 이미이 그림 자체가 글렀어 빠바방 빵이 이도저도 아닌 구도로 가면은 얘 안 돼 응요 좋은데 지금 빵 여기 딱 합쳐주고 빠바방 으 응요 빵 이미 빵 큰 산이 나눠졌다 아 괜찮아 빵 아 찮 왼쪽으로야지 왼쪽으로 가야지 어 여기다 놔 그지 빵 가야지 그리고 여기 위에다 놔 왼쪽으로 가야지 왼쪽으로가 여기다 가야지 여기다 가야지 ’

 

‘생각된다 뺑 약 100 나쁜 압승 나쁜 나쁜 같은 나쁜 나쁜 날 행 예 야 누가 헬기 때 않냐 예법 택견 소리죠 예 아 아씨 끌어들이게 그렇게 하기 싫은데 이제 와서 아아아 toko 5 셔 때 일단 탈줄 아는 될것 같아요 저는 환 1 탐험하면서 그런 거 같아요 4 아 아 이소 깎아 풀 간 쿨 랑 아 으 아 아 아 으 보스 연례 보스의 않냐 그 어느 1 문어 빼게 정신을 못 차리 4 카라 2 한번에’

 

문제5. 여기에 자막은 자동 자막

비교적 잘된 부분도 많이 있긴 하지만 그렇지 못한 부분도 많다. 이 또한 성능에 악영향을 크게 미친다.

 

예를 들면,

 

‘섬 3통 이색 똥물 a 색 똘 으 the per 와 긴게 랄 수 있는 공력 진실을 기능 하세요 어 안 써 음 감사합니다 아 이번에 다리우스 배나 호텔이 는거 들어봐야 겠다 lc 랑 좀 어울리는 그게 뭐가 있습니까’

 

문제6. 사용자가 직원이 아니다.

일반적으로 이런 AI 시스템을 적용하는 경우 직원 교육도 같이 할 것이고 이상하게 사용한다면 

‘그렇게 사용하시면 안되고 이렇게 사용하시면 좋아요.’라고 할 수 있음. 하지만 대중에 오픈된 서비스의 경우 그럴 수가 없음. 대중은 뭘 해야 하면 그냥 안씀.

그렇다 보니 항상 시스템이 잘 작동할 수 있는 질문을 하는 것은 아니게 되고 체감 성능이 상당히 떨어질 수 있음.

 

 

어렵다.. 어려워.. 하지만 난 할 수 있다.. 아니 백수는 해내야 한다.. 라는 마음가짐으로 일단 시작

음.. 근데 여기서 부턴 구체적인 내용은 찐 개발 얘기인데 관심들이 없으시겠죠..? 패스

 

어쨋든 2달 간의 머리 터지는 삽질 끝에 그래도 한 10번 물어보면 답을 하나도 못하는 수준에서 

2~3개는 답해 내는 수준으로 끌어낼 수 있었음.

프로젝트의 난이도를 고려했을 때 10개 중 5개 정도 맞았다면 매우 매우 만족스러운 수준으로 판단할 수 있음.

이러한 상황을 고려했을 때 2~3개면 개인 프로젝트로는 성공적..ㅎ

하지만 지금처럼 한가한 백수 생활이 길어진다면 성능을 더 높힐 계획을 가지고 있음.(10개 중 4개는 맞출 수 있는 수준의 성능 목표로)

지금은 말그대로 베타서비스라고 볼 수 있을 듯.

 

마지막으로 GPT4 말투 세팅

관심있는 분들은 많이 들어 보셨겠지만 프롬프트 엔지니어링이란걸 하며 조금 더 사용자 친화적인 인터페이스 세팅

침착한 검색기 사용자는 침착맨님 말투에 익숙할 것으로 예상하여 그럴듯한 말투 주입.

 

 

 

완성!!!!!!!!!

로고는 예전에 유행하던 이말년스타일 화풍 변환 AI모델을 사용한 결과물 활용

힘들었다.. 하지만 뿌듯하다.. 그치만 아쉽다..

 

혹시라도 사용하실 분이 계시다면

https://chat.openai.com/g/g-XEzi0yTYN-cimcaghangeomsaeggi

유료버전 chatGPT 사용하시는 분들은 해당 링크로 가시면 사용하실 수 있습니다.

그럴 일 없겠지만 혹~~시 라도 단순한 호기심에 유료 결제를 해서 사용해보고 싶은 마음이 생기신다면 절대 그러지 말아주세요. 그만한 가치 없습니다.

태그 :
#인공지능
#AI
#GPT
#개발
댓글
침반반
24.04.18
BEST
미친 능력자 ㄷㄷ 금병영 ai전문지원팀으로 이직하시면 될듯
침반반
24.04.18
BEST
미친 능력자 ㄷㄷ 금병영 ai전문지원팀으로 이직하시면 될듯
침착한검새끼 글쓴이
24.04.19
[AI]
나 금병영 지원 없다. 금병영 날 지원하라.
라니스푼
24.04.18
와.. 무쳤다..
씨드라군
24.04.18
와 무쳣다 침색기 잘쓸게요 감사합니다
이상해씨해상
24.04.18
침하하에 물어보면 다 알려주는데
침착한검새끼 글쓴이
24.04.19
[AI]
하지만 인간은 언젠가 죽는다. 난 아니다.
이상해씨해상
24.04.19
허허 자네도 필멸자라고 자만하지말게나
@침착한검새끼
침하하쿠나마타타
24.04.18
점점 모든 괴물들이 침하하로 모이는 느낌...
침굿즈내놔
24.04.18
와 진짜 대단쓰
이난2
24.04.18
오우 대박! 유사 업계 종사자로서 궁금한 점이 생겨 질문 드립니다.
(1) 자체 서버에서 검색 기능이 핵심인 것 같은데 이 부분은 어떻게 구현하셨나요?
(2) ChatGPT는 사용자 질문을 서버에 전달 & 서버에서 생성된 답변을 사전에 지정한 답변 양식으로 변환하는 데만 쓰신걸까요?
멋진 프로젝트 공유해주셔서 감사합니다!
침착한검새끼 글쓴이
24.04.18
1. RAG 시스템 내에서 Retrieve 파트를 수행하는 서버를 띄워 놓았습니다.
기본적으로는 FAISS를 통한 벡터 서치를 통해서 탐색하는데, DB구조를 단순하게 가서는 도무지 성능이 나오질 않아 DB를 여러개로 분할하고 이중으로 탐색해서 약간의 성능을 높힐 수 있었습니다. 문서의 split크기도 성능에 상당한 영향을 미쳤던 것 같습니다. 서빙은 fastapi 사용했습니다.
2. 어느 정도는 맞습니다. GPT의 역할은 retrieve된 문서와 질문과의 연관성에 대한 설명을 추가하는 정도입니다. 기본적으로 GPT의 역할은 상당히 적은 편입니다.
혼자하는 프로젝트이다 보니 회사다닐 때처럼 철저한 evaluation은 안된 상황입니다.
evaluation과정을 거치면서 여러 요소들의 tuning을 진행해야 그럴듯한 프로젝트가 될 수 있을 것 같습니다ㅜㅜ
이난2
24.04.19
답변 감사드립니다!!
말씀하신 대로 evaluation을 어떻게 진행하는 게 좋을지 감이 잘 안오긴 하네요 ㅋㅋ 침투부 찾아요 게시판에서 적절한 게시물을 잘 골라서 eval set을 구성해보면 어떨까 싶기도 합니다.
앞으로도 작업 진척 상황 침하하에 남겨주시면 감사하겠습니다! 화이팅!!
@침착한검새끼
침착한검새끼 글쓴이
24.04.19
넵!! ㅎㅎ
혹시 도움이 될까해서 말씀드리자면
말씀주신 것처럼 게시판 내에서 게시물의 질답이 맞는 데이터 100건 정도를 수집해서 진행할 계획이었습니다.
아마도 평가 작업은 질문에 대한 답변이 되는 영상이 후보군에 안에 있는 지 없는 지를 확인하고 점수내는 방식으로 진행되고 시스템 내에 튜닝할 수 있는 변수들을 HPO알고리즘으로 돌려 가장 높은 성능을 보이는 조합을 선택하는 식으로 튜닝을 진행할 것으로 예상됩니다.
@이난2
중인배
24.04.18
무친재능
이기주의가판치고있어
24.04.18
최고예요!
바람개비
24.04.19
인간 알고리즘 개같이 패배
메놀그멍
24.04.19
아니 저 수많은 NLP 작업 어떻게 하신겨...지금 막 공부중인데 정말 존경스럽습니다 횐님
침착맨중독말기
24.04.19
ai민수야 고맙다~
침께께
24.04.19
ㄷㄷㄷㄷ 산통을 깨는 글이 아닌가 싶지만.. 넘 무서버요
나중에 논란거리가 생겼을 때 침맨 발언을 하나하나 골라내는 용도로 쓰일 수도 있을 것 같고..... 침맨 영상이 워낙 많다 보니 싸이버 스토킹이라던가... (지인들 직업이 이런쪽이라서 안좋은 예시만 자꾸 떠오르는 군요 죄송....)
긍정적으로 보면 팬메이드 컨텐츠의 고급화, 그리고 금병영에서 프로그램을 만들때에 요긴하게 쓰일 것 같습니다.
아예 금병영에 알고리즘을 팔아버리는 것도 고려할 만 하실지두~~??
침착복
24.04.19
간지난다
어이없을무
24.04.19
아 빵애에요~

전체 인기글 전체글

괴담을 가장한 만담 듀오 29
침착맨
아이스아메리카노
·
조회수 9191
·
24.04.19
옛날에 25달러로 할 수 있던 것들.jpg 10
유머
참착하다맨이야
·
조회수 7771
·
24.04.19
미라클 팬아트 95일 차 6
팬아트
침하하쿠나마타타
·
조회수 4124
·
24.04.19
엔믹스 앞에서 아이브 안유진이 최애라는 군인 20
유머
종수똥마려
·
조회수 8633
·
24.04.19
침착맨은 보시오 8
침착맨
YellowLabel
·
조회수 8134
·
24.04.19
롯데자이언츠 서동욱 선수 몸에 맞는 볼에 참지 못하고 10
취미
치마하하
·
조회수 5267
·
24.04.18
전무님이 족보상 아버지 뻘이시네요 21
인방
dak****
·
조회수 6676
·
24.04.18
The Mamas & the Papas - California Dreamin' 4
팬아트
맹대곤영감
·
조회수 2800
·
24.04.17
다음카페 고소장 레전드 17
유머
ㅓㅎㅓㅎ침ㅎㅏㅎㅏ
·
조회수 8168
·
24.04.17
세상에서 가장 야한 직업 22
유머
빵야빵야
·
조회수 8590
·
24.04.17
수학여행 괴담 30
침착맨
슈말코
·
조회수 6774
·
24.04.19
새우튀김이 물에 적응하게 도와주기.gif 14
유머
은가누는사람
·
조회수 7292
·
24.04.17
(고전) 침착맨이랑 키배뜨던 디시고닉jpg 35
유머
띠용쓰
·
조회수 9646
·
24.04.18
경제 뉴비를 위한 오늘의 경제뉴스 요약(240418) - 잇코노미 25
취미
이병건치이병헌
·
조회수 3447
·
24.04.18
드디어 본모습을 드러낸 아스날아저씨.... 17
침착맨
고추사냥
·
조회수 10252
·
24.04.19
깨마도 7
팬아트
시즌2
·
조회수 4182
·
24.04.17
괴담 언제 시작하나요 30
침착맨
슈말코
·
조회수 7925
·
24.04.19
어제 라이브영상 왜 역대급이라 하는지 실시간 체감중 4
침착맨
힙합소울침착맨
·
조회수 8298
·
24.04.17
집에서 미니 영화관 만드는 임원희 14
유머
종수똥마려
·
조회수 6307
·
24.04.17
현재글 침착맨 영상 검색기 제작 후기(with GPTs) 22
취미
침착한검새끼
·
조회수 6016
·
24.04.18