AI 1년 써본 스타트업, 워크플로우를 다시 짜고 싶어진 4가지 이유

5인팀 스타트업에서 AI 도구를 1년 넘게 쓰면서 본 무분별한 사용의 그림자 4가지 — 영업·기획·개발과 직무 횡단 패턴.

새 워크플로우를 머릿속으로 정리하고 팀 제안 직전에 적은 1인칭 분석 기록.

작성 2026.04.28

팀 단위로 AI 도구를 쓰기 시작한 지 1년이 넘었어요. 솔직히 좋아진 것도 분명히 있고, 눈에 거슬리는 그림자도 생겼습니다. 이 글은 “도입하고 보니 좋더라”는 회고가 아니에요. 아직 팀에 새 워크플로우를 제안하기 직전인데, 그 전에 제가 머릿속으로 정리한 분석 기록입니다.

저 혼자 일하는 게 아니라 5인팀 스타트업이라는 맥락이에요. 기획 1명·디자이너 1명·개발 2명·영업 1명. 구조가 작으니 한 명이 무너지면 팀 전체가 흔들립니다. 그래서 AI 도구를 어떻게 쓸지가 개인 생산성 문제가 아니라 팀 워크플로우 문제가 돼요. 이건 어디까지나 제 맥락에서의 분석이고, 제 제안입니다.

AI로 좋아진 건 분명히 있어요

코드 구현 속도는 확실히 빨라졌어요. 반복적인 보일러플레이트, 테스트 초안, 간단한 문서 정리 같은 작업이 눈에 띄게 줄었습니다. Claude Code를 직접 써본 이야기는 따로 정리한 적 있는데, 개인 작업 효율 측면에서는 진짜로 좋아요. 이건 인정하고 가야 다음 이야기가 설득력이 생깁니다.

그런데 이런 일도 생기더라고요

좋아진 것이 있으면 그림자도 생기는 법이에요. 팀에서 실제로 관찰한 네 가지 패턴을 꺼내볼게요. 앞 세 개는 직무별 장면, 마지막 하나는 직무 횡단 패턴입니다.

영업 — “이거 AI 돌린 거 아니에요?”

1차 미팅 회의록을 꼼꼼히 보지 않고, AI가 자동으로 정리한 일반화된 텍스트를 그대로 가져다가 2차 미팅을 준비한 적이 있었어요. 문제는 그 텍스트가 “그 고객사만의 맥락”이 빠진 채 범용 요약이 되어 있었다는 점입니다.

이거 AI로 돌린 거 아니에요?
— 어느 2차 미팅에서 들었다는 한 줄

고객이 직접 그렇게 물었다는 후일담을 들었어요. “잘못 쓴 사람의 문제”라고 할 수도 있는데, 팀 곳곳에서 비슷한 일이 있었다는 게 포인트예요. 개인 문제가 아니라 구조 문제로 보입니다.

기획 — 개발자 대신 AI에게 묻기 시작했어요

“이 기능이 되나? 얼마나 걸리지?”를 개발자에게 묻기보다 AI에게 먼저 묻는 경우가 생겼어요. 매번 개발자에게 묻기 눈치 보이고, 사실 개발자도 비슷한 질문이 연속으로 들어오면 피로한 게 맞아요. 저도 그럴 때가 있고, 한 명 탓이 아닙니다.

문제는 그 답이에요. AI는 우리 코드베이스도, 우리 도메인도, 현재 기술 부채도 몰라요. 그래서 우리 제품 맥락이 빠진 채 “비슷한 일반적인 기능은 이렇게”라는 일반화된 답을 줍니다. 가끔은 할루시네이션도 섞이고요. 그 답을 그대로 받아들여 결정을 내리면 기능 자체나 제품 방향이 우리 사용자에게 맞지 않는 쪽으로 조금씩 기울어요.

개발 — “다 된 거지?” 한 마디로 결과 떠넘기기

시간에 쫓기다 보면 코드 검수를 줄이고 AI가 짜준 테스트 코드에 기대게 됩니다. 저도 예외가 아니에요. 사실 AI가 짠 코드를 전부 검수하기는 어려워요. 과거에 어떻게 다 손으로 쳤나 싶을 정도로 속도가 달라졌거든요.

더 무서운 건 확인 습관이에요. “AI에 맡기면 다 된 거지?”, “완벽해?” 같은 가벼운 확인 한두 마디로 결과를 다음 사람에게 그대로 던지는 패턴이 생기더라고요. 테스트가 통과하니까 괜찮다고 믿었는데, 정작 그 테스트가 엣지 케이스를 검증하지 않고 있었던 경우입니다. 소규모 팀에서 이런 일이 반복되면 QA 비용이 예상보다 많이 올라가요.

직무 횡단 — AI로 양 늘리고 정리는 떠넘기기

이건 직무를 가리지 않고 보이는 패턴이에요. AI로 텍스트·문서·코드를 너무 쉽게 양산하다 보니, 정리되지 않은 산출물이 그대로 다음 사람에게 넘어갑니다. 분량은 많고 모양은 그럴듯한데, 받는 쪽이 뜯어보면 핵심이 빠져 있거나 정리가 안 된 상태예요.

겉보기엔 “일을 많이 한 것처럼” 보이는데, 실제로는 받는 쪽이 정리 부담을 떠안아요. 팀 전체로 보면 일이 줄어든 게 아니라 자리만 옮겨간 거고요. 이게 쌓이면 신뢰가 빠르게 깎입니다.

왜 이런 일이 자꾸 생길까

네 가지 패턴 뒤에 깔린 구조적 원인을 정리해보면 이래요.

AI는 우리 맥락을 모른다

AI가 매번 좋은 품질의 답을 주지는 않아요. 우리 도메인·우리 팀 맥락이 빠진 채 일반화된 답변을 줄 때가 많고, 그걸 검증 없이 쓸 때 문제가 생깁니다. 2025년에 나온 AI 코드 생성 버그 서베이 논문(Gao et al.)에서도 생성 코드의 상당 비율에서 보안 취약점이 보고됐다는 정리가 있어요.

빠른 답을 받으면 검증을 줄이게 돼요

스타트업은 속도가 생명이라 빠른 답을 받으면 검증을 줄이게 돼요. AI가 속도를 줘서 좋은데, 그 속도 때문에 검증 습관이 무너지는 아이러니입니다.

”내가 AI에 대체될까봐”

이게 가장 다루기 어려운 부분이에요. “AI에 대체될까봐” 자기가 할 수 있는 일도 천천히 하거나, 알고 있는 정보를 팀에 공유하지 않는 자기 검열이 생기는 것 같아요. 이건 글 후반에서 다시 얘기할게요.

그림자와 제 워크플로우, 한 줄로

직무	그림자	분업 원칙 한 줄
영업	AI 일반화 회의록 → 고객 신뢰 하락	AI는 내용만, 사람은 분위기·반응
기획	AI 일반화 답변 → 제품 방향 흔들림	NotebookLM 참고, 판단은 사람
개발	AI 테스트에 의존 → QA 사고	AI는 구현, 사람은 도메인·테스트
직무 횡단	정리 안 된 산출물 떠넘기기	워크플로우로 못 풀어요 — 본문 후반

저라면, 직무별로 이렇게 짜겠어요

이건 제가 팀에 곧 제안하려고 정리한 워크플로우예요. 모든 팀에 권장하는 게 아니고, 5인팀 스타트업인 저희 맥락에서의 제안입니다.

영업 — “AI는 내용만, 사람은 분위기·반응”

흐름은 이렇게 그리고 있어요.

Google Meet으로 미팅 녹음

호스트가 미팅을 녹음하기만 하면 다음 단계는 자동으로 이어져요.

Google Drive Meet Recordings 폴더에 자동 저장

녹음 파일이 호스트 드라이브 지정 폴더로 자동 업로드돼요.

정해둔 프롬프트로 AI가 회의록 정리

"있는 내용만 옮긴다", "추정·일반화 금지", "양식 밖 항목은 비워둔다" 제약을 프롬프트에 박아 할루시네이션이 끼어들 자리를 줄여요.

웹훅으로 팀 슬랙에 알림

정리가 끝나면 슬랙 채널에 회의록 링크가 뜨게 해서 영업팀이 놓치지 않아요.

사람이 분위기·반응을 덧붙임

영업팀은 AI가 채울 수 없는 것 — 고객의 표정·말투·온도 — 을 보강해요. 기획·개발은 일관된 양식으로 받아 다음 단계를 판단합니다.

도구가 바뀌는 게 아니라 신경 쓸 포인트가 줄어드는 게 목적이에요. 영업팀은 정리에 시간 안 쓰고, 기획·개발은 일관된 양식으로 받아 보고요.

기획 — “NotebookLM은 참고, 판단은 사람”

NotebookLM은 등록된 소스 안에서 검색해 답변을 만들고 인라인으로 인용을 표시하는 구조라(흔히 RAG로 부르는 방식이죠), 일반 채팅 AI보다 우리 맥락에 맞는 답을 받기가 쉬워요. 공식 문서에서도 “소스에 기반한 답변”이라는 점을 분명히 밝히고 있고요.

팀 NotebookLM 노트북 만들기

기획자·개발자가 공유하는 노트북 1개를 기준으로.

기존 제품 스펙·기능·설계 문서·데이터 예시를 소스로 등록

우리 제품 맥락이 빠진 답을 줄이려면 소스가 풍부할수록 좋아요.

기획자가 "이 기능 되나? 얼마 걸리지?" 질문

혼자 결정용이 아니라 가설을 세우는 단계로.

답변 + 인용 출처 확인

어떤 소스에 기반한 답인지 확인하면서 할루시네이션 가능성을 점검해요.

최종 판단은 개발자와의 대화로

NotebookLM은 대화의 출발점이지 종착점이 아니에요.

핵심은 참고용으로만 쓰는 거예요. AI 일반화 답변이 제품 방향을 기울게 하는 걸 막기 위한 구분입니다.

개발 — “AI는 구현, 사람은 도메인·테스트”

솔직히 저희도 예전엔 테스트 코드를 잘 안 썼어요. “시간 없다”는 핑계로 미루는 분위기가 있었고, 거기에 AI가 들어오니 위에서 말한 “다 된 거지?” 식의 가벼운 확인 습관이 더 굳어지는 느낌이었어요. 그래서 저라면 방향을 뒤집고 싶어요.

요구사항 → 테스트 코드 먼저 작성

사람이 도메인 이해를 담아 테스트로 안전장치를 깔아두는 단계예요.

AI에게 구현 위임

테스트를 통과하는 구현을 AI가 만들도록 합니다. 구현 속도는 AI가 해결해요.

테스트 자동 검증

구현이 모든 테스트를 통과하는지 자동으로 확인. 통과 못 하면 다시 AI에 맡기는 사이클.

사람이 도메인·엣지 케이스 점검

테스트가 빠뜨린 경계 조건, 도메인 규칙, 사용자 행동 흐름을 사람이 봐요.

머지 + QA

여기까지 통과한 것만 다음 단계로 넘기는 게 핵심. "다 된 거지?" 확인을 시스템에 박아두는 거예요.

예전엔 속도 때문에 TDD가 과하다고 봤는데, 이제는 구현 속도가 AI로 해결되니 TDD가 오히려 효율적으로 보여요. 개발자는 모든 코드를 검수하는 일을 줄이는 대신 도메인 지식과 테스팅에 집중하는 분업이에요.

단, 이건 저희 도메인이 그렇게 복잡하지 않기 때문에 가능한 선택이에요. 도메인 복잡도가 높은 팀에는 그대로 적용하기 어려울 수 있습니다.

워크플로우로도 못 푸는 것 — AI 대체 불안

위의 3축은 일하는 방식 워크플로우예요. 그런데 솔직히 가장 다루기 어려운 문제가 하나 있어요. AI 대체 불안에서 오는 정보 감춤과 자체 속도 조절입니다.

이건 워크플로우만으로는 풀리지 않을 것 같아요. 팀원이 알고 있는 것을 공유하지 않거나, 할 수 있는 일을 의도적으로 늦추는 패턴은 회사 시스템과 팀 문화가 같이 움직여야 풀린다고 생각해요.

솔직히 저도 답을 모르겠어요. 지금 제 답은 노력해서 나만의 무기를 만드는 것뿐이에요. AI가 대체할 수 없는 도메인 지식, 판단력, 팀과의 신뢰를 쌓아두는 것이 지금 제가 할 수 있는 전부라고 생각해요.

이래서 AI 발전 속도만큼 팀 문화와 회사 시스템 성숙도 같이 가야 하지 않을까 싶어요. 도구만 바뀌면 괜찮은 게 아니라, 그 도구를 쓰는 사람들 사이의 관계와 구조가 같이 바뀌어야 하지 않을까 생각합니다.

이 글의 한계

레스덕의 정리

이 글은 “적용 직전의 생각정리”라기보다, 끊임없이 효율성과 발전을 고민하면서 공부하고 물어보고 정리하는 과정의 한 컷이에요. 5인팀에서 AI 도구가 1년 넘게 쌓이며 만든 그림자 4가지를 분해하고, 그 위에 직무별 워크플로우 3축을 얹어봤습니다. 곧 팀에 제안할 예정이고, 제안한 뒤 실제로 어떻게 흘러가는지는 회고 글로 잇겠습니다. 그 사이에 지금 생각이 바뀌어 있을 수도 있어요. 그게 자연스럽다고 보고, 저는 계속 고민하고 물어보고 정리하면서 가려고 합니다.

여기 말고 다른 데서 막혔다면

증상만 고르면 지금 뭘 하면 되는지 짚어줘요.

참고 자료

읽으면서 떠오른 사람에게 공유해 주세요

레스덕

· 운영자

현직 개발자가 AI·바이브코딩·개발자 커리어를 직접 겪고 판단한 개인 기록입니다. 공식 자료를 간략히 요약하고, 그 위에 저의 경험·판단을 덧붙입니다. 전문 자문이 아니므로, 중요한 결정 전에는 최신 원문과 전문가 상담을 함께 확인해 주세요.

최종 수정 2026.04.28 · 문의 lessduck2@gmail.com