A/B 테스트 기획을 준비 중이신가요? 최고의 결과를 얻기 위해서 테스트의 전과 후, 테스트 도중에도 확인해야 할 체크리스트를 정리해 왔습니다. 북마크해서 두고두고 읽어보아도 괜찮을 정도로 준비했습니다. 지난 편은 👉이곳에서👈 확인할 수 있습니다.
2. 목표를 확인하자
테스트마다 복수의 지표를 측정하겠지만 테스트를 수행하기 전 기본이 될 지표를 반드시 하나만 고르고 해당 지표에 집중하세요. 나머지 버전도 마찬가지입니다. 해당 변수가 이번 테스트의 “종속 변수Dependent variable”가 될 것입니다.
A/B 테스트가 끝날 때까지 해당 변수를 항상 유념해두세요. 공식적인 가설을 명시하고, 이러한 예측에 기반하여 테스트의 결과를 검토할 수 있습니다.
만약 어떤 지표가 자사에게 중요한지, 어떤 목표를 설정해야 할지, 자사가 제안할 변경사항이 사용자의 행동에 어떤 영향을 줄지 등 기다리고 판단하느라 시간을 허비하지 마세요. 효율적인 테스트 방법이 아닙니다.
3. Control과 Challenger를 만들자
원하는 실험 결과를 얻기 위한 독립 변수와 종속 변수를 선택했습니다. 다음은 독립변수와 종속변수에 대한 정보를 활용하여 Control로 설정한 기존 버전을 테스트해봅시다. 만약 웹 페이지를 테스트하는 중이라면 새로운 Control을 생성할 필요 없이 변경사항이 반영되지 않은 기존의 페이지를 사용하면 됩니다. 만약 랜딩페이지를 테스트하는 중이라면, 일반적으로 Control은 보통 사용하는 랜딩 페이지의 디자인과 카피로 설정합니다.
여기서부터 업데이트 버전 혹은 “Challenger”라고 불리는 버전을 구축할 시간입니다. – 웹사이트, 랜딩 페이지 혹은 이메일 등 Control과 비교하고 대조하며 A/B 테스트하세요. 예를 들어, 랜딩 페이지에 유저의 리뷰나 추천 글을 노출하여 차이를 만들 수 있을지 궁금하다면 추천 리뷰가 없는 Control 페이지를 먼저 생성하세요. 그 후 추천 리뷰가 있는 페이지를 만들어 보세요.
4. 표본 그룹을 무작위로 나누되 동일하게 쪼개자
상대적으로 잠재고객(Audience)을 통제하기 쉬운 테스트의 경우 – 이메일과 같이 – 결정적인 단서를 얻기 위해서는 두 개 이상의 동일 그룹을 테스트할 필요가 있습니다.
표본 그룹을 나누는 방법은 사용하는 A/B 테스트 툴에 따라 달라집니다. 예를 들어, 허브스팟의 엔터프라이즈 툴은 자동으로 트래픽을 나누어 Control과 Challenger에 할당하는 기능이 있습니다. 따라서 방문자를 무작위 추출하여 (랜덤 샘플링, Random Sampling) 각 버전에 분배할 수 있습니다.
5. (가능하다면) 표본의 크기를 결정하자
표본의 크기를 결정하는 방법 역시 사용하는 A/B 테스트 툴이나 운영하려는 A/B 테스트의 유형에 따라 다릅니다.
이메일을 A/B 테스트하는 마케터라면 통계적으로 유의미한 결과를 얻기 위해 고객의 일부분만을 활용하여 A/B 테스트를 활용하고 싶을 겁니다. 그리고 최상의 결과를 보여준 버전을 나머지 고객에게도 보내는 방법을 상상합니다.
허브스팟의 엔터프라이즈 고객이라면 슬라이더를 사용하여 손쉽게 샘플 그룹의 크기를 결정할 수 있습니다. 타사의 A/B 테스트 툴이 최소 1,000명 이상의 샘플을 요구하는 것에 비해 허브스팟 툴은 샘플 크기와 상관없이 50/50의 A/B 테스트를 수행할 수 있습니다.
웹페이지처럼 구체적인 표본의 수를 알 수 없는 상황에서 A/B 테스트를 수행한다고 가정해봅시다. 해당 경우에는 테스트의 수행 기간이나 시간이 표본의 크기에 영향을 직접 줄 것입니다.
이럴 때는 우선 상당한 수의 뷰를 얻을 수 있을 정도로 테스트를 오래 실행해야 합니다. 결과가 충분치 않다면 각 버전 사이에서 유의미한 차이가 발생했는지 확인하기 힘들기 때문입니다.
6. 필요로 하는 결과가 어떻게 중요한지 결정하자
위의 단계에서 목표가 되는 지표(Goal metric)를 고르셨나요? 다른 버전의 ‘폐기’를 정당화할 만큼 유의미한 결과를 보여주는지 고민할 시간입니다. 통계적 유의성(Statistical significance)은 함정에 빠지기 쉬운 A/B 테스트의 과정에서 굉장히 중요합니다.
신뢰도(Confidence level)의 백분율이 높을수록, 결과를 확신할 수 있습니다. 특히 설정에 시간이 오래 걸리는 실험이라면 최소 95% – 바람직하게는 98%까지 – 의 신뢰도를 원할 것입니다. 만약 엄격할 필요가 없는 테스트라면 때때로 신뢰구간(Confidence rate)이 낮아도 상관없습니다.
허브스팟의 시니어 소프트웨어 엔지니어 Matt Rheault는 평소에도 내기나 배팅처럼 통계적 유의성에 대해 생각하길 즐깁니다. 배팅하면서 마음이 편할 수가 있을까요? “저는 이 디자인이 옳다고 80% 정도 확신합니다. 따라서 이 디자인에 모든 것을 걸고 싶습니다.”라고 말하는 것은 80%의 유의성을 보이는 A/B 테스트를 운영하고, 최고의 버전을 고르는 것과 비슷합니다.
Rheault는 또한 전환율을 약간 향상하는 무언가를 테스트할 때에는 높은 신뢰 임계 값(Confidence threshold)을 원할 것이라고 말합니다. 왜일까요? 확률변수가 더 큰 역할을 수행할 가능성이 높기 때문입니다.
“신뢰 임계 값을 낮추는 편이 더 안전하다고 느끼는 표본은 10% 혹은 그 이상의 전환율을 향상할 가능성이 있는 실험입니다. 예를 들어 히어로 섹션(Hero Section)을 리디자인(Redesign)하는 실험이 여기에 속합니다.”
히어로 섹션(Hero Section)
히어로 헤더(Hero Header)나 히어로 이미지(Hero Image)로도 불립니다. 웹의 히어로 섹션은 일반적으로 눈에 잘 띄는 이미지, 슬라이더, 텍스트 혹은 비슷한 구성요소로 홈페이지의 레이아웃 그리고 이어지는 페이지들에서 가장 눈에 잘 띄는 자리에 위치합니다. 따라서 보통 최상단이나 정중앙에 위치합니다.
히어로 섹션은 색상이나 패턴 대신 사용되는 크고 트렌디한 배경 이미지와는 다릅니다. 히어로 섹션의 목적이나 초점은 일반적인 모양새나 톤의 설정이 아니기 때문입니다. 시각적인 자극이며 디자인에 중심점을 부여하고 대중들을 끌어 당기도 사로잡는 핵심 툴입니다. 히어로 섹션은 자사가 지어내는 스토리 속 “호감이 가는 주인공”이며, 읽기 전 훑어보는 책 표지의 요약 글이기도 합니다.
“여기서 포인트는 변화가 급진적일수록, 과학적으로 단계별 프로세스를 밟아야 할 필요가 줄어든다는 점입니다. 하지만 변화(e.g. 버튼 색상, 마이크로카피-Micro copy- 등)가 구체적일수록 전환율에 눈에 띄거나 큰 영향을 줄 가능성이 작기 때문에 오히려 더 과학적으로 측정해야 합니다.”
마이크로 카피(Micro copy)
유저가 무언가를 할 때마다 앱이나 웹 서비스의 인터페이스에 떠오르는 짧은 카피를 일컫습니다. 예를 들어 에러 메시지나 제출양식(Form)을 간단히 설명하는 문구 등이 있습니다.
언뜻 보면 전반적인 앱 디자인과 비교했을 때 유의미한 영향을 주지 못하는 짧은 문구로 보이지만 놀랍게도 전환율이나 서비스에 큰 영향을 줄 확률이 높다고 합니다.
7. 어떤 캠페인이더라도 한 번에 하나의 테스트만 운영하자
하나의 캠페인을 위해 한 가지 이상을 테스트하면 – 정확하게 동일한 에셋(광고 제목, 설명, 이미지, 로고 등)이 아닐지라도 – 실험의 결과를 복잡하게 만들 수 있습니다. 예를 들어, 랜딩 페이지로 곧바로 이어지는 이메일 캠페인을 A/B 테스트하면서 랜딩 페이지도 A/B 테스트한다고 가정해봅시다. 어떤 부분에서 리드가 상승했는지 구분할 방법이 없습니다.
A/B 테스트를 수행하면서
A/B 테스트 중에 취해야 할 단계를 알아보겠습니다.
8. A/B 테스트 툴을 활용하자
웹 사이트 또는 이메일에서 A/B 테스트를 수행하기 위해서 A/B 테스트를 사용할 필요가 있습니다. 허브스팟의 엔터프라이즈 서비스를 사용하는 고객이라면, 허브스팟 소프트웨어가 지닌 기능으로 이메일 [👉 더 알아보기], CTA (Calls-To-Action) [👉더 알아보기], 그리고 랜딩 페이지 [👉 더 알아보기]에 대한 A/B 테스트를 수행할 수 있습니다.
허브스팟을 사용하지 않는 – 예를 들어 Google Analytics’ Experiments 등의 툴을 사용하는- 엔터프라이즈급의 고객들은 최대 10가지의 단일 웹페이지 전체 버전을 테스트하고 사용자의 무작위 표본을 사용하여 버전 간의 퍼포먼스를 비교할 수 있습니다.
9. 두 가지 버전을 동시에 테스트하자
타이밍이란 하루의 시간이나 요일, 달에 상관없이 마케팅 캠페인 성과에 큰 영향을 미칩니다. 한 달동안 버전 A를, 이어지는 달에 버전 B를 운영한다고 가정합시다. 성과가 변해도 디자인 때문인지 혹은 다른 달에 운영했기 때문인지 파악하기가 어렵습니다.
그러므로 A/B 테스트를 운영할 때에는 두 가지 버전을 동시에 진행해야 합니다. 그렇지 않으면 성과를 재검토해야 할 수 있습니다.
위의 상황에서 유일한 예외는 타이밍 그 자체를 테스트하는 경우입니다. 이메일 발송을 위한 최적의 타이밍 혹은 시간을 찾는 A/B 테스트가 이에 해당합니다. 이메일 발송의 타이밍을 찾는 테스트는 꽤 괜찮습니다. 자사가 무엇을 제공하는지, 자사의 구독자나 고객은 누구인지에 따라, 이메일 수신자의 참여율이 매우 달라질 수 있기 때문입니다. 산업군이나 타겟으로 삼은 시장에 따라서도 다릅니다.
10. A/B 테스트에게 유용한 데이터를 생성할 수 있는 충분한 시간을 주자
위에서도 언급했지만, 유효한 표본 크기를 모으기 위해서는 테스트를 충분히 그리고 오래 진행해야 합니다. 그렇지 않으면 두 버전 사이에 통계적으로 유의미한 차이가 있었는지 구별하기 어렵습니다.
얼마나 오래 해야 충분할까요? 자사 그리고 A/B 테스트를 어떻게 실행하는지에 달려있습니다. 통계적으로 중요한 결과를 얻기 위해서 한 시간이 걸리는 회사도, 며칠 혹은 몇 주가 걸리는 회사도 있습니다. “통계적으로 중요한 결과를 얻는 데 얼마만큼의 시간이 필요한가?”를 좌우하는 요소는 트래픽입니다. 따라서 자사 웹사이트의 트래픽이 많지 않다면 A/B 테스트에 더 많은 시간이 소요됩니다.
이론적으로는 결과를 수집하는 시간을 제한해서는 안 됩니다. (왜인지 궁금하신가요? 차후 올라올 “A/B 테스트 현실과 진실” 콘텐츠를 참고해주세요. 콘텐츠 업데이트의 알람은 👉여기에서👈 받을 수 있습니다.)
11. 실제 사용자에게 피드백을 요청하자
A/B 테스트는 정량적 데이터와 많은 관련이 있습니다. 하지만 특정 사용자가 “왜” 다른 유저들과 다른 행동을 취하는지 이해하는 데는 도움이 되지 않습니다. A/B 테스트를 운영하는 동안, 실제 사용자에게 정성적인 피드백을 수집해보세요.
사람들에게 의견을 묻는 좋은 방법은 설문 조사지나 투표(Poll) 형식을 활용하는 방법입니다. 자사의 사이트에 출구 조사를 추가하여 왜 특정 CTA를 클릭하지 않았는지 물어볼 수 있습니다. 혹은 버튼을 클릭하거나 폼을 제출한 방문자에게 노출하는 감사 페이지에도 추가해볼 수 있습니다.
예를 들자면 많은 사람이 CTA를 눌러 무료 E-book으로 이동했지만, 가격을 보고 난 이후에는 전환이 이루어지지 않는 상황을 관찰했습니다. 이러한 정보는 고객이 특정 방식으로 행동하는 이유 그리고 관련 인사이트를 제공합니다.
A/B 테스트 이후
마지막으로 A/B 테스트 이후에 취해야 할 단계를 알아봅시다.
12. 목표 지표에 초점을 맞추자
거듭 강조하지만, 복수의 지표를 측정하는 중에도 주요 목표 지표에 초점을 맞추어 분석하세요.
가령 두 가지 버전의 이메일을 테스트하면서 리드 수를 주요 지표로 삼았다면, 오픈율이나 클릭률에는 주의를 기울이지 마세요. 클릭률이 높고 전환율이 낮은 상황이라도 최종 클릭률이 낮은 버전을 고르는 것으로 A/B 테스트를 끝마칠 수 있습니다.
13. A/B 테스트 계산기를 사용하여 결과의 유의성을 측정하세요.
가장 성과가 좋은 버전을 결정했다면, 이제는 성과가 통계적으로 유의미했는지 아닌지를 결정할 시간입니다. 즉, 변경할만한 정당한 이유가 있는지 측정해야 합니다.
이를 파악하기 위해서는 통계 유의성 검정을 수행할 필요가 있습니다. 수동으로도 할 수 있지만, 실험 결과를 허브스팟이 제공하는 무료 A/B 테스트 키트와 실험의 결과를 연결하여 간편하게 계산할 수 있습니다.
테스트를 수행한 각 버전에 대해 전송된 메일이나 노출의 수 등의 숫자를 입력하라는 메시지가 표시될 것입니다. 이어서 달성한 목표의 수를 입력하세요. 일반적으로 클릭 수를 보시겠지만, 이는 다른 유형의 전환이 될 수도 있습니다.
계산기는 최종적으로 효율이 가장 높았던 버전의 데이터가 지니는 신뢰도를 산출해줍니다. 이후 통계 유의성을 결정하기 위해 선택한 값과 비교하고 해당 수치를 측정하세요.
14. 결과에 기반한 조치를 취하자
한 가지 버전이 다른 버전보다 통계적으로 우월한 결과를 보여주었나요? A/B 테스트 툴을 통해 다른 버전들을 비활성화하여 A/B 테스트를 완료하세요.
둘 중 어느 버전도 통계적으로 더 나은 것이 아니라면 테스트한 변수가 결과에 영향을 미치지 않았다는 사실을 알게 된 것입니다. 따라서 테스트를 확고하게 결정적이지 못한 테스트로 표시해야 할 것입니다. 이러면 원래 버전을 고수하거나 새로운 A/B 테스트를 진행하세요. 실패한 데이터는 또 다른 테스트의 반복에 활용할 수 있습니다.
A/B 테스트는 단기적인 성과뿐만 아니라 장기적인 성과가 되기도 합니다. 각 사례를 기준으로 하는 결과에 영향을 주지만, 실행자 역시 각 테스트에서 교훈을 배우고, 그 교훈을 미래에도 적용할 수 있기 때문입니다.
예컨대 이메일 마케팅에서 A/B 테스트를 수행한 후, 이메일의 제목에서 숫자를 사용하면 클릭률이 더 높아진다는 사실을 반복해서 발견했습니다. 그렇다면 담당자는 더 많은 이메일에서 이러한 전술을 구사하는 방안을 고려해 볼 수 있습니다.
15. 이어질 A/B 테스트를 기획하자
일련의 과정을 통해 완료된 A/B 테스트는 마케팅 콘텐츠를 보다 효과적으로 만드는 새로운 방법의 발굴에 도움을 주었을 겁니다. 하지만 여기서 멈추지 마세요. 언제나 더욱 최적화할 수 있는 여지가 있습니다.
또한 방금 테스트한 페이지와 동일한 웹 페이지의 다른 기능이나 이메일의 A/B 테스트의 수행을 시도해볼 수 있습니다. 이를테면 랜딩 페이지의 헤드라인을 테스트한 상황입니다. 본문의 카피에도 새로운 테스트가 필요하지 않을까요? 혹은 색상의 체계나 이미지를 바꿔볼 수도 있습니다. 언제나 전환율과 리드를 높일 기회를 주시하세요.
오늘이라도 A/B 테스트를
A/B 테스트를 통해 “청중이 보고 싶은 콘텐츠와 마케팅은 무엇인가?”에 대한 진실을 볼 수 있습니다. 지금 허브스팟을 활용하여 A/B 테스트를 효율적이고 간편하게 수행하는 방법을 알아보세요.
A/B 테스트
체크리스트 VOL.1
뇌피셜은 그만🙅🏻♀️