April 13, 2023

Ustojí váš web nápor návštěvníků?

Reklamní kampaně v televizi stojí nemalé peníze, zvlášť při událostech jako je mistrovství světa v hokeji. Když už do nich investujete, nechcete, aby se lidi dostali k hlášce „Tento web je momentálně nedostupný“ a naštvaně odešli. Potřebujete funkční web. Právě to byla naše mise, když nás o reklamní kampani při MS v hokeji informoval náš klient Carvago. A tak přišlo na řadu testování, co platforma ustojí, a hledání cesty, jak vylepšit infrastrukturu, aby ustála ještě víc.

Malá lekce reklamštiny

Nejdřív potřebujeme znát rozdíl mezi dvěma důležitými pojmy: ATL a BTL.

BTL

Techniky BTL – Below The Line – jsou ty, které asi běžně znáte, protože je to obvykle první krok v marketingu menších projektů. Jsou zaměřené na menší skupiny uživatelů nebo na konkrétního uživatele. Typicky jsou to SEO, PPC, remarketing, e-mailové kampaně apod. Jen si vzpomeňte, jak na vás všude vyskakují bannery, jakmile dáte do vyhledávače nějaký produkt.

ATL

Oproti tomu ATL neboli Above The Line jsou komunikační techniky určené pro masy. Typicky jsou to televizní spoty, reklama v rádiu nebo billboardy.

Vliv ATL a BTL kampaní na návštěvnost webu a infrastrukturu za ním

Když spouštíte BTL kampaně, například PPC, infrastrukturu obvykle neřešíte. BTLka totiž návštěvníky přivádějí na web postupně. Když máte platformu na Kubernetes, díky HPA (Horizontal Pod Autoscaler) web vyšší návštěvnost ustojí. Proces funguje tak, že autoscaleru nastavíte pravidla, za jakých okolností se má škálovat dolů nebo nahoru, a automaticky se přidá další container (Pod).

Při ATL ale váš web musí ustát jednorázový nápor návštěvníků během pár desítek sekund. Situace ze života: váš CEO se objeví v rozhovoru v televizi. Co se stane? Tisíce lidí se najednou chtějí podívat na tu firmu, o které mluví. A pokud na to platforma není ready, váš web spadne.

Co se stane s HPA při reklamě v televizi

V našem případě rozhovoru klienta v televizi stoupla instantně vytíženost CPU z 50 na 100 procent. V tu chvíli pody přestaly odpovídat. HPA sice nasadilo nové, ale i cloudu chvíli trvá, než nastartují další servery, než se warmupne cache, než se vytvoří nové spojení do databáze, redisu apod.

Běželi jsme na 12 podech, HPA začalo startovat dalších 6. Ale než se 6 nových podů dostalo do “ready” stavu, ty původní přestaly kompletně odpovídat, protože byly přetížené.

Kvůli přetíženosti přestaly odpovídat na health-checky a loadbalancer je vyřadil z poolu. Následně naskočilo 6 nových podů, ty ale smetla vlna návštěvníků.

Výsledek byla nedostupná aplikace a frustrovaní uživatelé.

Naštěstí máme postavený silný monitoring, takže všem lidem z týmu začaly vyzvánět telefony s kritickými notifikacemi. Nejdřív jsme zjišťovali, jestli se nejedná o útok, co je příčina trafficu, a pak jsme manuálně zasáhli do konfigurace počtu podů.

Nastavili jsme počet podů na 48 (oproti původním 12) a aplikace začala fungovat bez problému i s takhle vysokou návštěvností.

Zkrátka a dobře HPA nebylo schopno zareagovat dostatečně rychle a intenzivně.

V tenhle moment to celé umřelo, takže další requesty už se ani nezalogovaly.

Jak se připravit na nápor návštěv

Z Carvaga k nám přišla na začátku roku jasná zpráva: bude reklama na mistrovství světa v hokeji a platforma na to musí být ready. Náš DevOpsový tým se proto pustil do příprav.

Kolik přijde lidí?

Otázka pro věštkyni, ale nějaký odhad jsme mít museli, jinak by reklama přišla vniveč. A tak jsme se dali do počítání. Opět jsme si z marketingu vypůjčili termín, a to GRP.

GRP (Gross Rating Point) je ukazatel zásahu kampaně v široké cílové skupině (což jsou obvykle lidi starší 15 let). Pokud tedy bude mít TV kampaň dva spoty, jeden se sledovaností 10 % a druhý 13 %, dosáhne na 23 GRPs.

Česko je hokejový národ, a tak se GRP u jedné reklamy vyšplhá klidně i na hodnotu 50. Potřebovali jsme tedy vymyslet, kolik lidí přijde na carvago.com. Interně jsme si dali cíl 5–10 tisíc aktivních uživatelů.

Možné scénáře návštěv

Pro naše potřeby testování jsme si určili několik možných scénářů, které mohou nastat po odvysílání reklamy:

Carvago si jen rychle omrknu a odejdu (33 %)
Chci se podívat na nabídku aut (40 %)
Přijdu přes aktivní kampaň na Kodiaq (10 %)
Přijdu přes kampaň na konkrétní auto (15 %)
Už znám Carvago (2 %)

Původně jsme chtěli simulovat návštěvnost najednou s rozložením napříč těmito scnáři. Vzhledem k tomu, že testování bylo komplikovanější, než jsme si mysleli, nakonec jsme skončili jenom u nejnáročnějšího scénáře – „Chci se podívat na nabídku aut“.

Výběr nástroje na performance testy

Následoval výběr nástroje, který nám pomůže nasimulovat velký počet návštěv. Prošli jsme jich celou řádku.

Otestovat jen API je rychlé a také relativně svižně škáluje. Jak ale dát dohromady počet endpointů, resp. kolikrát je budeme volat?

Cypress testy sice máme hotové, ale pouští se headless chrome, který žere neskutečně moc zdrojů. Takže na jednom stroji pustíme tak maximálně 5-10 instancí vedle sebe.

Naše testy v Datadog Syntheticu. Jsou hotové, tak je pojďme použít. Problém? Zvládnou maximálně 15 uživatelů za 5 minut.

Apify

‍Vždyť na Carvago platformě procházíme každý den 15 milionů inzerátů a tady jde o podobný princip. Zjistili jsme, že tudy cesta taky nepovede, protože Apify prochází všechno během celého dne. Simulace jednorázového nárazu by byla drahá a náročná.

JMeter

JMeter nám poradila externí firma. Je to poměrně šikovný nástroj s dobrou konfigurací – kolik lidí chceme, v jakých scénářích apod. Je určený primárně pro API, ale má i WebDriver pro Google Chrome.

To všechno znělo super. Problém ale byl, že to zase potřebuje pustit browser a těch potřebujeme tisíce, což je hodně serverů.

LoadRunner

LoadRunner je enterprise řešení. Bez problému zvládne námi požadovaných 10 000 virtuálních uživatelů. Problém byl v tom, že za každého uživatele se pro jeden test platí 0,15 $. Tedy jedno otestování by stálo 3 000 $.

Loadero

Loadero nám vyhovovalo cenově, testy se píšou v JavaScriptu. To znělo dobře. Testy ale bohužel nebyly příliš spolehlivé.

Hey

Hey umí hodně muziky za málo peněz. Je to takový modernější Apache Benchmark. Má ale velké omezení. Umí poslat spoustu requestů, jenže pouze na jeden endpoint.

Využili jsme ale toho, že frontend používá SSR (Server Side Rendering), tj. doptává se na spoustu dat voláním více API requestů. Takže jsme zkrátka provolávali frontend, který zase provolával několik API requestů.

Jak jsme testovali nápor 10 tisíc uživatelů

Pojďme ale od teorie pryč a podívejme se, jak proběhly performance testy.

První performance test

Nainstalovali jsme JMeter na dva servery s 8 GB paměti a zkusili pustit maximální počet requestů. Bohužel jsme byli schopni nasimulovat vyšší desítky aktivních uživatelů.

Před ukončením testu v daný večer jsme to celé zkusili ještě sundat přes Hey a povedlo se nám to už na 400 r/s.

Druhý performance test

Tentokrát jsme nainstalovali JMeter na 10 serverů, dohromady asi 50 GB paměti. Pomocí JMeteru jsme byli schopni nasimulovat pár set líných uživatelů, což bylo od našeho cíle 10 000 uživatelů furt na mílové kroky daleko.

Web těch pár set líných uživatelů v pohodě ustál.

Třetí performance test

Opustili jsme od JMeteru, protože by bylo nesmyslně složité vygenerovat zátěž v řádech tisíců uživatelů na našem železe. Sáhli jsme tedy po Loaderu, který to celé má zautomatizované.

Dohromady se nám pomocí Hey a Loadero povedlo nasimulovat tisíc uživatelů. Vzhledem k tomu, že už předtím jsme to sundali na nějakých 400 r/s, rozhodli jsme se pro naprosto nesmyslné naškálování celé infrastruktury.

Na backendové API jsme pustili 64 containerů a frontendovou aplikaci se Server-Side Renderem jsme spustili v 280 containerech. To nám dohromady dalo 732 v CPU a 3 TB paměti.

A jak si hromada železa poradila s 1 000 uživateli? Neporadila. Celé to umřelo a aplikace byla nepoužitelná.

Díky tomuto testu jsme ale získali hromadu informací o tom, co přestává stíhat, a co je potřeba ještě poladit.

Bottlenecks, aneb úzká místa připravené infrastruktury

‍

Elasticsearch

Jeden z bottlenecků, který jsme našli, byl Elasticsearch, který nezvládal vyřizovat požadavky dostatečně rychle. Z nějakého už neznámého důvodu jsme původně používali Memory Optimized instance, tak jsme je vyměnili za computed instanci a vyřešili jeden problém.

Backendové pody při zátěži umíraly

Stávalo se nám, že jakmile jsme poslali více requestů na jeden pod, tak po chvíli umřel na Sigterm. Nejdříve jsme si mysleli, že to způsobuje Segfault PHP, takže jsme prošli všechny extensions a zjistili, že tím to není.

Problém byl v tom, že jsme měli společný FPM pool pro uživatelské requesty a zároveň i pro health checky z loadbalanceru. Uživatelskými požadavky jsme vybrali komplet všechny FPM workery a tím pádem pod neodpověděl na health-check, byl vyřazenej a dostal Sigterm z venku.

Řešení bylo jednoduché: oddělit FPM pooly.

Čtvrtý (finální) performance test

Všechny optimalizace zajistily to, že jsme byli ready na 1 000 uživatelů. Ale chtěli jsme posunout hranice dál k desítkám tisíců.

V průběhu testu jsme odhalili další řadu problémů.

Další úzká místa odhalená testingem

‍

DNS Servery

V rámci Kube Clusteru běží pody pro překlad DNS adres (CoreDNS). Typicky containery se pojí s hromadou dalších služeb pomocí domén a tudíž potřebují DNS server, aby se dokázaly připojit k databázi, Elasticsearch, Redisu atd. Měli jsme jenom dva miniaturní pody a ty velké množství requestů nezvládly, takže jsme je navýšili. Zjistit to ale až při živé návštěvnosti, měla by tahle pitomá drobnost fatální následky.

Databáze RDS PgSQL

V AWS má databáze omezené množství IOPS na den závislé na velikosti úložiště. Pokud tohle množství vyčerpáte, databáze se znatelně zpomalí.

Řešením je buďto přejít na jiné úložiště, AWS nabízí ještě Provisioned IOPS, ale to vychází cenově znatelně dráž. Nebo u General Purpose SSD navýšit velikost úložiště. Navyšování je bezvýpadkový proces, bohužel snížit bez výpadku se nedá.
Proto jsme zvolili AWS Aurora, čistě Amazonní technologii. Je kompatibilní s klasickým PgSQL, ale úložiště má „neomezené“ IOPSy. Prostě zaplatíte za tolik IOPSů, kolik jich spotřebujete.

Touto migrací jsme vyřešili problém zpomalení databáze při jejím větším zatížení.

RDS Proxy

Na databázi jsme zaznamenali ještě jeden zádrhel, a to problém při vytváření spojení. Na RDS jsme měli nastaven limit na 5 000 spojení, ale jakmile jsme se jich snažili otevřít více než 500, každé nové otevření trvalo delší a delší dobu, až jsme se dostávali na hranici jednotek vteřin.

Detailně je tento efekt popsán na tomto blogu. Pro nás to znamenalo, že jsme mezi databázi a aplikaci vložili ještě RDS proxy.

RDS Proxy držela otevřené spojení vůči databázi a PHP se pojilo k Proxy, což vyřešilo problém s rychlostí otevření spojení.

Ustáli jsme to?

Po všem testování a přípravách nastala minuta M a proběhla ohlášená reklama. Obstáli jsme?

Ustáli jsme to na pohodu. Na web carvago.com přišlo díky reklamě 7 000 lidí. Původní odhad byl 1 500. Aplikace má navíc docela vtipnou featuru. Díky RDS proxy vznikne efekt, že čím vyšší je počet requestů, tím je aplikace rychlejší. Z 300 ms jsme se dostali na 150 ms.

‍

Závěr: Better safe than sorry

Naše testy byly naddimenzované na 10 000 uživatelů, ale bylo to tak správně. Díky tomu jsme platformu připravili na nápor návštěvníků během dalších reklam, které jsme ani neměli nahlášené nebo které se nečekaně posunuly. Platforma si s nimi bez problémů poradila, a tak jsme ani nemuseli držet nad výkonem infrastruktury stráž.

Takže až příště budou vaši marketéři přemýšlet o reklamní kampani, nezapomeňte je spojit s vývojáři a hlavně DevOpsáky. Vytěžíte reklamu na maximum a ušetříte si spoustu nelichotivých tweetů.

‍

Jakub Kohout

Co-founder, VP of Ass-kickery & CTO

Our blog

April 29, 2025

29.4.2025

SlackTiquette aka How communicate on Slack effectively

We've been using Slack since there were just five of us on the team. But as the number of Cookielabers has grown, we had to introduce a few tricks and rules to avoid going crazy from the flood of messages. Think of it as Slack etiquette – SlackTiquette.

Jak na efektivní komunikaci na Slacku: tipy ověřené Cookielabery

Slack používáme už od doby, kdy nás bylo v týmu pět. Jak ale počet Cookielaberů roste, bylo třeba zavést pár fíglů a pravidel, abychom se z množství zpráv nezbláznili. Taková pravidla etikety na Slacku – SlackTiketa. Na Slacku totiž řešíme jak projektové věci, tak obědy, hackathony a párty. SlackTiketu teď můžete klidně obšlehnout a zefektivnit tak komunikaci ve svém týmu. Jen nám dejte vědět, jak pro vás naše tipy byly užitečné!

Mock Service Worker - využití pro testování i vývoj

Při vývoji webových aplikací se často setkáte s potřebou testovat různé scénáře komunikace s API. Nejčastěji je třeba dostat data tak, jak by vám přišla ze serveru, nebo vyzkoušet, jak se aplikace chová, když server vrací chyby nebo se odpověď zpozdí.

Zařízené kanceláře, vybavené zasedačky, skvělá káva i relax zóna. Kdo nám chybí je spolubydlící firma. Někdo s láskou k dobré kávě, vychlazenému pivu a černému humoru.

SlackTiquette aka How communicate on Slack effectively

We've been using Slack since there were just five of us on the team. But as the number of Cookielabers has grown, we had to introduce a few tricks and rules to avoid going crazy from the flood of messages. Think of it as Slack etiquette – SlackTiquette.

iOS Cookie Crumbs: May the force (unwrap) not be with you

Cookie Crumbs is a series of short blog posts. Topics may vary, ranging from code examples and development processes to personal opinions. It's not the whole cookie—just a crumb.

Package Managers Comparison: Yarn, NPM, PNPM

Yarn, NPM and PNPM are package managers from the JavaScript world. Everyone who downloads Node.js has NPM, so it's the most commonly used, yarn was created by Meta and PNPM is the newest and fastest. Here’s a detailed look at them.

Subtleties of Software Testing (Plus a Practical Example)

How difficult is writing tests for a new application? How to mock and not go crazy doing it? What tools can help with software testing? Read our article directly from a tester.

Jak na efektivní komunikaci na Slacku: tipy ověřené Cookielabery

Slack používáme už od doby, kdy nás bylo v týmu pět. Jak ale počet Cookielaberů roste, bylo třeba zavést pár fíglů a pravidel, abychom se z množství zpráv nezbláznili. Taková pravidla etikety na Slacku – SlackTiketa. Na Slacku totiž řešíme jak projektové věci, tak obědy, hackathony a párty. SlackTiketu teď můžete klidně obšlehnout a zefektivnit tak komunikaci ve svém týmu. Jen nám dejte vědět, jak pro vás naše tipy byly užitečné!

Mock Service Worker - využití pro testování i vývoj

Při vývoji webových aplikací se často setkáte s potřebou testovat různé scénáře komunikace s API. Nejčastěji je třeba dostat data tak, jak by vám přišla ze serveru, nebo vyzkoušet, jak se aplikace chová, když server vrací chyby nebo se odpověď zpozdí.

Zařízené kanceláře, vybavené zasedačky, skvělá káva i relax zóna. Kdo nám chybí je spolubydlící firma. Někdo s láskou k dobré kávě, vychlazenému pivu a černému humoru.

Frontenďačka Barča o své cestě k Reactu i krmení pandy

Barča se mezi Cookielabbers přidala v červnu 2023 a rovnýma nohama naskočila na frontend platformy Carvago. I když ve volném čase řešila FE už na střední, v profesním životě si k němu našla cestu až postupně. Přečtěte si, proč má frontend ráda i jaké bylo krmit pandu v Číně.

ČÍST DÁL