top of page
Untitled design - 2024-01-26T162935.807.png
Sök

Reflektioner från KubeCon/CloudNativeCon 2024

  • Skribentens bild: Michael Eklöf
    Michael Eklöf
  • 25 mars 2024
  • 3 min läsning

Uppdaterat: 18 apr. 2024

KubeCon/CloudNativeCon EU 2024 är slut, en intensiv vecka med mycket intryck och bra diskussioner! 



Det märks tydligt att intresset för OpenTelemetry har ökat rejält bara från förra året när man tittar både på hur många som deltog både på den dedikerade 'Observability Day' en dag innan stora konferensen börjat, och på övriga sessioner under veckan!

 

Hos verktygstillverkarna märks också att OTel-stödet mognat till, även om det är en bra bit kvar i funktionalitet jämfört med de mest avancerade proprietära agentbaserade lösningarna!

 

Jag valde ut top 5 sessioner (utan inbördes ordning) med mina personliga kommentarer och länkar till respektive video, samtliga videos finns på CNCF YouTube Channel.


 

Daniel Gomez Blanco pratar om hur dom arbetar med Observability och SRE på Skyscanner, bygger team och kompetens inom området. (jag har tidigare länkat till bloggposten om dom gameifierar lärandet kring felsökning här: https://opentelemetry.io/blog/2024/demo-skyscanner/ )

 


En viktig takeaway som jag tar med mig är att skilja på olika roller inom observability för att rollerna i teamen inte ska bli för komplexa och svåra att bemanna: 

  • Observability Engineers → Enablement

    • Implement company-wide standards out of the box

    • Maintain infra and SDK config

  • Observability Ambassadors → Adoption

    • Evangelise and support engineers in their domain


Jag var positivt överraskad att se att man kan fylla ett helt konferensrum med över 500 platser för ett ämne som detta, men vi som stött på utmaningarna att försöka få till vettig produktnära övervakning av asynkrona affärsflöden var uppenbarligen många!

 


Rekommenderar att se presentationen om man jobbar med asynkrona flöden över bussar/köer/streams, det finns idag ingen etablerad standard hur man ska skapa traces/spans för asynkrona flöden, så olika utvecklare och olika SDK väljer olika strategier för vad som ingår i en trace och hur traces länkas ihop (ex Span Links).


Standardisering är viktigt för att analysverktygen lättare ska kunna förstå flödena och man kan förhoppningsvis slippa modellera det manuellt som man gör i dagens verktyg (Exempelvis Business Journeys i AppDynamics eller Business Flow i Dynatrace).

Det pågår jobb inom OpenTelemetry att standardisera semantic conventions senare detta år.




Norges offentliga sektor med ett femtiotal myndigheter och statliga organisationer har en community kring Plattform Engineering där dom har mätt mognadsgraden på området och mappat mot CNCF's Maturity Model:



Man kan se att mognadsgraden är god inom fyra av de fem kategorierna, men 'Measurement' är något som de flesta ligger lågt på! (Något dom inte är ensamma om enligt mina erfarenheter)


NAV som hanterar sjukersättning, arbetslöshetsersättning osv har 2400+ publika repos på GitHub, god tanke att offentligt finansierad utveckling också bör delas publikt! (Görs något



Kortare uppdateringar för vad som hänt senaste tiden och närmsta framtiden.

  • Uppmaning att vara med i registryt över produkter som stödjer OpenTelemetry på ett eller annat sätt, jag känner till åtminstone två olika SDK'er som jag använt som saknas här: https://opentelemetry.io/ecosystem/registry/  Jag tror personligen att OTel-stöd kommer att bli ett krav när man väljer nya SDK/Libraries/Middlewares/SaaS-tjänster osv, så viktigt att finnas med

  • Profiling! Det har ju funnits länge i de proprietära APM-agenterna och ger möjlighet att se vad som händer ner på metodnivå i sin kod, nu finns två konkreta donationer där leverantörer donerar källkoden till sina profilers till projektet. Det kommer nog ta några år tills att profilerstödet är fullt implementerat och stöd finns i analysverktygen. https://opentelemetry.io/blog/2024/opentelemetry-announced-support-for-profiling/

  • Jobbet kring Client Instrumentation (Real User Monitoring) för browser och mobila enheter pågår, jag ställde frågan till panelen i slutet av sessionen om när man tror att första versionen av Browser RUM släppas, men det är stort projekt, och man jobbar nu med att slutföra arbetet kring semantic conventions och sedan få ut en första version i slutet av året.



Välgjord demo med lättförståeliga exempel på vad man kan göra redan idag gällande instrumentering av browserapplikationer och analysera användarupplevelsen.

 

Purvi visar ett antal intressanta koncept, inklusive kodexempel och hur det visualiseras i Honeycomb, speciellt snyggt att man visar browser spans och server spans i samma visualisering, det ökar förståelsen för vad som egentligen påverkar användarupplevelsen!



Pratade också med med flera som är inblandade i RUM SIG om hur man ska tolka mognadsgraden och nedanstående varning i dokumentationen gällande 'Experimental'. Jag efterfrågade mer granulär lista per feature för att visa vad som redan är stabilt idag och vad som kommer att ingå i det pågående jobbet till den kompletta versionen av Otel RUM som troligen kommer att inkludera sessionshantering, events, crash reporting, osv.



Comments


bottom of page