Player FM ऐप के साथ ऑफ़लाइन जाएं!
Data Science
Manage episode 524695548 series 2536516
Data Science (click here to comment)
, Jochen🎙️ Zu Gast: Mira – Data Scientist, Geschäftsführerin einer Berliner Data-Science-Beratung und Host des Podcasts Data Science Deep Dive.
Dominik und Jochen sprechen mit ihr darüber, was Data Science in der Praxis heute bedeutet: weniger Machine-Learning-Magie, mehr solides Datenhandwerk – von der Problemanalyse über Feature Engineering bis hin zu Deployment, Monitoring und Drift. An konkreten Projekten (u. a. einer Luftschadstoff-Prognose für die Berliner Senatsverwaltung) wird klar, wo die echten Herausforderungen liegen – und wo die spannendsten Hebel sind.
In dieser Episode:
- 📊 Was "Data Science" eigentlich umfasst – Skills, Rollen und warum man dafür nicht unbedingt Informatik studiert haben muss
- 🔄 CRISP-DM in der Praxis – vom Use-Case bis Wartung und Drift, und warum die Modellierung oft nur ein kleiner Teil ist
- 🛠️ Tooling & Architektur – Pandas, Scikit-Learn, Polars, Kubernetes, ClickHouse, REST-API, MLflow und Alerting mit Redash
- 🌳 XGBoost vs. TabPFN – warum Gradient Boosting immer noch der Klassiker ist und was Transformer-Modelle für tabulare Daten können
- 🔍 Feature Engineering & Interpretierbarkeit – mit SHAP verstehen, was das Modell gelernt hat
- ⚡ Performance in der Realität – Spark vs. Polars, Sampling, vektorisierte Operationen und warum "verteilen" nicht automatisch schneller heißt
- 🚗 LLMs für Vorhersagen – Experimente mit Gebrauchtwagenpreisen und warum Finetuning hier Sinn macht
Unsere Picks:
- Mira: Pandas UDFs für Parallelisierung in Spark – von Stunden auf Minuten 🚀
- Dominik: just – Hynek erklärt, warum just der bessere Taskrunner ist als make
- Jochen: ccusage / ccusage for codex – Token-Kosten im Blick behalten bei claude code / codex
Shownotes
Unsere E-Mail für Fragen, Anregungen & Kommentare: [email protected]
Data Science
- Data Science Beratung inwt
- Cross-industry standard process for data mining CRISP-DM
- Visualisierungen: ggplot2 / Redash
- pandas / polars / PySpark
- mlflow
- ClickHouse
- XGBoost / CatBoost / LightGBM / TebPFN / SHAP
- ibis / arrow
Picks
- pandas_udf
- uv: Making Local Python Workflows FAST and BORING in 2025 | Starts at the justfile part..
- ccusage / ccusage for codex
- ElevenLabs / NobebookLM | Um sich Podcasts zu generieren..
- Data Science Deep Dive
67 एपिसोडस
Manage episode 524695548 series 2536516
Data Science (click here to comment)
, Jochen🎙️ Zu Gast: Mira – Data Scientist, Geschäftsführerin einer Berliner Data-Science-Beratung und Host des Podcasts Data Science Deep Dive.
Dominik und Jochen sprechen mit ihr darüber, was Data Science in der Praxis heute bedeutet: weniger Machine-Learning-Magie, mehr solides Datenhandwerk – von der Problemanalyse über Feature Engineering bis hin zu Deployment, Monitoring und Drift. An konkreten Projekten (u. a. einer Luftschadstoff-Prognose für die Berliner Senatsverwaltung) wird klar, wo die echten Herausforderungen liegen – und wo die spannendsten Hebel sind.
In dieser Episode:
- 📊 Was "Data Science" eigentlich umfasst – Skills, Rollen und warum man dafür nicht unbedingt Informatik studiert haben muss
- 🔄 CRISP-DM in der Praxis – vom Use-Case bis Wartung und Drift, und warum die Modellierung oft nur ein kleiner Teil ist
- 🛠️ Tooling & Architektur – Pandas, Scikit-Learn, Polars, Kubernetes, ClickHouse, REST-API, MLflow und Alerting mit Redash
- 🌳 XGBoost vs. TabPFN – warum Gradient Boosting immer noch der Klassiker ist und was Transformer-Modelle für tabulare Daten können
- 🔍 Feature Engineering & Interpretierbarkeit – mit SHAP verstehen, was das Modell gelernt hat
- ⚡ Performance in der Realität – Spark vs. Polars, Sampling, vektorisierte Operationen und warum "verteilen" nicht automatisch schneller heißt
- 🚗 LLMs für Vorhersagen – Experimente mit Gebrauchtwagenpreisen und warum Finetuning hier Sinn macht
Unsere Picks:
- Mira: Pandas UDFs für Parallelisierung in Spark – von Stunden auf Minuten 🚀
- Dominik: just – Hynek erklärt, warum just der bessere Taskrunner ist als make
- Jochen: ccusage / ccusage for codex – Token-Kosten im Blick behalten bei claude code / codex
Shownotes
Unsere E-Mail für Fragen, Anregungen & Kommentare: [email protected]
Data Science
- Data Science Beratung inwt
- Cross-industry standard process for data mining CRISP-DM
- Visualisierungen: ggplot2 / Redash
- pandas / polars / PySpark
- mlflow
- ClickHouse
- XGBoost / CatBoost / LightGBM / TebPFN / SHAP
- ibis / arrow
Picks
- pandas_udf
- uv: Making Local Python Workflows FAST and BORING in 2025 | Starts at the justfile part..
- ccusage / ccusage for codex
- ElevenLabs / NobebookLM | Um sich Podcasts zu generieren..
- Data Science Deep Dive
67 एपिसोडस
सभी एपिसोड
×प्लेयर एफएम में आपका स्वागत है!
प्लेयर एफएम वेब को स्कैन कर रहा है उच्च गुणवत्ता वाले पॉडकास्ट आप के आनंद लेंने के लिए अभी। यह सबसे अच्छा पॉडकास्ट एप्प है और यह Android, iPhone और वेब पर काम करता है। उपकरणों में सदस्यता को सिंक करने के लिए साइनअप करें।