Data Scientist - Fokus Python

  • Kursnummer

    BA-3053-B-1
  • Kosten

    auf Anfrage
  • Individueller Einstieg

    nein
  • Abschluss

    Trägerinternes Zertifikat bzw. Teilnahmebescheinigung
  • Starttermine

    • -
    • -
    • -
    • -
    • -
    • -
    • -
    • -
    Das Enddatum kann aufgrund von Feiertagen variieren.
  • Unterrichtszeiten

    Blended Learning Teilzeit
  • An folgendem Standort

    Buxtehude, Bebelstr. 40
  • Beratung und Anmeldung

    Telefon: 04161 5165-89
Druckversion (PDF)

Ein kurzer Überblick

Der Beruf des Data Scientist ist einer der gefragtesten des aktuellen Jahrhunderts. Das berufsbegleitende Online-Training unseres Kooperationspartners StackFuel vermittelt angewandte Inhalte zu den Themen Künstliche Intelligenz und Machine Learning wie unüberwachtes und überwachtes maschinelles Lernen, unterschiedliche Datenvisualisierungsmethoden und das Data-Storytelling. Dadurch werden Teilnehmende in die Rolle des Data Scientist weiterentwickelt. Anschließend können Sie Ihr erworbenes Wissen in Ihrer Abteilung einbringen und selbstständig Machine-Learning-Algorithmen implementieren. Während des Trainings arbeiten Sie in unserer browserbasierten, interaktiven Lernumgebung, dem Data Lab. Dabei handelt es sich um eine vollwertige Programmierumgebung, in der die selbst programmierten Codes ausgeführt werden können.

Mit Abschluss des Trainings können Sie Performance-Metriken und Annahmen von Modellen des überwachten und unüberwachten Lernens mit sklearn anwenden. Darüber hinaus erlangen Sie Grundlagen des Data-Storytelling sowie Best Practices der informativen Gestaltung von Visualisierungen mit bokeh Algorithmen des überwachten und unüberwachten Lernens wie Entscheidungsbäume und Random Forests.

Sie haben Interesse an einem AZAV - zertifizierten Angebot? Dann schauen Sie sich einmal unter diesem Link die Angebote an.

Dauer

Blended Learning Teilzeit
Seminardauer: 26 Wochen

Unterrichtszeiten

Das Training ist berufsbelgeitend innerhalb von 18 Wochen zu absolvieren. Als Alternative kann das Training auch als Fasttrack Variante innerhalb von 8 Wochen absolviert werden. Jede Woche werden neue Inhalte in einem interaktiven Lernmanagement-System freigeschaltet. In einem wöchentlichen Live-Webinar können Fragen mit Ihren Data Science Mentor:innen besprochen werden.

Lernmaterial: 108 Stunden

3 Module + 8 Business Cases + 1 Abschlussprojekt

StackFuel bietet Ihnen eine innovative Lernumgebung, mit der Sie Ihre Datenkompetenz auf die effektivste Weise weiterentwickeln- interaktiv und mit echten Praxisaufgaben.

Kursinhalte

Preparation
Ziel: Auffrischung der Kenntnisse im Umgang mit Python sowie mathematischer Grundlagen Beschreibung

Beschreibung:
Teilnehmende führen Analysen und Datenmanipulationen in Python aus und nutzen dabei die Pakete Pandas und Matplotlib.

Kapitel 1 – Data Analytics with Python:
Teilnehmende machen sich mit unserer interaktiven Programmierumgebung – dem Data Lab – vertraut und frischen die wichtigsten Programmier- und Python-Grundlagen zur Datenverarbeitung mit Pandas, Datenvisualisierung mit Matplotlib und Seaborn und Datenbankabfrage mit SQL Alchemy auf.

Kapitel 2 – Linear Algebra:
Teilnehmende machen sich mit dem mathematischen Hintergrund von Data-Science-Algorithmen vertraut und lernen die Grundbegriffe der linearen Algebra kennen. Unter Verwendung des Pakets Numpy rechnen die Teilnehmenden mit Vektoren und Matrizen.

Kapitel 3 – Probability Distributions:
Teilnehmende lernen mehr über den statistischen Hintergrund von Data-Science-Algorithmen. Sie beschäftigen sich mit wichtigen statistischen Konzepten und lernen diskrete und kontinuierliche Verteilungen kennen. Darüber hinaus erhalten Teilnehmende einen Einblick in die Versionierung von Code mit Git.

Machine Learning Basics
Ziel: Lösen von überwachten und unüberwachten Machine-Learning-Problemen mit sklearn

Beschreibung:
Teilnehmende erstellen Data-Science-Workflows mit sklearn, evaluieren ihre Modell-Performance anhand von geeigneten Metriken und werden für das Problem des Overfittings sensibilisiert.

Kapitel 1 – Supervised Learning (Regression):
Anhand der linearen Regression erlernen Teilnehmende den Umgang mit dem Python-Paket sklearn. Weiterhin beschäftigen sie sich mit den Annahmen des Regressionsmodells und der Evaluation der erzeugten Prognosen. In diesem Zuge werden auch der Bias-Variance Trade-Off, Konzepte der Regularisierung sowie verschiedene Maße der Modellgüte verdeutlicht.

Kapitel 2 – Supervised Learning (Classification):
Teilnehmende werden in Klassifizierungsalgorithmen anhand des k-Nearest-Neighbors-Algorithmus eingeführt und lernen, den Algorithmus zu evaluieren und die Klassifizierungsperformance einzuschätzen. Sie optimieren die Parameter ihres Modells unter Beachtung der Aufteilung der Daten in Trainings- und Evaluationssets.

Kapitel 3 – Unsupervised Learning (Clustering):
Teilnehmende lernen den k-Means-Algorithmus als Beispiel eines Algorithmus des unüberwachten Lernens kennen. Die Annahmen und Performance-Metriken des Algorithmus werden kritisch beleuchtet und ein kurzer Ausblick auf eine Alternative zum k-Means-Clustering geworfen.

Kapitel 4 – Unsupervised Learning (Dimensionality Reduction):
Teilnehmende lernen, wie sie mithilfe einer Principal Component Analysis (PCA) die Dimension der Daten verringern können und nutzen die PCA, um unkorrelierte Features aus den Ursprungsdaten zu erzeugen. In diesem Zusammenhang wird das Thema Feature Engineering näher betrachtet und aus den alten Features neue erzeugt.

Kapitel 5 – Outlier Detection:
Teilnehmende lernen verschiedene Ansätze kennen, um Ausreißer zu identifizieren und verstehen, mit diesen ungewöhnlichen Datenpunkten umzugehen. Sie nutzen robuste Maße und Modelle, um den Einfluss der Ausreißer zu minimieren.

Deep Dive Supervised Learning
Ziel: Erweiterung des eigenen Data-Science-Toolkits

Beschreibung:
Teilnehmende intensivieren ihre Kenntnisse über Modelle zur Klassifikation von Daten. Dabei erweitern sie ihre Fähigkeiten im Sammeln und Aufbereiten von Daten.

Kapitel 1 – Data Gathering:
Teilnehmende lernen, Daten zu sammeln, indem sie Webseiten und PDFDokumente auslesen. Mithilfe von Regular Expressions strukturieren sie gesammelte Textdaten so, dass sie diese zusammen mit bekannten Algorithmen verwenden können.

Kapitel 2 – Logistic Regression:

Teilnehmende lernen einen zweiten Klassifizierungsalgorithmus kennen: die logistische Regression. Sie nutzen neue Performance-Metriken zur Evaluation der Ergebnisse und erfahren, wie sie nicht-numerische Daten für ihre Modelle nutzbar machen.

Kapitel 3 – Decision Trees and Random Forests:
Teilnehmende lernen den Entscheidungsbaum als leicht zu interpretierendes Modell kennen. Sie kombinieren mehrere Modelle zu einem Ensemble, um die Vorhersagen ihres Modells zu verbessern. Weiterhin erhalten sie Methoden zu unausgeglichenen Kategorien an die Hand.

Kapitel 4 – Support Vector Machines:
Teilnehmende lernen einen letzten Klassifizierungsalgorithmus kennen – Support Vector Machines (SVM) und beleuchten das Verhalten verschiedener Kernel für die SVM. Außerdem erlernen sie die typischen Schritte des Natural Language Processing (NLP) und bearbeiten ein NLPSzenario unter Verwendung von Bag-of-Words-Modellen.

Kapitel 5 – Neural Networks:
Teilnehmende werden in künstliche neuronale Netze eingeführt und lernen mehr über Deep Learning, um ein künstliches neuronales Netzwerk mit mehreren Schichten zu erzeugen und auf ein Datenset anzuwenden.

Advanced Topics in Data Science
Ziel: Selbstständiges Anwenden einfacher und komplexer Modellierungen

Beschreibung:
Teilnehmende erlangen Souveränität im Lösen von Data-Science-Problemen und lernen, Ergebnisse kompetent zu kommunizieren.

Kapitel 1 – Visualization and Model Interpretation:
Teilnehmende erlernen wichtige Methoden zur Interpretation und Visualisierung von Machine-Learning-Modellen. Durch die Verwendung modelagnostischer Methoden zur Interpretation lernen sie Erkenntnisse zur Funktionsweise ihrer Modelle abzuleiten und zu kommunizieren.

Kapitel 2 – Spark:
Teilnehmende erfahren, weshalb die Arbeit mit verteilten Speichersystemen relevant ist. Mit dem Python-Paket PySpark erlernen sie verteilte Datenbanken auszulesen, Big-Data-Analysen durchzuführen und bekannte Machine-Learning-Algorithmen auf verteilten Systemen zu nutzen.

Kapitel 3 – Exercise Project:
Teilnehmende bearbeiten ein Prädiktionsproblem mit Hilfe eines größeren Datensets und setzen ihre Data-Science-Fähigkeiten von der Reinigung des Datensets bis zur Interpretation des Modells eigenständig ein. In einer Projektbesprechung mit dem Mentorenteam von StackFuel erhalten Teilnehmende Feedback zu ihrem Lösungsansatz.

Kapitel 4 – Final Project:
Teilnehmende erhalten ein weiteres größeres Datenset, das sie selbstständig analysieren und im Vergleich zum Übungsprojekt mit weniger Hilfestellungen lösen müssen. In einer individuellen Projektbesprechung mit dem Mentoring Team von StackFuel erhalten Teilnehmende Feedback zu ihrem Lösungsansatz.

Teilnahmevoraussetzungen

Für das Data Scientist Training werden gute Kenntnisse in Python und gängigen Modulen (pandas, matplotlib) vorausgesetzt.

Zielgruppe

Die Data Scientist Weiterbildung eignet sich für alle, die Daten analysieren und auf Grundlage dieser Vorhersagen erstellen möchten, um datengetriebene Entscheidungen zu treffen. Auch für Quereinsteiger: ist die Data Scientist Weiterbildung geeignet. Darüber hinaus sollten Sie Interesse an Statistik, logischem Denken und maschinellem Lernen mitbringen.

Ihr Abschluss

Trägerinternes Zertifikat bzw. Teilnahmebescheinigung

Ausstattung Ihres Lernplatzes und Unterrichtsmethodik

Live online Seminar (blended learning) – Lernen Sie live und interaktiv in kleinen Lerngruppen einfach im Büro oder von zu Hause aus. Unsere versierten Online-Trainer vermitteln auf anschauliche Weise praxiserprobtes Wissen und bieten Ihnen echte Impulse für Ihr Berufsleben – inkl. gemeinsamer Live-Diskussionen, themenorientierter Gruppenarbeit, Brainstormings und vielem mehr. Hier finden Sie weitere Informationen für die technischen Voraussetzungen.

Ihre Vorteile:

Ortsunabhängigkeit: Sie können von überall aus teilnehmen, sei es von zu Hause, aus dem Büro oder von unterwegs. Dadurch entfällt die Notwendigkeit für Reisen oder die physische Anwesenheit an einem bestimmten Ort.

Flexibilität: Durch die Online-Natur können Sie flexibel an Seminaren teilnehmen, die Ihren Zeitplan berücksichtigen. Oft bieten sie verschiedene Sitzungen an verschiedenen Tagen oder Uhrzeiten an, um verschiedenen Zeitplänen gerecht zu werden.

Kosteneffizienz: Live-Online-Seminare haben in der Regel niedrigere Teilnahmegebühren als Präsenzveranstaltungen. Sie sparen auch Reise- und Unterbringungskosten.

Interaktives Lernen: Trotz der virtuellen Umgebung ermöglichen Live-Online-Seminare eine interaktive Teilnahme. Sie können Fragen stellen, an Diskussionen teilnehmen und in Gruppenarbeiten zusammenarbeiten, oft durch spezielle Tools oder Chatfunktionen.

Vorteile

  • Praxisnahe Lernumgebung
  • Moderner Technologie Stack
  • Browserbasiert; Innovatives Data Lab