Praktische Datenanalyse & Programmieren mit R

Termin:
Do 08.10.2015, 9-17:30 & Fr 09.10.2015, 9-16
Dozenten:
Alexander Engelhardt, M. Sc., Giuseppe Casalicchio, M. Sc.
Voraussetzungen:
Praktische Erfahrung in der Anwendung von R zur Analyse von Daten (etwa im Umfang des Anfängerkurses)

Inhalt:

Dieser Kurs ist eine individuelle Kombination der beliebtesten Inhalte unserer beiden Kurse "Praktische Datenanalyse mit R" und "Programmieren mit R" und dient der allgemeinen Vertiefung in R. Der Kurs richtet sich an Teilnehmer, die bereits erste Erfahrungen mit R gesammelt haben (z.B. im Anfängerkurs, oder auch im Selbststudium). Aufbauend auf grundlegenden R-Kenntnissen werden einfache Techniken vermittelt, mittels derer sich das komplexe Werkzeug R leichter und effizienter bedienen lässt. Weiterhin werden einige bekannte Methoden aus der Statistik vorgestellt, die zur Analyse eigener Daten verwendet werden können. Alle verwendeten statistischen Verfahren und Programmiertechniken werden zur Auffrischung kurz erklärt, an echten Datenbeispielen motiviert, demonstriert und mit Hilfe von Übungsaufgaben von den Teilnehmern eingeübt. Zudem wird in dem Anwendungsteil des Kurses auch auf die Interpretation der Ergebnisse eingegangen.
Themenschwerpunkte sind dabei:
  • Effizienter Umgang mit R und schreiben eigener Funktionen in R
  • Dynamische Berichterstellung mit Hilfe von Rmarkdown bzw. Umwandlung von R Code und R Output in besser lesbare Dateiformate wie PDF, Word oder HTML
  • Einfache Verfahren zur Visualisierung von Daten
  • Klassische Hypothesen-Tests (z.B. t-Test)
  • Das lineare Regressionsmodell mit Erweiterungen wie multipler Regression und Verwendung von kategorischen Prädiktoren
Alle vorgestellten Inhalte werden ausführlich erläutert, vorgeführt und mit Hilfe von Übungsaufgaben von den Teilnehmern eingeübt.

R Basiskurs

Termin:
Di 16.02.2016, 9-17:30 & Mi 17.02.2016, 9-16
Dozenten:
Giuseppe Casalicchio, M. Sc.
Voraussetzungen:
keine

Inhalt:

Dieser Grundkurs richtet sich an Anfänger, die das Werkzeug R zur Analyse und Visualisierung eigener Daten erlernen wollen. Neben Installation und Grundlagen der Bedienung von R wird die praktische Anwendung einfacher deskriptiver statistischer Methoden an Beispielen demonstriert und geübt. Der Kurs umfasst die Themen:
  • Grundlagen statistischer Software
  • Grundlagen von R, Installation des Basispakets und von Erweiterungspaketen
  • Graphische Benutzerschnittstellen (GUIs) für R
  • Datenimport und Datenmanipulation, Interaktion mit Tabellenkalkulationsprogrammen
  • Berechnung von Kennzahlen: Mittelwert, Varianz, Median, Quantile, Häufigkeitsverteilungen, Kontingenztafeln, ...
  • einfache Grafiken: Histogramme, Boxplots, Dichteschätzer, Balken- & Streudiagramme, ...





Programmieren mit R

Termin:
Do 18.02.2016, 9-17:30 & Fr 19.02.2016, 9-16
Dozenten:
Alexander Engelhardt, M. Sc., Giuseppe Casalicchio, M. Sc.
Voraussetzungen:
Praktische Erfahrung in der Anwendung von R zur Analyse von Daten (etwa im Umfang des Anfängerkurses)

Inhalt:

Dieser Kurs dient der allgemeinen Vertiefung in R und richtet sich an Teilnehmer, die bereits erste Erfahrungen mit R gesammelt haben (z.B. im Anfängerkurs, oder auch im Selbststudium). Aufbauend auf grundlegenden R-Kenntnissen werden einfache Techniken vermittelt, mittels derer sich R leichter und effizienter bedienen lässt. Es werden Grundkonzepte der Programmierung mit R behandelt, die zum besseren Verständnis der Funktionsweise in R führen, womit individuelle Anforderungen eigener / neuer Analysen und Methoden ermöglichen. Dies umfasst die Verwendung von Scripts zur Reproduktion von Analysen, die Automatisierung von Analysen, die Adaption von Standardverfahren an eigene Bedürfnisse, sowie die Implementierung einfacher neuer Verfahren. Zudem wird erklärt, wie sich statistische Resultate und Ergebnisse aus R Code automatisch und dynamisch in Berichten einbinden lässt. Themenschwerpunkte sind dabei:
  • Effizienter Umgang mit R
  • Schreiben eigener Funktionen
  • Tipps und Tricks zu gutem Programmierstil, gute Programmierpraktiken
  • Hilfswerkzeuge: Laufzeitanalyse, Debugging, Exception Handling, ...
  • Objektorientierte Programmierung
  • Implementierung eigener statistischer Modelle in R und Erstellung von R Paketen
  • Dynamische Berichterstellung mit Hilfe von Rmarkdown
  • Umwandlung von R Code und R Output in besser lesbare Dateiformate wie PDF, Word oder HTML.
Alle vorgestellten Inhalte werden ausführlich erläutert, vorgeführt und mit Hilfe von Übungsaufgaben von den Teilnehmern eingeübt.

Praktische Datenanalyse mit R

Termin:
Do 03.03.2016, 9-17:30 & Fr 04.03.2016, 9-16
Dozenten:
Andreas Bender, M. Sc, Giuseppe Casalicchio, M. Sc.
Voraussetzungen:
Grundkenntnisse in R (im Umfang des Anfängerkurses) oder Programmier-Erfahrung, Grundkenntnisse in Statistik

Inhalt:

Dieser Kurs wurde für Personen konzipiert, die bekannte Standardmethoden der Statistik mit Hilfe von R zur Analyse eigener Daten verwenden möchten. Themenschwerpunkte sind dabei:
  • Einfache Verfahren zur Visualisierung von Daten
  • Klassische Hypothesen-Tests (z.B. t-Test)
  • Varianzanalyse (z.B. ANOVA)
  • Das lineare Regressionsmodell mit Erweiterungen wie multipler Regression und Verwendung von kategorischen Prädiktoren
  • Logistische Regression und verallgemeinerte lineare Modelle.
Alle verwendeten statistischen Verfahren werden zur Auffrischung kurz erklärt, an echten Datenbeispielen motiviert, demonstriert und mit Hilfe von Übungsaufgaben eingeübt. Zudem wird in dem Anwendungsteil des Kurses auch auf die Interpretation der Ergebnisse eingegangen.

Der Kurs basiert auf dem Buch "A Handbook of Statistical Analysis Using R" von Brian S. Everitt und Torsten Hothorn, erschienen 2006 bei CRC Press (ISBN 9781584885399).

Programmieren mit R

Termin:
Do 10.03.2016, 9-17:30 & Fr 11.03.2016, 9-16 (verschoben auf September)
Dozenten:
Giuseppe Casalicchio, M. Sc.
Voraussetzungen:
Praktische Erfahrung in der Anwendung von R zur Analyse von Daten (etwa im Umfang des Anfängerkurses)

Inhalt:

Dieser Kurs dient der allgemeinen Vertiefung in R und richtet sich an Teilnehmer, die bereits erste Erfahrungen mit R gesammelt haben (z.B. im Anfängerkurs, oder auch im Selbststudium). Aufbauend auf grundlegenden R-Kenntnissen werden einfache Techniken vermittelt, mittels derer sich R leichter und effizienter bedienen lässt. Es werden Grundkonzepte der Programmierung mit R behandelt, die zum besseren Verständnis der Funktionsweise in R führen, womit individuelle Anforderungen eigener / neuer Analysen und Methoden ermöglichen. Dies umfasst die Verwendung von Scripts zur Reproduktion von Analysen, die Automatisierung von Analysen, die Adaption von Standardverfahren an eigene Bedürfnisse, sowie die Implementierung einfacher neuer Verfahren. Zudem wird erklärt, wie sich statistische Resultate und Ergebnisse aus R Code automatisch und dynamisch in Berichten einbinden lässt. Themenschwerpunkte sind dabei:
  • Effizienter Umgang mit R
  • Schreiben eigener Funktionen
  • Tipps und Tricks zu gutem Programmierstil, gute Programmierpraktiken
  • Hilfswerkzeuge: Laufzeitanalyse, Debugging, Exception Handling, ...
  • Objektorientierte Programmierung
  • Implementierung eigener statistischer Modelle in R und Erstellung von R Paketen
  • Dynamische Berichterstellung mit Hilfe von Rmarkdown
  • Umwandlung von R Code und R Output in besser lesbare Dateiformate wie PDF, Word oder HTML.
Alle vorgestellten Inhalte werden ausführlich erläutert, vorgeführt und mit Hilfe von Übungsaufgaben von den Teilnehmern eingeübt.

R Basiskurs

Termin:
Di 21.07.2016, 9-17:30 & Mi 22.07.2016, 9-16
Dozenten:
Giuseppe Casalicchio, M. Sc.
Voraussetzungen:
keine

Inhalt:

Dieser Grundkurs richtet sich an Anfänger, die das Werkzeug R zur Analyse und Visualisierung eigener Daten erlernen wollen. Neben Installation und Grundlagen der Bedienung von R wird die praktische Anwendung einfacher deskriptiver statistischer Methoden an Beispielen demonstriert und geübt. Der Kurs umfasst die Themen:
  • Grundlagen statistischer Software
  • Grundlagen von R, Installation des Basispakets und von Erweiterungspaketen
  • Graphische Benutzerschnittstellen (GUIs) für R
  • Datenimport und Datenmanipulation, Interaktion mit Tabellenkalkulationsprogrammen
  • Berechnung von Kennzahlen: Mittelwert, Varianz, Median, Quantile, Häufigkeitsverteilungen, Kontingenztafeln, ...
  • einfache Grafiken: Histogramme, Boxplots, Dichteschätzer, Balken- & Streudiagramme, ...



Eigene Zusatzpakete in R erstellen

Termin:
Mo 25.07.2016, 9-17:30 & Di 26.07.2016, 9-16
Dozenten:
Prof. Bernd Bischl, Dr. Fabian Scheipl
Voraussetzungen:
Programmiererfahrung mit R

Inhalt:

Effektive Datenanalyse verlangt nach effizienter Nutzung und souveräner Beherrschung moderner Softwaretools. In diesem Kurs werden Programmiertechniken vermittelt, die eine bessere Kontrolle der Arbeitsumgebung in R erlauben und Sie in die Lage versetzen Ihre eigenen Ideen in Software zu verwirklichen und anderen in Form von R Paketen zugänglich zu machen. Der Kurs umfasst die Themen:
  • Kurze Wiederholung: Grundlagen und Prinzipien von R, Verfassen eigener Funktionen, Debugging
  • Das S3 Klassensystem
  • Die R Paketstruktur
  • Arbeiten mit dem 'devtools' Paket zur Paketentwicklung
  • Moderne Paketdokumentation mit 'roxygen2'
  • Wie funktionieren Namespaces in R?
  • Moderne Unit-Tests mit 'testthat'
  • Erstellen von Vignetten für R Pakete mit 'knitr'

Einführung Maschinelles Lernen und Data Mining mit R

Termin:
Do 28.07.2016, 9-17:30 & Fr 29.07.2016, 9-16
Dozenten:
Prof. Dr. Bernd Bischl
Voraussetzungen:
Grundkenntnisse in R bzw. Datenanalyse (im Umfang des R Basiskurs), Grundkenntnisse in Statistik

Inhalt:

In diesem Kurs werden moderne statistische Verfahren des maschinellen Lernens zur Analyse komplexer Klassifikations- und Regressionsprobleme vorgestellt, die besonders für die Modellierung überwachter, nicht-linearer Zusammenhänge geeignet sind. Die zugrundeliegenden Prinzipien der Verfahren werden für Anfänger verständlich eingeführt und illustriert, sowie Besonderheiten herausgehoben. Der Hauptteil des Kurses beschäftigt sich mit der Anwendung von in R verfügbaren Werkzeugen anhand praktischer Beispiele. Modellierungstechniken, die im Kurs behandelt werden:
  • Elementare, einfache Klassifikations- und Regressionsmodelle
  • Klassifikations- und Regressions-Bäume
  • Random Forests
  • Boosting
Weiterführende Themen, die im Kurs behandelt werden:
  • Modellevaluation und Resampling (z.B. Kreuzvalidierung, Bootstrap)
  • Modellselektion und Hyperparameter-Tuning
  • Parallelisierung
Der Kurs wird in deutscher Sprache gehalten, die Kursmaterialien sind in englischer Sprache verfasst. Wir bitten die Teilnehmer bei der Anmeldung kurz mitzuteilen, zu welchen der oben genannten Themen bereits Vorkenntnisse bestehen. Der Kurs ist als Einstiegskurs konzipiert. Sollte Bedarf zu fortgeschrittenen Themen im Bereich Machine Learning bestehen, nehmen Sie bitte direkt Kontakt mit dem Dozenten auf.

Programmieren mit R

Termin:
Do 15.09.2016, 9-17:30 & Fr 16.09.2016, 9-16
Dozenten:
Giuseppe Casalicchio, M. Sc.
Voraussetzungen:
Praktische Erfahrung in der Anwendung von R zur Analyse von Daten (etwa im Umfang des Anfängerkurses)

Inhalt:

Dieser Kurs dient der allgemeinen Vertiefung in R und richtet sich an Teilnehmer, die bereits erste Erfahrungen mit R gesammelt haben (z.B. im Anfängerkurs, oder auch im Selbststudium). Aufbauend auf grundlegenden R-Kenntnissen werden einfache Techniken vermittelt, mittels derer sich R leichter und effizienter bedienen lässt. Es werden Grundkonzepte der Programmierung mit R behandelt, die zum besseren Verständnis der Funktionsweise in R führen, womit individuelle Anforderungen eigener / neuer Analysen und Methoden ermöglichen. Dies umfasst die Verwendung von Scripts zur Reproduktion von Analysen, die Automatisierung von Analysen, die Adaption von Standardverfahren an eigene Bedürfnisse, sowie die Implementierung einfacher neuer Verfahren. Zudem wird erklärt, wie sich statistische Resultate und Ergebnisse aus R Code automatisch und dynamisch in Berichten einbinden lässt. Themenschwerpunkte sind dabei:
  • Effizienter Umgang mit R
  • Schreiben eigener Funktionen
  • Tipps und Tricks zu gutem Programmierstil, gute Programmierpraktiken
  • Hilfswerkzeuge: Laufzeitanalyse, Debugging, Exception Handling, ...
  • Objektorientierte Programmierung
  • Dynamische Berichterstellung mit Hilfe von Rmarkdown
  • Umwandlung von R Code und R Output in besser lesbare Dateiformate wie PDF, Word oder HTML.
Alle vorgestellten Inhalte werden ausführlich erläutert, vorgeführt und mit Hilfe von Übungsaufgaben von den Teilnehmern eingeübt.

Moderne Multivariate Verfahren mit R

Termin:
Do 29.09.2016, 9-17:30 & Fr 30.09.2016, 9-16
Dozenten:
Dr. Steffen Unkel, Giuseppe Casalicchio, M. Sc.
Voraussetzungen:
Praktische Erfahrung in der Anwendung von R zur Analyse von Daten (etwa im Umfang des Anfängerkurses)

Inhalt:

Multivariate Verfahren beschäftigen sich mit dem Auffinden und der Modellierung von Strukturen in höherdimensionalen Datensätzen. Kursinhalte sind:
  • Prognose kategorischer abhängiger Variablen (Klassifikation) mittels Diskriminanzanalyse.
  • Auffinden von Gruppen bzw. Ähnlichkeitsstrukturen in Daten mit Hilfe der Clusteranalyse.
  • Dimensionsreduktion von Datensätzen mittels Hauptkomponentenanalyse (PCA) und moderne Erweiterungen auf sparse und hochdimensionale Daten.
  • Biplots zur Visualisierung multivariater Datensätze.
  • Assoziationsanalyse.
Ziel der Diskriminanzanalyse ist die Klassifizierung von Beobachtungen in Gruppen (z.B. Klassifizierung von "kreditwürdige" und "nicht kreditwürdige" Kunden). Hierbei wird versucht die im Vorfeld bekannten Gruppen anhand von Merkmalen (z.B. Alter oder Einkommen eines Kunden) möglichst optimal zu trennen. Bei der Clusteranalyse sind die Gruppen im Vorfeld nicht bekannt, d.h. es sollen für gegebene Daten verschiedene Gruppen gefunden werden (sog. Cluster). Die Einteilung in Gruppen soll so erfolgen, dass sich Beobachtungen innerhalb eines Clusters möglichst ähnlich sind und sich die Cluster untereinander möglichst unterscheiden.
Die Hauptkomponentenanalyse (englisch: Principal Component Analysis (PCA)) ersetzt eine Vielzahl miteinander korrelierter Variablen durch eine geringere Zahl unkorrelierter Hauptkomponenten. Häufig ist es vorteilhaft wenn die Lösung einer Hauptkomponentenanalyse möglichst viele Null-Einträge aufweist (englisch: sparse solution). Darüber hinaus liegen in Anwendungen zunehmend hochdimensionale Datenstrukturen vor, in denen die Anzahl der Variablen deutlich größer als die Anzahl der Beobachtungen ist. Biplots bieten die Möglichkeit der gleichzeitigen Visualisierung der Zeilen und Spalten einer Datenmatrix, aufbauend auf dimensionsreduzierenden Verfahren. Die Assoziationsanalyse bezeichnet die Suche nach Assoziationsregeln. Diese beschreiben Korrelationen zwischen gemeinsam auftretenden Dingen. Der Zweck einer Assoziationsanalyse besteht darin, Items (Elemente einer Menge, wie z.B. einzelne Artikel eines Warenkorbs) zu ermitteln, die das Auftreten anderer Items innerhalb einer Transaktion implizieren. Die zugrundeliegenden Prinzipien der o.a. Verfahren werden verständlich eingeführt und illustriert. Der Schwerpunkt des Kurses liegt auf der Anwendung von in R verfügbaren Werkzeugen zur Implementierung der Methoden anhand von Beispielen aus der Praxis. Der Kurs findet in deutscher Sprache statt, die Kursunterlagen sind in englischer Sprache verfasst. 

Praktische Datenanalyse mit R

Termin:
Di 04.10.2016, 9-17:30 & Mi 05.10.2016, 9-16
Dozenten:
Giuseppe Casalicchio, M. Sc.
Voraussetzungen:
Grundkenntnisse in R (im Umfang des Anfängerkurses) oder Programmier-Erfahrung, Grundkenntnisse in Statistik

Inhalt:

Dieser Kurs wurde für Personen konzipiert, die bekannte Standardmethoden der Statistik mit Hilfe von R zur Analyse eigener Daten verwenden möchten. Themenschwerpunkte sind dabei:
  • Einfache Verfahren zur Visualisierung von Daten
  • Klassische Hypothesen-Tests (z.B. t-Test)
  • Varianzanalyse (z.B. ANOVA)
  • Das lineare Regressionsmodell mit Erweiterungen wie multipler Regression und Verwendung von kategorischen Prädiktoren
  • Logistische Regression und verallgemeinerte lineare Modelle.
Alle verwendeten statistischen Verfahren werden zur Auffrischung kurz erklärt, an echten Datenbeispielen motiviert, demonstriert und mit Hilfe von Übungsaufgaben eingeübt. Zudem wird in dem Anwendungsteil des Kurses auch auf die Interpretation der Ergebnisse eingegangen.

Der Kurs basiert auf dem Buch "A Handbook of Statistical Analysis Using R" von Brian S. Everitt und Torsten Hothorn, erschienen 2006 bei CRC Press (ISBN 9781584885399).