Einführung in R
R ist eine Sprache und Umgebung für statistische Berechnungen und Grafiken. Es ist ein GNU-Projekt, das der S-Sprache und -Umgebung ähnelt, die bei Bell Laboratories (früher BEI&T, jetzt Lucent Technologies) von John Chambers und Kollegen entwickelt wurde. Es gibt einige wichtige Unterschiede, aber viel Code, der für S geschrieben wurde, läuft unverändert unter R.
R bietet eine Vielzahl statistischer (lineare und nichtlineare Modellierung, klassische statistische Tests, Zeitreihenanalyse, Klassifikation, Clustering, …) und grafischer Techniken und ist in hohem Maße erweiterbar. Die S-Sprache ist oft das Mittel der Wahl für die Forschung in der statistischen Methodik, und R bietet einen Open-Source-Weg zur Teilnahme an dieser Aktivität.
Eine der Stärken von R ist die Leichtigkeit, mit der gut gestaltete Diagramme in Publikationsqualität erstellt werden können, einschließlich mathematischer Symbole und Formeln, falls erforderlich. Große Sorgfalt wurde über die Standardeinstellungen für die kleineren Design-Entscheidungen in Grafiken genommen, aber der Benutzer behält die volle Kontrolle.
R steht als Freie Software unter den Bedingungen der GNU General Public License der Free Software Foundation in Quellcodeform zur Verfügung. Es kompiliert und läuft auf einer Vielzahl von UNIX-Plattformen und ähnlichen Systemen (einschließlich FreeBSD und Linux), Windows und macOS.
Die R-Umgebung
R ist eine integrierte Suite von Softwarefunktionen zur Datenmanipulation, Berechnung und grafischen Anzeige. Es umfasst
- eine effektive Datenverarbeitungs- und Speichereinrichtung,
- eine Reihe von Operatoren für Berechnungen auf Arrays, insbesondere Matrizen,
- eine große, kohärente, integrierte Sammlung von Zwischenwerkzeugen für die Datenanalyse,
- grafische Einrichtungen für die Datenanalyse und -anzeige entweder auf dem Bildschirm oder auf Papier und
- eine gut entwickelte, einfache und effektive Programmiersprache, die Bedingungen, Schleifen, benutzerdefinierte rekursive Funktionen sowie Eingabe- und Ausgabemöglichkeiten umfasst.
Der Begriff „Umgebung“ soll sie als vollständig geplantes und kohärentes System charakterisieren und nicht als inkrementelle Anhäufung sehr spezifischer und unflexibler Werkzeuge, wie dies häufig bei anderer Datenanalysesoftware der Fall ist.
R basiert wie S auf einer echten Computersprache und ermöglicht es Benutzern, zusätzliche Funktionen hinzuzufügen, indem sie neue Funktionen definieren. Ein Großteil des Systems ist selbst im R-Dialekt von S geschrieben, was es den Benutzern leicht macht, den getroffenen algorithmischen Entscheidungen zu folgen. Für rechenintensive Aufgaben kann C-, C ++- und Fortran-Code zur Laufzeit verknüpft und aufgerufen werden. Fortgeschrittene Benutzer können C-Code schreiben, um R-Objekte direkt zu bearbeiten.
Viele Benutzer betrachten R als ein Statistiksystem. Wir betrachten es lieber als eine Umgebung, in der statistische Techniken implementiert werden. R kann (einfach) über Pakete erweitert werden. Es gibt ungefähr acht Pakete, die mit der R-Distribution geliefert werden, und viele weitere sind über die CRAN-Familie von Internetseiten verfügbar, die ein sehr breites Spektrum moderner Statistiken abdecken.
R verfügt über ein eigenes LaTeX-ähnliches Dokumentationsformat, mit dem eine umfassende Dokumentation sowohl online in einer Reihe von Formaten als auch in Papierform bereitgestellt wird.