Introduzione a R
R è un linguaggio e un ambiente per il calcolo statistico e la grafica. È un progetto GNU che è simile al linguaggio e all’ambiente S che è stato sviluppato presso i Bell Laboratories (precedentemente A& T, ora Lucent Technologies) da John Chambers e colleghi. R può essere considerato come una diversa implementazione di S. Ci sono alcune differenze importanti, ma molto codice scritto per S viene eseguito inalterato sotto R.
R fornisce un’ampia varietà di tecniche statistiche (modellazione lineare e non lineare, test statistici classici, analisi di serie temporali, classificazione, clustering, …) e grafiche, ed è altamente estensibile. Il linguaggio S è spesso il veicolo di scelta per la ricerca in metodologia statistica, e R fornisce un percorso Open Source per la partecipazione a tale attività.
Uno dei punti di forza di R è la facilità con cui è possibile produrre grafici di qualità di pubblicazione ben progettati, inclusi simboli matematici e formule dove necessario. Grande cura è stata presa sui valori predefiniti per le scelte di progettazione minori nella grafica, ma l’utente mantiene il pieno controllo.
R è disponibile come Software Libero sotto i termini della GNU General Public License della Free Software Foundation in forma di codice sorgente. Compila e gira su un’ampia varietà di piattaforme UNIX e sistemi simili (inclusi FreeBSD e Linux), Windows e macOS.
L’ambiente R
R è una suite integrata di servizi software per la manipolazione dei dati, il calcolo e la visualizzazione grafica. Esso include
- un’efficace gestione dei dati e l’impianto di stoccaggio,
- un insieme di operatori per i calcoli su matrici, in particolare matrici,
- un grande, coerente, integrato collezione di strumenti intermedi per l’analisi dei dati
- grafica di strutture per l’analisi dei dati e la visualizzazione su schermo o su supporto cartaceo, e
- un ben sviluppato, semplice ed efficace linguaggio di programmazione che include istruzioni condizionali, cicli, funzioni ricorsive definite dall’utente e funzioni di input / output.
Il termine “ambiente” è inteso a caratterizzarlo come un sistema completamente pianificato e coerente, piuttosto che un accrescimento incrementale di strumenti molto specifici e inflessibili, come spesso accade con altri software di analisi dei dati.
R, come S, è progettato attorno a un vero linguaggio informatico e consente agli utenti di aggiungere funzionalità aggiuntive definendo nuove funzioni. Gran parte del sistema stesso è scritto nel dialetto R di S, che rende facile per gli utenti di seguire le scelte algoritmiche fatte. Per le attività computazionalmente intensive, il codice C, C++ e Fortran può essere collegato e chiamato in fase di esecuzione. Gli utenti avanzati possono scrivere codice C per manipolare direttamente gli oggetti R.
Molti utenti pensano di R come un sistema di statistiche. Preferiamo considerarlo come un ambiente all’interno del quale vengono implementate tecniche statistiche. R può essere esteso (facilmente) tramite pacchetti. Ci sono circa otto pacchetti forniti con la distribuzione R e molti altri sono disponibili attraverso la famiglia CRAN di siti Internet che coprono una vasta gamma di statistiche moderne.
R ha un proprio formato di documentazione simile a LaTeX, che viene utilizzato per fornire una documentazione completa, sia on-line in un certo numero di formati che in formato cartaceo.