Inleiding tot R
R is een taal en omgeving voor statistische berekeningen en grafieken. Het is een GNU-project dat vergelijkbaar is met de S language and environment dat werd ontwikkeld door Bell Laboratories (voorheen bij&T, nu Lucent Technologies) door John Chambers en collega ‘ s. R kan worden beschouwd als een andere implementatie van S. Er zijn enkele belangrijke verschillen, maar veel code geschreven voor S draait ongewijzigd onder R.
R biedt een grote verscheidenheid aan statistische technieken (lineaire en niet-lineaire modellering, klassieke statistische tests, tijdreeksanalyse, classificatie, clustering, …) en grafische technieken, en is zeer uitbreidbaar. De S-taal is vaak het medium bij uitstek voor onderzoek in statistische methodologie, en R biedt een open Source route naar deelname aan die activiteit.
een van de sterke punten van R is het gemak waarmee goed ontworpen grafieken van publicatiekwaliteit kunnen worden geproduceerd, waar nodig met inbegrip van wiskundige symbolen en formules. Grote zorg is genomen over de standaardinstellingen voor de kleine ontwerp keuzes in graphics, maar de gebruiker behoudt de volledige controle.
R is beschikbaar als vrije Software onder de voorwaarden van de GNU General Public License van de Free Software Foundation in broncodevorm. Het compileert en draait op een breed scala aan UNIX platforms en soortgelijke systemen (waaronder FreeBSD en Linux), Windows en MacOS.
de R-omgeving
R is een geïntegreerde reeks softwarefaciliteiten voor datamanipulatie, berekening en grafische weergave. Het bevat
- een effectieve data-hantering en opslag faciliteit,
- een suite van operatoren voor berekeningen met matrices, in het bijzonder matrices,
- een grote, samenhangende, geïntegreerde verzameling van intermediaire tools voor data-analyse
- grafische faciliteiten voor data-analyse en weergave op het scherm of op een afdruk, en
- een goed ontwikkelde, eenvoudige en effectieve programmeertaal waarin conditionals, loops, door de gebruiker gedefinieerde recursieve functies en input-en output-voorzieningen.
De term “omgeving” is bedoeld om het te karakteriseren als een volledig gepland en samenhangend systeem, in plaats van een incretie van zeer specifieke en inflexibele instrumenten, zoals vaak het geval is met andere software voor gegevensanalyse.
R, net als S, is ontworpen rond een echte computertaal, en het stelt gebruikers in staat om extra functionaliteit toe te voegen door nieuwe functies te definiëren. Een groot deel van het systeem is zelf geschreven in het R dialect van S, wat het voor gebruikers gemakkelijk maakt om de algoritmische keuzes te volgen. Voor computationeel-intensieve taken kunnen c, c++ en Fortran code worden gekoppeld en aangeroepen tijdens runtime. Gevorderde gebruikers kunnen C-code schrijven om R-objecten direct te manipuleren.
veel gebruikers zien R als een statistisch systeem. Wij zien het liever als een omgeving waarin statistische technieken worden toegepast. R kan (eenvoudig) worden uitgebreid via pakketten. Er zijn ongeveer acht pakketten geleverd met de R distributie en veel meer zijn beschikbaar via de CRAN familie van internetsites die een zeer breed scala van moderne statistieken.
R heeft zijn eigen LaTeX-achtige documentatieformaat, dat wordt gebruikt om uitgebreide documentatie te leveren, zowel online in een aantal formaten als in hardcopy.