Betrachten Sie die folgende Funktion zur Berechnung der Stichprobenvarianz für einen numerischen Vektor x

Question

Betrachten Sie die folgende Funktion zur Berechnung der Stichprobenvarianz für einen numerischen Vektor x

Aufgabe (Effizienz: Stichprobenvarianz):

Betrachten Sie die folgende Funktion zur Berechnung der Stichprobenvarianz für einen numerischen Vektor x:

myvar1 <- function(x) {
      erg <- NULL
      for(i in 1:length(x)) {
        erg <- c(erg, 1 / (length(x) - 1) * (x[i] - mean(x))^2)
      }
      erg <- sum(erg)
      return(erg)
    }

a) Die Funktion ist extrem ineffizient programmiert. Versuchen Sie die Funktion nun zu verbessern. Schreiben Sie eine Funktion myvar2. Zunächst soll dabei allerdings weiterhin eine for-Schleife verwendet werden.

b) Für eine weitere Verbesserung hinsichtlich der Effizienz schreiben Sie eine vektorisierte Variante myvar3 ohne die Verwendung der Funktion var aus R.

Gefragt 31 Mai 2018 von Mathe-Rookie

1 Antwort

Ein anderes Problem?

Stell deine Frage

loungeAI · Answer 1 · 2018-06-01T15:52:18+0000

Antwort mit KI erzeugt

Teil a: Verbesserung mit for-Schleife

Zur Verbesserung der ursprünglichen Funktion myvar1 können wir den gleichen Algorithmus verwenden, aber den Mittelwert von x nur einmal berechnen, anstatt ihn in jeder Iteration der Schleife zu berechnen. Diese Optimierung reduziert die Anzahl der Operationen erheblich, insbesondere bei großen Datenmengen.

R
myvar2 <- function(x) {
  n <- length(x)
  mean_x <- mean(x)
  erg <- 0
  for(i in 1:n) {
    erg <- erg + ((x[i] - mean_x)^2) / (n - 1)
  }
  return(erg)
}

In dieser verbesserten Version berechnen wir zuerst den Mittelwert von x und verwenden diesen wiederholt in der Schleife. Dadurch wird die Effizienz im Vergleich zur ursprünglichen Implementierung verbessert.

Teil b: Vektorisierte Version

Die vektorisierte Variante, myvar3, macht von der Tatsache Gebrauch, dass Operationen auf ganzen Vektoren in R effizienter durchgeführt werden können als Schleifen über einzelne Elemente. Wir können die Formel für die Varianz direkt auf den gesamten Datensatz anwenden, ohne eine explizite Schleife zu verwenden.

R
myvar3 <- function(x) {
  n <- length(x)
  mean_x <- mean(x)
  erg <- sum((x - mean_x)^2) / (n - 1)
  return(erg)
}

In dieser Version wird zuerst der Mittelwert von x berechnet. Dann subtrahieren wir diesen Mittelwert von jedem Element in x, quadrieren die Differenzen, summieren diese und teilen schließlich durch \(n - 1\), wobei \(n\) die Länge von x ist. Diese Implementierung nutzt die vektorisierten Operationen von R und sollte wesentlich effizienter sein als die ursprüngliche Funktion oder die verbesserte Version mit for-Schleife.

Beide Verbesserungen nutzen Grundprinzipien der effizienten Programmierung in R: Vermeidung unnötiger Berechnungen innerhalb von Schleifen und, wo möglich, den Einsatz vektorisierter Operationen, die in R typischerweise deutlich schneller ausgeführt werden als explizite Schleifen über Elemente.

Betrachten Sie die folgende Funktion zur Berechnung der Stichprobenvarianz für einen numerischen Vektor x

1 Antwort

Ähnliche Fragen

Eingabetools:

Beliebte Fragen:

Heiße Lounge-Fragen: