Untitled
unknown
plain_text
a year ago
5.5 kB
8
Indexable
#praca domowa lpp_d <- read.csv("~/Desktop/sem II/Podstawy analizy danych w e biznesie/OneDrive_1_20.03.2024/lpp_d.csv") install.packages("ggplot2") install.packages("moments") library(ggplot2) library(moments) library(readr) lpp_d <- read_csv("lpp_d.csv") View(lpp_d) price <- lpp_d["Zamkniecie"] class(price) data.frame(lpp_d) is.data.frame(lpp_d) Zamkniecie <- lpp_d$Zamkniecie ########## zad 3 ################# quantile(lpp_d$Zamkniecie,c(0.25,0.5,0.75)) IQR(lpp_d$Zamkniecie) print(quantile) #interpretacja wyników: #25% danych jest poniżej lub równych wartości 752.9523 #50% danych (mediany) jest poniżej lub równych wartości 3459.5650 #75% danych jest poniżej lub równych wartości 7276.0575 #Rozstęp międzykwartylowy (IQR) wynosi 6523.105, co oznacza różnicę między wartościami kwantyla 75% a kwantyla 25%. #IQR wyłącza wartości odstające na końcach rozkładu i koncentruje się na obszarze, w którym znajduje się większość danych ############## zad 4 ################## pierwszy_decyl <- quantile(lpp_d$Zamkniecie,c(0.1)) pierwszy_decyl dwunasty_centyl <- quantile(lpp_d$Zamkniecie,c(0.12)) dwunasty_centyl #interpretacja wyników: #pierwszy_decyl oznacza, że 10% danych ma wartości poniżej lub równe 340.9399 #dwunasty_centyl oznacza, że 12% danych ma wartości poniżej lub równe 402.983 ############## zad 5 #################### srednia <- mean(lpp_d$Zamkniecie) srednia odchylenie_standardowe <- sd(lpp_d$Zamkniecie) odchylenie_standardowe wspolczynnik_zmienności <- odchylenie_standardowe / srednia * 100 wspolczynnik_zmienności #interpretacja wyników: #Średnia 4448.872 stanowi średnią wartość cen zamknięcia akcji LPP w analizowanym okresie #Odchylenie standardowe 4062.294 oznacza, że ceny zamknięcia akcji LPP miały tendencję do rozproszenia się wokół średniej o wartości około 4062.294 zł, co wskazuje na znaczną zmienność cen w analizowanym okresie. #Wartość współczynnika zmienności wynosząca 91.31065 oznacza, że odchylenie standardowe stanowi około 91.31% średniej arytmetycznej #im wyższa wartość, tym większe zróżnicowanie danych w stosunku do ich średniej wartości - 91.31% oznacza stosunkowo duże zróżnicowanie ################ zad 6 ################### miara_skośności <- skewness(lpp_d$Zamkniecie) miara_skośności kurtoza <- kurtosis(lpp_d$Zamkniecie) kurtoza #interpretacja wyników #Miara skośności 0.8588454 oznacza, że rozkład danych jest lekko skośny w prawo #Oznacza to że, większa część danych koncentruje się na niższych cenach, a wartości skrajne w kierunku wyższych cen są mniej liczne #Kurtoza 3.119363 oznacza, że rozkład danych jest lekko bardziej spiczasty (bardziej skupiony wokół średniej) niż rozkład normalny #Oznacza to, że występuje większa koncentracja danych wokół średniej, ale również obecność potencjalnych wartości odstających w porównaniu do rozkładu normalnego #W rozkładzie normalnym miara skośności wynosi 0, a kurtoza 3, dlatego uważam, że ten rozkład jest stosunkowo zbliżony do rozkładu normalnego, ale nie jest idealnie normalny, ze względu na lekkie odchylenia ################ zad 7 ################### BP <- boxplot(lpp_d$Zamkniecie, main = "Wykres pudełkowy zmiennej Zamknięcie", xlab = "cena zamkniecia", col = "green", border = "red") #Omówienie elementów wykresu: #Pudełko (box): #Górna krawędź pudełka oznacza trzeci kwartyl (Q3), czyli 75% danych znajdujących się poniżej #Dolna krawędź pudełka oznacza pierwszy kwartyl (Q1), czyli 25% danych znajdujących się poniżej #Mediana jest oznaczona linią wewnątrz pudełka #Wąsy (whiskers): #Górny wąs oznacza górną granicę danych, która nie jest uznawana za wartość odstającą #Dolny wąs oznacza dolną granicę danych, która nie jest uznawana za wartość odstającą #Punkty odstające (outliers): #Wskazują na obserwacje, które są istotnie różne od reszty danych ############### zad 8 #################### BP$out #Wartości wyświetlone jako odstające są większe niż górny wąs na wykresie pudełkowym #Oznacza to, że przyjmują wartości, które znacznie różnią się od pozostałych obserwacji w zestawie danych. ############### zad 9 #################### #Standaryzacja zmiennej: zamkniecie_std <- scale(lpp_d$Zamkniecie) #histogram: hist(zamkniecie_std, breaks = 25, freq = FALSE, main = "Histogram zmiennej po standaryzacji", xlab = "Wartość zstandaryzowana", ylab = "Gęstość") #Nałożenie wykresu funkcji gęstości zmiennej o standardowym rozkładzie normalnym x <- seq(min(zamkniecie_std), max(zamkniecie_std), length.out=100) y <- dnorm(x, mean = 0, sd = 1) lines(x, y, col = "red", lwd = 2) #Uważam, że histogram różni się od krzywej funkcji gęstości normalnego rozkładu, dlatego rozkład zmiennej nie jest zbliżony do normalnego ################ zad 10 #################### qqnorm(scale(lpp_d$Zamkniecie)) qqline(scale(lpp_d$Zamkniecie), col='red') #Uważam, że zmienna nie ma rozkładu normalnego, ponieważ punkty na wykresie odbiegają od linii referencyjnej ################ zad 11 #################### jarque.test(lpp_d$Zamkniecie) #Wartość JB wynosi 698.93, a p-velue < 2.2e-16 (wartość bardzo bliska zeru) #Oznacza to, że istnieją istotne różnice między rozkładem danych a rozkładem normalnym, czyli rozkład tej zmiennej prawdopodobnie nie jest zbliżony do rozkładu normalnego.
Editor is loading...
Leave a Comment