Untitled

#praca domowa

lpp_d <- read.csv("~/Desktop/sem II/Podstawy analizy danych w e biznesie/OneDrive_1_20.03.2024/lpp_d.csv")

install.packages("ggplot2")
install.packages("moments")

library(ggplot2)
library(moments)

library(readr)
lpp_d <- read_csv("lpp_d.csv")
View(lpp_d)

price <- lpp_d["Zamkniecie"]
class(price)
data.frame(lpp_d)
is.data.frame(lpp_d)
Zamkniecie <- lpp_d$Zamkniecie

##########  zad 3   #################

quantile(lpp_d$Zamkniecie,c(0.25,0.5,0.75))
IQR(lpp_d$Zamkniecie)
print(quantile)

#interpretacja wyników:
#25% danych jest poniżej lub równych wartości 752.9523
#50% danych (mediany) jest poniżej lub równych wartości 3459.5650
#75% danych jest poniżej lub równych wartości 7276.0575

#Rozstęp międzykwartylowy (IQR) wynosi 6523.105, co oznacza różnicę między wartościami kwantyla 75% a kwantyla 25%.
#IQR wyłącza wartości odstające na końcach rozkładu i koncentruje się na obszarze, w którym znajduje się większość danych

############## zad 4 ##################

pierwszy_decyl <- quantile(lpp_d$Zamkniecie,c(0.1))
pierwszy_decyl

dwunasty_centyl <- quantile(lpp_d$Zamkniecie,c(0.12))
dwunasty_centyl

#interpretacja wyników:
#pierwszy_decyl oznacza, że 10% danych ma wartości poniżej lub równe 340.9399 
#dwunasty_centyl oznacza, że 12% danych ma wartości poniżej lub równe 402.983 

############## zad 5 ####################

srednia <- mean(lpp_d$Zamkniecie)
srednia

odchylenie_standardowe <- sd(lpp_d$Zamkniecie)
odchylenie_standardowe

wspolczynnik_zmienności <- odchylenie_standardowe / srednia * 100
wspolczynnik_zmienności

#interpretacja wyników:
#Średnia 4448.872 stanowi średnią wartość cen zamknięcia akcji LPP w analizowanym okresie
#Odchylenie standardowe 4062.294 oznacza, że ceny zamknięcia akcji LPP miały tendencję do rozproszenia się wokół średniej o wartości około 4062.294 zł, co wskazuje na znaczną zmienność cen w analizowanym okresie.
#Wartość współczynnika zmienności wynosząca 91.31065 oznacza, że odchylenie standardowe stanowi około 91.31% średniej arytmetycznej
#im wyższa wartość, tym większe zróżnicowanie danych w stosunku do ich średniej wartości - 91.31% oznacza stosunkowo duże zróżnicowanie

################ zad 6 ###################

miara_skośności <- skewness(lpp_d$Zamkniecie)
miara_skośności

kurtoza <- kurtosis(lpp_d$Zamkniecie)
kurtoza

#interpretacja wyników
#Miara skośności 0.8588454 oznacza, że rozkład danych jest lekko skośny w prawo
#Oznacza to że, większa część danych koncentruje się na niższych cenach, a wartości skrajne w kierunku wyższych cen są mniej liczne
#Kurtoza 3.119363 oznacza, że rozkład danych jest lekko bardziej spiczasty (bardziej skupiony wokół średniej) niż rozkład normalny
#Oznacza to, że występuje większa koncentracja danych wokół średniej, ale również obecność potencjalnych wartości odstających w porównaniu do rozkładu normalnego

#W rozkładzie normalnym miara skośności wynosi 0, a kurtoza 3, dlatego uważam, że ten rozkład jest stosunkowo zbliżony do rozkładu normalnego, ale nie jest idealnie normalny, ze względu na lekkie odchylenia

################ zad 7 ###################

BP <- boxplot(lpp_d$Zamkniecie, main = "Wykres pudełkowy zmiennej Zamknięcie",
              xlab = "cena zamkniecia",
              col = "green",
              border = "red")

#Omówienie elementów wykresu:
#Pudełko (box):
#Górna krawędź pudełka oznacza trzeci kwartyl (Q3), czyli 75% danych znajdujących się poniżej
#Dolna krawędź pudełka oznacza pierwszy kwartyl (Q1), czyli 25% danych znajdujących się poniżej
#Mediana jest oznaczona linią wewnątrz pudełka
#Wąsy (whiskers):
#Górny wąs oznacza górną granicę danych, która nie jest uznawana za wartość odstającą
#Dolny wąs oznacza dolną granicę danych, która nie jest uznawana za wartość odstającą
#Punkty odstające (outliers):
#Wskazują na obserwacje, które są istotnie różne od reszty danych

############### zad 8 ####################

BP$out

#Wartości wyświetlone jako odstające są większe niż górny wąs na wykresie pudełkowym
#Oznacza to, że przyjmują wartości, które znacznie różnią się od pozostałych obserwacji w zestawie danych.

############### zad 9 ####################

#Standaryzacja zmiennej:
zamkniecie_std <- scale(lpp_d$Zamkniecie)

#histogram:
hist(zamkniecie_std, breaks = 25, freq = FALSE, main = "Histogram zmiennej po standaryzacji",
     xlab = "Wartość zstandaryzowana", ylab = "Gęstość")

#Nałożenie wykresu funkcji gęstości zmiennej o standardowym rozkładzie normalnym
x <- seq(min(zamkniecie_std), max(zamkniecie_std), length.out=100)
y <- dnorm(x, mean = 0, sd = 1)
lines(x, y, col = "red", lwd = 2)

#Uważam, że histogram różni się od krzywej funkcji gęstości normalnego rozkładu, dlatego rozkład zmiennej nie jest zbliżony do normalnego

################ zad 10 ####################

qqnorm(scale(lpp_d$Zamkniecie))
qqline(scale(lpp_d$Zamkniecie), col='red')

#Uważam, że zmienna nie ma rozkładu normalnego, ponieważ punkty na wykresie odbiegają od linii referencyjnej

################ zad 11 ####################

jarque.test(lpp_d$Zamkniecie)

#Wartość JB wynosi 698.93, a p-velue < 2.2e-16 (wartość bardzo bliska zeru)
#Oznacza to, że istnieją istotne różnice między rozkładem danych a rozkładem normalnym, czyli rozkład tej zmiennej prawdopodobnie nie jest zbliżony do rozkładu normalnego.
Editor is loading...