Untitled
unknown
plain_text
2 years ago
5.5 kB
9
Indexable
#praca domowa
lpp_d <- read.csv("~/Desktop/sem II/Podstawy analizy danych w e biznesie/OneDrive_1_20.03.2024/lpp_d.csv")
install.packages("ggplot2")
install.packages("moments")
library(ggplot2)
library(moments)
library(readr)
lpp_d <- read_csv("lpp_d.csv")
View(lpp_d)
price <- lpp_d["Zamkniecie"]
class(price)
data.frame(lpp_d)
is.data.frame(lpp_d)
Zamkniecie <- lpp_d$Zamkniecie
########## zad 3 #################
quantile(lpp_d$Zamkniecie,c(0.25,0.5,0.75))
IQR(lpp_d$Zamkniecie)
print(quantile)
#interpretacja wyników:
#25% danych jest poniżej lub równych wartości 752.9523
#50% danych (mediany) jest poniżej lub równych wartości 3459.5650
#75% danych jest poniżej lub równych wartości 7276.0575
#Rozstęp międzykwartylowy (IQR) wynosi 6523.105, co oznacza różnicę między wartościami kwantyla 75% a kwantyla 25%.
#IQR wyłącza wartości odstające na końcach rozkładu i koncentruje się na obszarze, w którym znajduje się większość danych
############## zad 4 ##################
pierwszy_decyl <- quantile(lpp_d$Zamkniecie,c(0.1))
pierwszy_decyl
dwunasty_centyl <- quantile(lpp_d$Zamkniecie,c(0.12))
dwunasty_centyl
#interpretacja wyników:
#pierwszy_decyl oznacza, że 10% danych ma wartości poniżej lub równe 340.9399
#dwunasty_centyl oznacza, że 12% danych ma wartości poniżej lub równe 402.983
############## zad 5 ####################
srednia <- mean(lpp_d$Zamkniecie)
srednia
odchylenie_standardowe <- sd(lpp_d$Zamkniecie)
odchylenie_standardowe
wspolczynnik_zmienności <- odchylenie_standardowe / srednia * 100
wspolczynnik_zmienności
#interpretacja wyników:
#Średnia 4448.872 stanowi średnią wartość cen zamknięcia akcji LPP w analizowanym okresie
#Odchylenie standardowe 4062.294 oznacza, że ceny zamknięcia akcji LPP miały tendencję do rozproszenia się wokół średniej o wartości około 4062.294 zł, co wskazuje na znaczną zmienność cen w analizowanym okresie.
#Wartość współczynnika zmienności wynosząca 91.31065 oznacza, że odchylenie standardowe stanowi około 91.31% średniej arytmetycznej
#im wyższa wartość, tym większe zróżnicowanie danych w stosunku do ich średniej wartości - 91.31% oznacza stosunkowo duże zróżnicowanie
################ zad 6 ###################
miara_skośności <- skewness(lpp_d$Zamkniecie)
miara_skośności
kurtoza <- kurtosis(lpp_d$Zamkniecie)
kurtoza
#interpretacja wyników
#Miara skośności 0.8588454 oznacza, że rozkład danych jest lekko skośny w prawo
#Oznacza to że, większa część danych koncentruje się na niższych cenach, a wartości skrajne w kierunku wyższych cen są mniej liczne
#Kurtoza 3.119363 oznacza, że rozkład danych jest lekko bardziej spiczasty (bardziej skupiony wokół średniej) niż rozkład normalny
#Oznacza to, że występuje większa koncentracja danych wokół średniej, ale również obecność potencjalnych wartości odstających w porównaniu do rozkładu normalnego
#W rozkładzie normalnym miara skośności wynosi 0, a kurtoza 3, dlatego uważam, że ten rozkład jest stosunkowo zbliżony do rozkładu normalnego, ale nie jest idealnie normalny, ze względu na lekkie odchylenia
################ zad 7 ###################
BP <- boxplot(lpp_d$Zamkniecie, main = "Wykres pudełkowy zmiennej Zamknięcie",
xlab = "cena zamkniecia",
col = "green",
border = "red")
#Omówienie elementów wykresu:
#Pudełko (box):
#Górna krawędź pudełka oznacza trzeci kwartyl (Q3), czyli 75% danych znajdujących się poniżej
#Dolna krawędź pudełka oznacza pierwszy kwartyl (Q1), czyli 25% danych znajdujących się poniżej
#Mediana jest oznaczona linią wewnątrz pudełka
#Wąsy (whiskers):
#Górny wąs oznacza górną granicę danych, która nie jest uznawana za wartość odstającą
#Dolny wąs oznacza dolną granicę danych, która nie jest uznawana za wartość odstającą
#Punkty odstające (outliers):
#Wskazują na obserwacje, które są istotnie różne od reszty danych
############### zad 8 ####################
BP$out
#Wartości wyświetlone jako odstające są większe niż górny wąs na wykresie pudełkowym
#Oznacza to, że przyjmują wartości, które znacznie różnią się od pozostałych obserwacji w zestawie danych.
############### zad 9 ####################
#Standaryzacja zmiennej:
zamkniecie_std <- scale(lpp_d$Zamkniecie)
#histogram:
hist(zamkniecie_std, breaks = 25, freq = FALSE, main = "Histogram zmiennej po standaryzacji",
xlab = "Wartość zstandaryzowana", ylab = "Gęstość")
#Nałożenie wykresu funkcji gęstości zmiennej o standardowym rozkładzie normalnym
x <- seq(min(zamkniecie_std), max(zamkniecie_std), length.out=100)
y <- dnorm(x, mean = 0, sd = 1)
lines(x, y, col = "red", lwd = 2)
#Uważam, że histogram różni się od krzywej funkcji gęstości normalnego rozkładu, dlatego rozkład zmiennej nie jest zbliżony do normalnego
################ zad 10 ####################
qqnorm(scale(lpp_d$Zamkniecie))
qqline(scale(lpp_d$Zamkniecie), col='red')
#Uważam, że zmienna nie ma rozkładu normalnego, ponieważ punkty na wykresie odbiegają od linii referencyjnej
################ zad 11 ####################
jarque.test(lpp_d$Zamkniecie)
#Wartość JB wynosi 698.93, a p-velue < 2.2e-16 (wartość bardzo bliska zeru)
#Oznacza to, że istnieją istotne różnice między rozkładem danych a rozkładem normalnym, czyli rozkład tej zmiennej prawdopodobnie nie jest zbliżony do rozkładu normalnego.
Editor is loading...
Leave a Comment