Untitled

mail@pastecode.io avatar
unknown
plain_text
2 months ago
8.2 kB
1
Indexable
Never
ural_okved_production_grouped

0	2015	Деятельность внутреннего водного грузового тра...	17287.981000	0.000000e+00
1	2015	Деятельность морского грузового транспорта	30091.191000	0.000000e+00
2	2015	Добыча руд и песков драгоценных металлов (золо...	20952.244000	0.000000e+00
3	2015	Предоставление услуг в области добычи нефти и ...	21660.009000	0.000000e+00
4	2015	Предоставление услуг по бурению, связанному с ...	11691.860000	0.000000e+00
...	...	...	...	...
83	2024	Предоставление услуг по бурению, связанному с ...	1476.842000	1.411633e+08
84	2024	Производство меди	2014.550626	1.638268e+08
85	2024	Строительство автомобильных дорог и автомагист...	365.824000	3.239207e+07
86	2024	Строительство жилых и нежилых зданий	138.606000	1.175125e+07
87	2024	Торговля оптовая моторным топливом, включая ав...	16.818000	8.362500e+05

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 88 entries, 0 to 87
Data columns (total 4 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   year      88 non-null     int64  
 1   scope     88 non-null     object 
 2   volume_t  88 non-null     float64
 3   revenue   88 non-null     float64
dtypes: float64(2), int64(1), object(1)
memory usage: 2.9+ KB


ipp_pivoted
Наименование вида деятельности по ОКВЭД	year	Добыча металлических руд 1.1	Добыча полезных ископаемых 1	Добыча прочих полезных ископаемых 1.2	Индекс промышленного производства	Производство металлургическое 2.1
0	2015	100.4	101.3	106.2	100.2	97.7
1	2016	99.6	102.6	99.5	101.8	97.9
2	2017	102.5	101.9	111.3	103.7	105.2
3	2018	103.4	103.8	104.2	103.5	100.6
4	2019	102.1	103.4	103.6	103.4	103.8
5	2020	102.4	93.5	86.5	97.9	97.3
6	2021	101.2	104.2	115.2	106.3	101.7
7	2022	96.7	101.3	106.5	100.6	99.2
8	2023	98.0	98.9	94.3	103.5	103.5

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9 entries, 0 to 8
Data columns (total 6 columns):
 #   Column                                 Non-Null Count  Dtype  
---  ------                                 --------------  -----  
 0   year                                   9 non-null      int64  
 1   Добыча металлических руд 1.1           9 non-null      float64
 2   Добыча полезных ископаемых 1           9 non-null      float64
 3   Добыча прочих полезных ископаемых 1.2  9 non-null      float64
 4   Индекс промышленного производства      9 non-null      float64
 5   Производство металлургическое 2.1      9 non-null      float64
dtypes: float64(5), int64(1)
memory usage: 560.0 bytes


combinde_data_prod = pd.merge(ural_okved_production_grouped, ipp_pivoted, on='year', how='inner')
combinde_data_prod


	year	scope	volume_t	revenue	Добыча металлических руд 1.1	Добыча полезных ископаемых 1	Добыча прочих полезных ископаемых 1.2	Индекс промышленного производства	Производство металлургическое 2.1
0	2015	Деятельность внутреннего водного грузового тра...	17287.981000	0.000000e+00	100.4	101.3	106.2	100.2	97.7
1	2015	Деятельность морского грузового транспорта	30091.191000	0.000000e+00	100.4	101.3	106.2	100.2	97.7
2	2015	Добыча руд и песков драгоценных металлов (золо...	20952.244000	0.000000e+00	100.4	101.3	106.2	100.2	97.7
3	2015	Предоставление услуг в области добычи нефти и ...	21660.009000	0.000000e+00	100.4	101.3	106.2	100.2	97.7
4	2015	Предоставление услуг по бурению, связанному с ...	11691.860000	0.000000e+00	100.4	101.3	106.2	100.2	97.7
...	...	...	...	...	...	...	...	...	...
75	2023	Предоставление услуг по бурению, связанному с ...	83272.760000	5.844836e+09	98.0	98.9	94.3	103.5	103.5
76	2023	Производство меди	101846.052442	6.677787e+09	98.0	98.9	94.3	103.5	103.5
77	2023	Строительство автомобильных дорог и автомагист...	46117.592000	3.033688e+09	98.0	98.9	94.3	103.5	103.5
78	2023	Строительство жилых и нежилых зданий	37640.726740	2.522036e+09	98.0	98.9	94.3	103.5	103.5
79	2023	Торговля оптовая моторным топливом, включая ав...	183411.256000	1.133456e+10	98.0	98.9	94.3	103.5	103.5
80 rows × 9 columns

combinde_data_prod.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 80 entries, 0 to 79
Data columns (total 9 columns):
 #   Column                                 Non-Null Count  Dtype  
---  ------                                 --------------  -----  
 0   year                                   80 non-null     int64  
 1   scope                                  80 non-null     object 
 2   volume_t                               80 non-null     float64
 3   revenue                                80 non-null     float64
 4   Добыча металлических руд 1.1           80 non-null     float64
 5   Добыча полезных ископаемых 1           80 non-null     float64
 6   Добыча прочих полезных ископаемых 1.2  80 non-null     float64
 7   Индекс промышленного производства      80 non-null     float64
 8   Производство металлургическое 2.1      80 non-null     float64
dtypes: float64(7), int64(1), object(1)
memory usage: 5.8+ KB


correlation_matrix = combinde_data_prod.corr()
plt.figure(figsize=(14,10))
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm')
plt.title('Матрица корреляции')
plt.show()

ValueError                                Traceback (most recent call last)
Input In [37], in <cell line: 1>()
----> 1 correlation_matrix = combinde_data_prod.corr()
      2 plt.figure(figsize=(14,10))
      3 sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm')

File /opt/conda/lib/python3.8/site-packages/pandas/core/frame.py:10054, in DataFrame.corr(self, method, min_periods, numeric_only)
  10052 cols = data.columns
  10053 idx = cols.copy()
> 10054 mat = data.to_numpy(dtype=float, na_value=np.nan, copy=False)
  10056 if method == "pearson":
  10057     correl = libalgos.nancorr(mat, minp=min_periods)

File /opt/conda/lib/python3.8/site-packages/pandas/core/frame.py:1838, in DataFrame.to_numpy(self, dtype, copy, na_value)
   1836 if dtype is not None:
   1837     dtype = np.dtype(dtype)
-> 1838 result = self._mgr.as_array(dtype=dtype, copy=copy, na_value=na_value)
   1839 if result.dtype is not dtype:
   1840     result = np.array(result, dtype=dtype, copy=False)

File /opt/conda/lib/python3.8/site-packages/pandas/core/internals/managers.py:1732, in BlockManager.as_array(self, dtype, copy, na_value)
   1730         arr.flags.writeable = False
   1731 else:
-> 1732     arr = self._interleave(dtype=dtype, na_value=na_value)
   1733     # The underlying data was copied within _interleave, so no need
   1734     # to further copy if copy=True or setting na_value
   1736 if na_value is not lib.no_default:

File /opt/conda/lib/python3.8/site-packages/pandas/core/internals/managers.py:1794, in BlockManager._interleave(self, dtype, na_value)
   1792     else:
   1793         arr = blk.get_values(dtype)
-> 1794     result[rl.indexer] = arr
   1795     itemmask[rl.indexer] = 1
   1797 if not itemmask.all():

ValueError: could not convert string to float: 'Деятельность внутреннего водного грузового транспорта'
Leave a Comment