Arquivo gerado em 23.01.2024

Qualidade dos dados

Testes de Spike e Gradient

##Resultados do teste de qualidade dos pontos:
Pontos isolados sem vizinhos proximos validos': 12 (0.1%)
Pontos rejeitados teste 'spike': 75 (0.64%)
Pontos rejeitados teste 'gradient': 202 (1.72%)
Total de pontos removidos: 289 (2.46%)


Mapa dos pontos

Vamos plotar os pontos no mapa para identificar suas localizacoes. O pacote a ser utilizado e’ o Leaflet.

Análise Exploratória de Dados (EDA)

Resumo estatistico:

Aguas Internas

##      Lon           Salinity        TempExtern        N.NO3       
 Min.   :8.020   Min.   : 0.509   Min.   :4.500   Min.   :0.0006  
 1st Qu.:8.562   1st Qu.: 7.207   1st Qu.:5.500   1st Qu.:1.3959  
 Median :8.562   Median :11.362   Median :5.600   Median :1.7859  
 Mean   :8.687   Mean   :12.402   Mean   :5.787   Mean   :1.7135  
 3rd Qu.:8.722   3rd Qu.:16.209   3rd Qu.:6.100   3rd Qu.:2.1411  
 Max.   :9.710   Max.   :32.646   Max.   :7.700   Max.   :6.9791  
     DOCeq            Abs210           Abs254           Abs360      
 Min.   : 1.137   Min.   :0.9493   Min.   :0.1717   Min.   :0.0986  
 1st Qu.: 6.732   1st Qu.:3.5562   1st Qu.:0.7850   1st Qu.:0.4563  
 Median : 8.537   Median :3.9920   Median :0.9726   Median :0.5895  
 Mean   : 9.901   Mean   :3.9462   Mean   :1.1817   Mean   :0.7490  
 3rd Qu.:13.325   3rd Qu.:4.4436   3rd Qu.:1.6167   3rd Qu.:1.0563  
 Max.   :30.644   Max.   :5.8984   Max.   :3.5527   Max.   :2.4934  

Mar Territorial

##      Lon           Salinity       TempExtern        N.NO3        
 Min.   :7.538   Min.   :31.01   Min.   :6.700   Min.   :0.00020  
 1st Qu.:7.871   1st Qu.:33.02   1st Qu.:8.600   1st Qu.:0.04620  
 Median :7.871   Median :33.47   Median :8.800   Median :0.05440  
 Mean   :7.918   Mean   :33.11   Mean   :8.466   Mean   :0.05629  
 3rd Qu.:7.973   3rd Qu.:33.54   3rd Qu.:8.800   3rd Qu.:0.05960  
 Max.   :8.381   Max.   :34.17   Max.   :9.400   Max.   :0.16570  
     DOCeq            Abs210          Abs254           Abs360       
 Min.   :0.5199   Min.   :2.252   Min.   :0.0954   Min.   :0.04370  
 1st Qu.:0.8054   1st Qu.:2.340   1st Qu.:0.1083   1st Qu.:0.05880  
 Median :0.8416   Median :2.368   Median :0.1107   Median :0.06040  
 Mean   :0.9064   Mean   :2.371   Mean   :0.1224   Mean   :0.06783  
 3rd Qu.:0.8867   3rd Qu.:2.399   3rd Qu.:0.1148   3rd Qu.:0.06375  
 Max.   :2.1929   Max.   :2.583   Max.   :0.3189   Max.   :0.21100  

Mar do norte

##      Lon           Salinity       TempExtern         N.NO3        
 Min.   :5.182   Min.   :32.67   Min.   : 7.800   Min.   :0.00170  
 1st Qu.:6.305   1st Qu.:33.82   1st Qu.: 9.000   1st Qu.:0.03475  
 Median :7.103   Median :34.12   Median : 9.500   Median :0.04350  
 Mean   :6.919   Mean   :33.99   Mean   : 9.376   Mean   :0.04488  
 3rd Qu.:7.466   3rd Qu.:34.31   3rd Qu.: 9.900   3rd Qu.:0.05390  
 Max.   :8.018   Max.   :34.68   Max.   :10.100   Max.   :0.15530  
     DOCeq            Abs210           Abs254           Abs360       
 Min.   :0.0688   Min.   :0.5988   Min.   :0.0954   Min.   :0.05060  
 1st Qu.:0.7736   1st Qu.:2.3502   1st Qu.:0.1043   1st Qu.:0.05930  
 Median :0.8311   Median :2.3837   Median :0.1073   Median :0.06190  
 Mean   :0.7716   Mean   :2.4003   Mean   :0.1349   Mean   :0.08841  
 3rd Qu.:0.8678   3rd Qu.:2.4249   3rd Qu.:0.1145   3rd Qu.:0.06845  
 Max.   :1.8916   Max.   :4.2852   Max.   :1.8149   Max.   :1.75980  

Distribuicao das variaveis

Aguas Internas (AI), Mar Territorial (MT) e Mar do Norte (MN)



Pressupostos Analise PCA

A Análise de Componentes Principais (PCA) é uma técnica estatística usada para reduzir a dimensionalidade de um conjunto de dados, mantendo o máximo de informações possível.

Pressupostos

O PCA é baseado em um conjunto de pressupostos, incluindo:

  • Linearidade: o PCA assume que a relação entre as variáveis é linear. Ou seja, as variáveis devem ter uma correlação linear entre si.

  • Homocedasticidade: o PCA assume que a variância das variáveis é igual em todos os valores das variáveis. Em outras palavras, não deve haver um padrão de variância crescente ou decrescente à medida que as variáveis aumentam ou diminuem.

É importante observar que a violação de qualquer uma dessas suposições pode levar a resultados imprecisos ou não confiáveis. Portanto, é recomendável testar essas suposições antes de realizar uma análise PCA.

Assim, prosseguimos para verificacao dos pressupostos e escolha das variaveis.

Linearidade - PMCC

Analise PCA

Os resultados abaixo apresentam os componentes principais calculados e algumas das suas propriedades.

Nota-se uma predominancia da representividade da variabilidade dos dados no componente principal 1 das Aguas Internas e Mar Territorial. Isso ocorre pela relevante correlacao entre as variaveis naquelas areas.

A mesma predominancia nao e’ notada para area Mar do Norte, porem ainda considerando-se apenas as duas componentes principais, obtem-se uma representividade da variancia dos dados de cerca de 62%.

A analise Global (todas as areas reunidas) demonstrou novamente a predominancia da representividade variabilidade na componente principal 1, sendo 95% da varianbilidade dos dados sendo explicados pelas duas primeiras CPs.

Os valores das representividades de cada componente principal podem ser lidos na linha “Cumulative Proportion” abaixo:

##################################### Aguas internas #####################################
                        PC1    PC2
Variance              6.046  0.816
% of var.            75.578 10.198
Cumulative % of var. 75.578 85.776


##################################### Mar Territorial #####################################
                        PC1    PC2
Variance              5.484  1.393
% of var.            68.549 17.415
Cumulative % of var. 68.549 85.963


##################################### Mar do Norte #####################################
                        PC1    PC2
Variance              2.959  2.027
% of var.            36.983 25.343
Cumulative % of var. 36.983 62.325


##################################### Global #####################################
                        PC1    PC2
Variance              7.225  0.393
% of var.            90.314  4.910
Cumulative % of var. 90.314 95.224

Carregamentos (Loadings)


Os carregamentos (loadings) de cada componente principal pode nos dar uma melhor ideia do significado de cada componente apresentando assim como cada variavel afeta a componente.

Os valores de carregamento representam os coeficientes de relevancia de cada variavel na componente principal (PC). Valores amarelos e azuis representam coefficientes de ordem maior, sejam negativas ou positivas, indicando que aquelas variaveis influenciam mais a componente principal do que as mais esverdeadas.

Assim sao apresentados os carregamentos dos dois primeiros componentes principais de cada zona:


— Aguas internas —

PC1 PC2
Salinity -0.3519032 -0.320395433
TempExtern -0.2115595 0.696201130
N.NO3 0.3268360 0.474477414
DOCeq 0.3855419 -0.059391087
Abs210 0.3663200 0.244671822
Abs254 0.3838893 -0.205919404
Abs360 0.3674624 -0.285767308
SAC254 0.3991897 -0.008036246
  • PC1: Os carregamentos demonstram que nenhuma variavel ou grupo de variaveis majoritariamente contribui para essa componente.
  • PC2: Os carregamentos demonstram que a variavel Temperatura Externa (~0.7) contribui majoritariamente para esta componente, seguida de N.NO3 (~0.5).

— Mar Territorial —

PC1 PC2
Salinity -0.39285382 -0.1506801
TempExtern -0.37089284 -0.2337635
N.NO3 0.09459124 0.7777979
DOCeq 0.40141564 -0.1474256
Abs210 0.18876446 0.4251418
Abs254 0.41194415 -0.1980671
Abs360 0.40586648 -0.1977499
SAC254 0.40983504 -0.1920026
  • PC1: Os carregamentos demonstram que nenhuma variavel ou grupo de variaveis majoritariamente contribui para essa componente.

  • PC2: Os carregamentos demonstram que a variavel N.NO3 contribui majoritariamente para esta componente, seguida de Abs210 (~0.4).


— Mar do Norte —

PC1 PC2
Salinity 0.2477793 -0.57772169
TempExtern 0.3326180 -0.50485844
N.NO3 -0.2763885 -0.10494428
DOCeq -0.2917183 0.03256640
Abs210 0.4379686 0.08499471
Abs254 0.4682407 0.34678254
Abs360 0.4793148 0.32747134
SAC254 -0.1602249 0.40566245
  • PC1: Os carregamentos demonstram que o grupo de variaveis de absorcao (AbsXXX) contribui com maior relevancia (~0.45) do que as demais variaveis nessa componente para essa zona.

  • PC2: Os carregamentos demonstram que as variaveis Salinity (~0.6) e Temperatura Externa (~0.5) contribuem majoritariamente para esta componente.


— Global —

PC1 PC2
Salinity -0.3591672 0.24810956
TempExtern -0.3170779 0.67415374
N.NO3 0.3495692 -0.24956326
DOCeq 0.3635494 0.19041478
Abs210 0.3594954 -0.05889679
Abs254 0.3600395 0.36564973
Abs360 0.3482138 0.48545175
SAC254 0.3687486 0.11219101
  • PC1: Os carregamentos demonstram que nenhuma variavel ou grupo de variaveis majoritariamente contribui para essa componente.

  • PC2: Claro destaque para os carregamentos das variaveis Temperatura Externa (~0.7) e Abs360 (~0.5).



Graficos da PCA


Scree Plots: O Scree Plot nos mostra a quantidade representada da variabilidade dos dados em cada componente principal.
  • Por zonas: Representacao grafica da predominancia da PC1 nas zonas Aguas Internas e Mar Territorial. Ja na zona Mar do Norte temos uma mudanca nessa predominancia, sendo a variabilidade dos dados espalhada mais amplamente nas componentes principais, indicando uma menor correlacao linear entre as variaveis originais naquela area

  • Global: Representacao grafica da predominancia da PC1 para os dados globais.





Cos2: ‘Squared Cosine’ ou ‘Squared Cosine of Variables’ é uma métrica usada em análise de componentes principais para avaliar a contribuição de cada variável original (ou recurso) em cada componente principal. Em resumo, o Cos2 fornece uma medida de quão bem uma variável é representada pelo componente principal.
  • Aguas internas: vemos valores de Cos2 menores para as variaveis Salinity, Temperatura Externa e N.NO3, justamente as variaveis que apresentam menores valores de correlacao linear com outras variaveis naquela regiao. Conforme mencionado anteriormente, os resultados da analise de PCA leva em consideracao a estrura linear dos dados.

  • Mar Territorial: Vemos a variavel Abs210 com baixa correlacao em relacao as outras variaveis, o que explica a baixa representacao desta variavel pelas duas primeiras componentes principais. O mesmo acontece com a variavel N.NO3 em relacao a correlacao linear com outras variaveis, porem aqui observamos uma boa qualidade de representacao (Cos2). Isto ocorreu pela natureza linear dos dados dessa variavel e pela sua forte representacao na PC2 (>0.7).

  • Mar do Norte: A dispersao dos pontos nas componentes principais pode indicar natureza nao linear das variaveis. Podemos verificar essa caracteristica nessa area ao analisarmos o correlograma acima, apresentado baixa correlacao linear entre todas as variaveis. Ainda vemos que as duas primeiras componentes principais conseguiram representar a variabilidade dos dados de Salinity e Temperatura Externa, bem como de Abs210 e Abs360, pares que se coorelacionam linearmente e possuem carregamentos proximos a 0.5.

  • Global: Quando analisamos o correlograma dos dados como uma zona unica, percebemos que a correlacao linear e’ forte entre todas as variaveis e, como consequencia, as representacoes da variabilidade das variavais nas duas primeiras componentes principais foi quase completa, tendo valores de Cos2 proximos a 1 e 90% da variabilidade dos dados representados apenas pela componente principal 1.






Grafico de Dispersao: O grafico foi aplicado para PC1 e PC2 para identificação de padrões e/ou tendências, possivel correlação, visualizacao de outliers, visualização de distribuição conjunta e comparação entre as zonas.


A relacao entre a PC1 e a PC2 demonstrou uma forte correlacao linear positiva para a area do mar do norte. Naquela area ainda, observamos baixos valores de escore e curto alcance para PC1, que representa cerca de 90% da variabilidade dos dados como vimos anteriormente. Este resultado mostra que os valores naquela zona sao consistentes, tendo baixa variacao de maneira geral. A PC2 possui maior variabilidade, sendo que essa componente e’ majoritariamente carregada pela variavel TempExt.

Com alcance (range) ainda mais curto para ambas PCs, vemos a area das mar territorial como sendo a mais consistente, ou seja, demonstrando que naquela zona as variaveis originais tiveram a menor variabilidade.

Nas aguas internas apresentou maior variabilidade nas duas PCs, isto provavelmente devido serem aguas doces e pela transicao a agua salgada. Nesta area tivemos uma forte variabilidade da PC1 e muitos pontos dispersos, indicando que todas as variaveis originais variam em sua maioria. Tambem vemos areas no grafico com mais pontos dispersos, indicando uma possivel ausencia de correlacao e ou possiveis outliers. Esta maior variabilidade das variaveis originais ja podia ser percebida nos boxplots e nos graficos de distribuicao acima nesta pagina, sendo aqui representadas pelas 2 primeiras componentes principais.

Moran I (Global)

MI Stat MI Stat SS p-value Alt Hypothesis Expectation Variance
Salinity 0.58354 1222.4 0 greater -0.00025088 2.281e-07
TempExtern 0.68014 1424.4 0 greater -0.00025088 2.282e-07
N.NO3 0.51954 1088.8 0 greater -0.00025088 2.279e-07
DOCeq 0.53484 1120.9 0 greater -0.00025088 2.279e-07
Abs210 0.54727 1146.4 0 greater -0.00025088 2.281e-07
Abs254 0.51323 1075.7 0 greater -0.00025088 2.279e-07
Abs360 0.47176 988.9 0 greater -0.00025088 2.278e-07
SAC254 0.56539 1184.6 0 greater -0.00025088 2.28e-07
PC1 0.59096 1238 0 greater -0.00025088 2.28e-07
PC2 0.28771 603.1 0 greater -0.00025088 2.28e-07
  • Moran I Statistic: A estatística de Moran I mede a autocorrelação espacial, ou seja, se valores semelhantes estão próximos uns dos outros no espaço geográfico. O valor da estatística de Moran I para todas as variaveis é aproximadamente 0.5.

  • Moran I Statistic Standard Deviate: Esse valor é usado para avaliar a significância estatística. Para todas as variaveis este valor é pode ser considerado alto, sendo proximo ou maior que 1000, indicando que a autocorrelação observada não é provável de ocorrer ao acaso.

  • p-valor: Um valor-p muito baixo (< 0.05, geralmente) sugere que você pode rejeitar a hipótese nula de aleatoriedade espacial. Para todas as variaveis o valor encontrado foi proximo de zero. Portanto, a autocorrelação espacial é considerada estatisticamente significativa.

  • Alternative Hypothesis: A hipótese alternativa é ‘greater’, indicando que a autocorrelação espacial é positiva (valores semelhantes estão próximos).

  • Expectation: A expectativa é próxima de zero, indicando que, sob a hipótese nula, a média esperada da estatística de Moran I é próxima de zero.

  • Variance: A variância é uma medida da dispersão da estatística de Moran I sob a hipótese nula.

Em resumo, os resultados sugerem fortemente a presença de autocorrelação espacial positiva na região do Mar do Norte para a variável testada. Isso significa que valores semelhantes para essa variável estão agrupados geograficamente na região, em vez de serem distribuídos aleatoriamente.

Moran Local por variavel (LISA)


Metodo: Moran I test under Randomisation(p-value < 0.01)


— Local: Salinity (hotspots colored) —


— Local: TempExtern (hotspots colored) —


— Local: N.NO3 (hotspots colored) —


— Local: DOCeq (hotspots colored) —


— Local: Abs210 (hotspots colored) —


— Local: Abs254 (hotspots colored) —


— Local: Abs360 (hotspots colored) —


— Local: SAC254 (hotspots colored) —


— Local: PC1 (hotspots colored) —


— Local: PC2 (hotspots colored) —