martes, 14 de julio de 2015

Estadística para datos espaciales con QGIS 2.10 Pisa: Parte 1







Sobre el QGIS 2.10 Pisa


En esta oportunidad aprovechando que desde el 26 de junio ya podemos contar con el QGIS 2.10 Pisa, aunque por el momento solamente a través de OSGeo4W package (Fig. 1),  se mostrará algunas aplicaciones con que cuenta el QGIS relacionadas con la estadística espacial. Para quienes desean conocer con amplitud los cambios que vienen en esta nueva versión, se recomienda revisar la referencias 12 y 3.


Fig. 1: Instalando QGIS 2.10 desde OSGeo4W


En resumen, el modelo de lanzamiento para las versiones de QGIS, se basa en que cada cuatro meses se lanza una versión estable denominada "Latest Release", los cuales tienen números pares (2.4, 2.8, 2.10..), existe las versiones de desarrollo "Development", los cuales tienen números impares (2.9, 2.11..) y los denominados "Long Term Release - LTR", que son lanzados cada cuatro versiones estables, es decir que si ya existe la versión LTR 2.8, el próximo será el  LTR 2.14 (Feb/Marzo 2016), estas versiones reciben el soporte y la corrección de errores por un año.

Sobre Estadística Espacial


En general cuando nos referimos a la estadística espacial, estamos abordando conceptos que nos permiten analizar y entender mejor las características y el comportamiento de un conjunto de datos. QGIS posee varias herramientas para el análisis estadístico que resultan útiles en este sentido. 
La estadística espacial es una disciplina de la estadística general que trata del análisis descriptivo e inferencial de datos geográficos. Son técnicas estadísticas para describir la distribución de fenómenos en el espacio y lograr la identificación de regularidades espaciales y relaciones de causalidad (4).
Por ahora, no vamos a profundizar con temas relacionados a la distribución espacial y espacio-temporal de fenómenos físicos y socio-económicos, los cuales pueden ser aproximados por funciones dependientes de su localización; la presente entrada se va a enfocar en el uso de las principales herramientas que permiten mostrar las estadísticas de los datos espaciales, teniendo con ello la posibilidad de conocer más sobre los datos existentes y con ello poder analizarlos.

Objetivos 

Para esta primera entrega solamente vamos a realizar los primeros dos objetivos, quedando pendiente en una segunda entrega los últimos.
  1. Emplear los complementos (plugins) denominados Estadísticas de zona y Point sampling tool, para lograr extraer valores de tipo raster en ciertas ubicaciones (puntos) o agregarlos sobre una cierta área (polígonos).
  2. Emplear las novedades del QGIS 2.10 existentes para los estilos, sobre todo para la presentación de los datos, incluyendo los efectos visuales como la creación de sombras (Drop shadow).
  3. Probar las funcionalidades sobre datos vectoriales de los complementos Group stats, Live statistics, Statist, Dissolve with stats y Resumen estadístico.
  4. Probar las funcionalidades sobre datos raster del complemento Raster pixel count by classbreak junto con Slicer.

Datos:

Los datos que vamos a emplear para mostrar las herramientas estadísticas corresponden a:

  • Los límites de cuatro provincias del departamento de Huánuco, con sus respectivos distritos (24 en total), los cuales están disponibles desde el Geoservidor del MINAM (Fig. 2).
Fig. 2: Descarga de archivos Shapefiles desde el Geoservidor del MINAM

  • Datos de tipo raster sobre temperaturas promedio y de precipitación, para lo cual emplearemos los que están disponibles a través de WORLDCLIM, con la opción de descarga por "Tiles", para nuestro caso seleccionaremos el 33, correspondiende a nuestro ámbito de estudio (Fig. 3).
Fig. 3: Descarga de temperaturas y precipitación en la zona 33.

  • Datos raster sobre un modelo de elevación digital, en este caso usaremos el SRTM 90m, disponible a través del CGIAR - CSI, para nuestro caso se empleará el que corresponde al archivo srtm_21_14.zip (Fig 4).
Fig. 4: Descarga de un DEM (SRTM 90m) desde CGIAR-CSI


  • Los datos de encuestas realizadas por el INEI, para este caso se realizará una consulta a través de su sistema de microdatos, seleccionando al Censo Nacional Agropecuario (CENAGRO -2012), disponibles en formato de tipo .dbf (Fig. 5). 

Fig. 5: Descarga desde el sistema de microdatos del INEI

  • Por último emplearemos la base de datos espacial del CENAGRO 2012, sobre todo para contar con los denominados "Sector de Enumeración Agropecuaria - SEAs", en específico del departamento de Huánuco (Fig. 6).

Fig. 6: Descarga de polígonos denominados SEAs por departamento


Todos los datos han sido ajustados para que tengan un sistema de referencia EPSG: 32718 (UTM Zona 18S/WGS 84), además de que han seleccionados solo aquellos que corresponden a un ámbito que incluye solamente cuatro provincias del departamento de Huánuco en Perú (Fig. 7), además para los datos estadísticos se han eliminado algunas columnas de datos, todo ello con el objetivo de emplear solo aquellos datos que vamos a representar en los ejercicios.



Fig. 7: Ubicación del Departamento de Huánuco - Perú

Si desea contar con los datos lo puede descargar en el siguiente link de descarga:

https://www.cubbyusercontent.com/pl/data_jul15/_834084463e41471e81ad0c2bc26f4cd2


Primer Ejercicio

Para nuestro primer ejercicio vamos a necesitar los siguientes datos: un archivo con el modelo de elevación digital (dem_ambito_utm.tif), los raster de temperatura media (tmean_ambito_ajust_utm.tif) y precipitación (precip_ambito_utm.tif); mientras que para los datos vectoriales de polígonos trabajaremos con los SEAs (SEAS_data_poly.shp) y un archivo de puntos (SEAS_data_points.shp). Nuestro objetivo es extraer los datos de los raster hacia los datos de puntos y agregarlos a los datos de polígonos.


Paso 1: Descargar e incorporar todos los datos (vectoriales y raster) dentro de nuestro escritorio de QGIS (Fig. 8).


Fig. 8: Datos raster de altitud, precipitación y temperatura media



Paso 2: Instalar el plugin denominado Point sampling tool, el cual se puede realizar desde el administrador de complementos (Fig. 9). Para el caso de la herramienta "Estadísticas de zona", la misma ya viene por defecto instalada y se encuentra dentro de barra de herramientas Ráster.


Fig. 9: Ubicación del plugin Point sampling tool para su instalación


Paso 3: Vamos ahora a emplear el plugin Point sampling tool, para extraer datos sobre la altitud, provenientes de nuestro raster "dem_ambito_utm.tif", para incorporarlos a los datos de nuestro archivo vectorial de puntos "SEAS_data_points.shp". Para ello, primero se recomienda des- habilitar las capas que no vamos a emplear por ahora, luego una vez que activamos el plugin, seleccionamos como primer requisito nuestra capa de puntos, además debemos indicarle que deseamos que se mantengan todos los campos que ya posee dicha cobertura, por lo tanto seleccionamos todos esos campos y en la parte final veremos a nuestra capa raster a la que debemos seleccionar también (Fig. 10).


Fig. 10: Ejecutando el plugin Point sampling tool



Paso 4: Ahora debemos verificar que la nueva capa contenga un campo con las altitudes en cada registro de los puntos. Para ello simplemente podemos ingresar a nuestra tabla de atributos para comprobar la existencia de dichos datos (Fig. 11).


Fig. 11: Campo adicionado luego de ejecutar el plugin


Paso 5: Debemos realizar el mismo procedimiento para extraer información de los otros archivos raster que contienen datos de temperatura media y precipitación, en total tendremos tres columnas adicionales, en nuestro caso nuestro archivo se denominará "SEAS_data_dem_clim" (Fig. 12).

Fig. 12: Comprobando resultados luego de ejecutar el plugin


Paso 6: Ahora vamos a trabajar con Estadísticas de zona, aquí trabajaremos con una capa de polígonos (SEAS_data_poly.shp), además de los raster con que contamos. Una vez activado Estadísticas de zona dentro de la barra de herramientas Ráster, nos aparecerá una ventana en donde debemos seleccionar el raster "dem_ambito_utm", luego la capa de polígonos, teniendo la opción de colocar un prefijo del campo de resultados, en nuestro caso pondemos "Alt", finalmente hacemos un check a los valores de estadísticas que requerimos nos calcule (Fig 13). Es importante resaltar que la posibilidad de elegir las estadísticas es una mejora que viene con el QGIS 2.10.


Fig. 13: Ejecutando la herramienta Estadísticas de zona


Paso 7: Nos toca comprobar los resultados obtenidos, para ello, simplemente podemos usar el identificador de objetos espaciales y seleccionar un polígono (Fig 14). Ahora podemos realizar el mismo procedimiento extrayendo información de temperatura y precipitación, sin olvidarse de emplear los prefijos para diferenciarlos entre ellos.

Fig. 14: Comprobando resultados luego de ejecutar la herramienta


Paso 8: Una vez teniendo los polígonos y los puntos con los nuevos datos, vamos a generar vistas que nos permitan mostrarlos. Primero para el caso de los puntos, con esta nueva versión podemos mejorar la simbología de tipo graduado, los puntos ahora pueden variar de acuerdo a un rango de tamaños (Fig. 15).


Fig. 15: Simbología graduada de puntos en función a su tamaño.


Paso 9: Ahora también podemos tener otro elementos de análisis de nuestros datos, puesto que han añadido una pestaña que muestra un histograma interactivo de acuerdo a la simbología de puntos generada (Fig. 16). Con ello podemos indicar por ejemplo, que el ámbito considerado y teniendo en cuenta que la media es aproximadamente 2,300 metros de altitud, ligeramente mayores lugares con altitudes menores a la media. 


Fig. 16: Mostrando un histograma con nuestros datos graduados


Paso 10: También podemos hacer algo similar con nuestros datos de polígonos, para este caso se muestra la simbología graduada considerando los datos de precipitación media, solamente se clasifica por color (Fig. 17). Se les invita a que puedan analizar los datos empleando el histograma tal como el caso anterior.

Fig. 17: Simbología graduada por colores para los polígonos


Paso 11: Finalmente para mostrar otras bondades del QGIS 2.10, vamos activar la opción denominada "Draw effects"  ubicado en la parte inferior dentro de las opciones de estilo. Primero podemos crear un efecto de sobra tipo Drod Shadow (Fig. 18) sobre uno de los polígonos y luego a los puntos que están a diferentes tamaños podemos generar un efecto de tipo Inner Glow (Fig 18), el resultado puede ser algo más vistoso de lo que estaba inicialmente (Fig. 19).

Fig. 18: Opciones de efectos (Draw effects) a puntos y polígonos


Fig. 19: Resultado de los efectos a la simbología de puntos y polígonos




Bueno por ahora es lo que quería mostrarles, en la siguiente entrada de mi blog vamos a trabajar con los complementos tales como: Group statsLive statisticsStatistDissolve with stats y el Resumen estadístico, empleando los mismos datos que ya fueron compartidos.


Referencias:

  1. http://changelog.linfiniti.com/qgis/version/2.10/
  2. http://mappinggis.com/2015/07/novedades-de-qgis-2-10-pisa/
  3. http://www.qgis.ch/de/ressourcen/anwendertreffen/2015/qgis-news-for-versions-2-6-2-8-2.10
  4. http://www.ub.edu/geocrit/sn/sn-263.htm
  5. http://www.qgistutorials.com/en/docs/sampling_raster_data.html

5 comentarios:

PJ Hooker dijo...

Hi! Here my QGis 2.10 test ;-) https://youtu.be/auH7SGxeP0I

Patricio Perez dijo...

Muy importantes las explicaciones. Podemos revisar más matarial para el uso de estadísticas? como gráficas, selección de muestras, entre otras.
Patricio Pérez

Carlos Carbajal dijo...

Hola patricio, existen otras herramientas estadísticas que podemos mostrar, además de las que muestro en las siguientes entradas, es posible que posteriormente lo presente con un ejemplo.
Saludos,

Hugo Coitiño dijo...

Hola, muy buena las explicaciones. Intente lo de sacar los datos de altiutd con un shp de puntos pero cuando abro la tabla de atributos del shp que me forma los valores son Null, no me aparecen los valores de altitud del MDT. Porque sera?

Carlos Carbajal dijo...

Hola hugo, lo más probable es que el archivo de DEM o MDT que estas empleando no corresponde al mismo sistema de referencia de coordenadas, te recomiendo revisar los metadatos y ver si ambos son los mismos, caso contrario debes transformarlo.