Hace tiempo que veo una gran encrucijada en el camino de los profesionales de datos que estan más enfocados en ciencia y análisis. La mayoría de ellos suelen trabajar con lenguajes de programación y no necesariamente una plataforma como Power Bi. En la búsqueda de como ayudarlos a integrarse más con la plataforma se me ocurrió una external tool a partir de un entregable clásico de ellos, el famoso "Informe de calidad de datos".
Siempre que se trabaja con datos es necesario hacer cierta introspectiva para analizarlos. Con esto me refiero a entender como se componen las tablas, que tipos de datos tenemos en las columnas, como son las distribuciones numéricas y categoricas de las columnas, etc.
Este artículo mostrará como utilizar la external tool de DataQualityReport desarrollada aquí en La Data Web.
External Tools
Power BI cuenta con una comunidad vibrante de profesionales y desarrolladores de BI. Una parte fundamental de esa comunidad son los colaboradores que crean herramientas gratuitas que usan Power BI y Analysis Services API para ampliar e integrar con las características de creación de informes y modelado de datos de Power BI Desktop.
Partiendo del contexto del párrafo anterior vamos a proceder a descargar la herramienta DataQualityReport de github. Enlace
Tanto si usan el instalador como si lo instalan manualmente, deberíamos encontrar el ícono de nuestra tool bajo la pestaña de external tool.

Para dar uso a nuestra herramienta simplemente necesitamos abrir un archivo de Power Bi Desktop, cargarle las tablas de distintos origenes que nos gustaría analizar, o en su defecto un modelo ya creado, y abrimos la herramienta.
Esto dará inicio a un nuevo Power Bi Desktop con todo el análisis que necesitamos. Puede que demore un poco dependiendo la cantidad de datos y columnas que tengamos. Considerando que realizar una distribución para cada columna pensemos que tiene que encontrar cosas como Quartiles/Percentiles para cada columna numérica. Aún así tranquilos porque solo analizará esos datos para obtener resultados, no los cargaría en el informe.
El tipo de autenticación a utilizar es la de "Credenciales de Windows" seleccionado la que ya esta logueada. Power Bi necesita dicha definición y por eso la pide. Como nosotros tenemos todo el entorno local vamos a selecionar lo antes mencionado.

Una vez dentro tenemos una primera página de bienvenida y el resto de análisis. En la bienvenida hay un pequeño gif indicando que si tenemos problemas actualizando el script, deberíamos ignorar los niveles de privacidad. La imagen animada indica como hacerlo. Vamos a explorar las páginas
Tables Overview

Podemos apreciar que el resumen de las tablas de nuestro modelo esta separado en tres partes. Por un lado la distribución de tipos de datos de columna de manera porcentual en gráfico o podemos cambiarlo a valores exactos en tabla. Al medio veremos la cantidad de filas por tabla. A la derecha tendremos un vistazo a los % de datos validos tanto generales como por cada tabla. Podremos explorar en el gráfico de barras para conocer los errores o blancos de las columnas especificas.
Distribución de columnas
El analisis de distribución se separa en columnas de texto y numéricas. Las de texto o fecha presentaran valores posibles, top 5 de las categorías más usadas en una columna y una tabla con detalles de las columnas.

Si seleccionamos una fila mostraría el impacto de esa columna particular.
Para el análisis de números podemos cambiar página o en la pestaña de arriba. Aqui encontraremos algo muy similar a lo anterior pero en lugar de rankign habrá un histograma de una determinada cantidad de categorías (por eso cuesta ver la normal en la distribución) y una tabla con distinto enfoque dado que tiene percentiles que nos ayuden a conocer mejor la distribución y donde hay mayor densidad de valores para identificar outliers.

Esquema
Aqui encontraremos todo lo relacionado al esquema de datos de una tabla para conocerla más en detalle por tipo de datos y en una sola página veremos que al seleccionar una columna cambiará la distribución de número y categoría para mostrar según el tipo de datos. Tambien tendremos contadores y porcentaje de datos validos.

Nube de palabras
Porque nos da un impacto amigable visualmente la nube de palabras no quisimos dejarla afuera. Al seleccionar una tabla podremos ver rápidamente que categorías tienen mayor frecuencia.

Relaciones
Para aquellos que carguen un modelo funcional y no datos sueltos existe esta página. En ella encontraremos las relaciones con indicadores de alerta para bidireccionalidad o muchos a muchos. Tambien nos avisará si nuestras columnas usadas para las relaciones tienen datos erróneos o blancos (FKs).

Así termina nuestra herramienta de análisis que nos permitió conocer más de muchas tablas entendiendo su composición de datos, distribuciones, problemas, etc. Espero que les sirva mucho y arranquen pronto esos informes de calidad de datos.