Big Data - Representación de conocimiento

Introducción

Cuando nos encontramos con algún problema, para iniciar su resolución necesitamos tener conocimiento específico sobre él.
Hay que tener en cuenta que el conocimiento necesario para solventar un problema debemos combinarlo con un conocimiento más general sobre cómo resolver el problema.
El conocimiento general de cómo resolver un problema, debe guiar a los procedimientos, que nos ofrece la inteligencia artificial, para obtener soluciones de forma más eficiente.

Generalmente, cuando conocemos un problema tenemos muchos datos relativos al problema, pero poco conocimiento. Por lo cual, la pregunta que nos hacemos es: ¿Es lo mismo tener datos, qué información o conocimientos sobre un problema? Evidentemente, la respuesta es NO.
Entonces, vamos a aclarar la diferencia entre datos, información y conocimiento.
Podemos definir los datos como elementos de interés potencial, es decir, elementos que están constituidos por registros de hechos o acontecimientos.
Por su parte, la información está compuesta de un conjunto de datos básicos, los cuales se encuentran contextualizados en un dominio, concretamente, el dominio del problema.
Cuando la información es analizada, interpretada y procesada de forma adecuada se transforma en conocimiento.

Así que partiendo de los datos y llevando a cabo una contextualización y análisis de los mismos, podemos llegar a obtener conocimiento de un problema.

Representación del conocimiento

La representación del conocimiento no es más que un área de la inteligencia artificial, cuya función es representar el conocimiento de tal forma que se facilite la inferencia del nuevo conocimiento, es decir que se facilite la forma de sacar conclusiones.
El instrumento que nos permite representar el conocimiento se llama Esquema de Representación. Desde un punto de vista informático, un esquema de representación del conocimiento, lo podemos describir como una combinación de estructura de datos que codifican el problema con estructura de datos que almacenan el conocimiento referente al dominio y con los procedimientos que manipulan tales estructuras de forma consistente.
A la hora de elegir una técnica de representación del conocimiento para un problema concreto debemos de tener en cuenta que la representación del conocimiento debe cumplir algunas propiedades:

Adecuación representacional. Esta propiedad hace referencia a la habilidad de representar toda las clases de conocimiento que se presenten en un problema.
Adecuación inferencial. Que es lo que debe poderse inferir, es decir, aquel conocimiento nuevo que se puede inferir a partir de tal representación.
Eficiencia inferencial. Se refiere a la capacidad del sistema para añadir metaconocimiento a la estructura de representación.
Eficiencia en la adquisición. Relacionada con la capacidad de incorporar nueva información a la estructura de representación.

Técnicas de Representación del Conocimiento

Existen diferentes formas de representar el conocimiento. Sin embargo, ninguna de las formas es la ideal para representar todo tipo de conocimiento. Por lo tanto, ante un problema dado, debemos de estudiar primero el problema para ver cuál es la representación del conocimiento, con qué técnica debemos representar el conocimiento, que se adecue más al problema, teniendo en cuenta que, la solución del problema puede simplificarse si la representación elegida es una técnica concreta.

Representación mediante tuplas: (objeto, atributo, valor)

Ejemplo: (Trabajador, nombre, Pepe)

Representación mediante Redes Semánticas. Las redes semánticas son técnicas declarativas de representación del conocimiento, dónde mediante unas estructuras gráficas, se codifican propiedades y conocimiento taxonómico de objetos.

Representación mediante tablas. Es la representación más simple, pero que algunas ocasiones no es muy efectiva. Las tablas representan el conocimiento de forma declarativa. El problema de las tablas más básicas que para extraer el conocimiento debemos utilizar procedimientos externos, como por ejemplo, algún procedimiento estadístico. En el ejemplo, podríamos saber la media de edad de la población que tenemos.

Representación mediante frames. Los frames son técnicas de representación del conocimiento de forma declarativa. El objeto de estas técnicas es el de suministrar un mecanismo de razonamiento por semejanza. Un frame representa a una entidad del mundo real. También podemos identificar los frames como una red semántica más compleja.

Representación mediante reglas. Este tipo de representación del conocimiento es de tipo procedimental, donde cada regla IF condición THEN, establece un gránulo completo de conocimientos.

Representación mediante lógica de predicados. Esta técnica hace uso de la lógica formal para representar el conocimiento. Para llevar a cabo la inferencia, se hacen uso de los métodos generales de resolución automática aplicando los diversos teoremas existentes.

Representación mediante modelos lineales. Los modelos lineales también se conocen, por los estadísticos, como modelos de regresión. Un modelo lineal predice el valor de un atributo a través de otros atributos. Para llevar a cabo la precisión se utiliza una función lineal. Una ventaja de los modelos lineales es que son muy fáciles de visualizar.

Representación mediante árboles de decisión. Un árbol se compone de nodos, dónde en cada nodo se evalúa un atributo concreto. Según el atributo evaluado y cuál sea la respuesta al atributo, la decisión tomada será una u otra.

Comentarios

Deberíamos de preguntarnos, si todas las formas de representación del conocimiento presentadas son adecuadas cuándo tenemos grandes cantidades de datos; o por el contrario, si estas técnicas deberían de adaptarse para obtener y extraer conocimiento con una mayor cantidad de datos.
La respuesta es ambigua, puesto que dependiendo del problema la técnica de representación del conocimiento seleccionada, debería ser extendida o cambiada por otra, pero también es posible que para otro problema se pueda utilizar una técnica del conocimiento de las mencionadas aunque el problema sea del mundo del Big Data.
Esto es así, debido a que, por no tener mayor cantidad de información vamos a extraer mayor cantidad de conocimiento, puesto que cantidad no implica calidad.
Por el contrario, si es posible tener un conocimiento de mayor precisión porque disponemos de más información, aunque esto de nuevo depende del problema.

Bibliografía

Knowledge Representation in the Social Semantic Web. Weller, Katrin. In Knowledge & Information . New York: De Gruyter, 2010.
Ma, X., & Capri, H. L. (2014). Data Mining: Principles, Applications and Emerging Challenges. Hauppauge, New York: Nova Science Publishers.

Ayudas y demás cosas

Buscar este blog