lunes, 1 de diciembre de 2014

La web semántica: el camino convergente hacia estándares abiertos y datos enlazados (linked data)

Créditos: Review On
Alberto Camus, docente y experto en arquitectura de información, exponía con gran acierto daba las últimas pistas sobre el camino que sigue encarando Google en direccióna la “web semántica”, ese nuevo estadio de la historia de la web a que se suponevamos a ir acercándonos. Según Camus, el reciente anuncio de uno de los expertos de Google, Amit Singhal, enel Wall Street Journal, demuestra que Google sigue trabajando para mejorar sus motores de búsqueda en la interpretación de los metadatos y de los propios datos, pues, si queremos que los robots de búsqueda se conviertan en “agentes inteligentes”, que nos ayuden más y mejor en la localización de información, no pueden basarse solo en los metadatos, sino que han de “saber” interpretar la información mediante comparación.
Créditos: Dejan Seo

Parece ser que Google ha dedicado bastante esfuerzo en optimizar su Google´sKnowledge Graph, base relacional (adquirida recientemente al proyectocolaborativo Freebase, ligado al movimiento Open Source), cuya mecánica quiere Google desarrollar para tornar su motor de búsqueda más semántico, al modo del motor semántico Swoogle, pero con la potencia algorítmica que caracteriza a Google.




Imagen generada por el Google´s Knowledge Graph. Créditos: Fred Benenson
Para ir haciéndonos idea de cómo es la mecánica de Google´s Knowledge Graph, puede servir este video explicativo sobre “Metaweb”, una de las líneas de trabajo del proyecto Freebase:

Video“Welcome to Metaweb” (12/07/2010, 3:26)


En realidad, para conseguir superar el largo y tortuoso recorrido hacia la web semántica, no debemos perder de vista que se trata de una tarea multidisciplinar en que han de participar no solo informáticos y expertos en inteligencia artificial, sino también documentalistas, arquitectos de información y lingüistas (Lamarca, 2002; Hassan y Martín, 2003; Peis et al., 2003; Méndez, 2004; Rodríguez y Ronda, 2005; Pedraza-Jiménez et al., 2007; Codina, 2008).
¿O acaso no está siendo largo el camino a una web semántica?, una historia que se inicia a causa de (1.) la desestructuración originaria de internet, a través de (2.) la ola de tecno-optimismo iniciada por el gurú Peter Russell, hasta (3.) las propuestas más cabales de Tim Berners-Leedesde el World Wide Web Consortium:


1. Desestructuración originaria en internet
Desde su inicio, la WWW surgió carente de estructuración, sino como una sucesión infinita de páginas de información, que no constituye en sí un “sistema de información”, dotado de una organización que posibilite su gestión en relación a sus criterios constitutivos. La información, como todo sistema, se desarrolla por las leyes de variación y selección, de modo que cada núcleo informativo se somete a competencia conotros a través de los principios de mutación, recombinación y reproducción, a que los somete constantemente el colectivo de usuarios. Por tanto, la información almacenada debe ser susceptible de una interacción entre los usuarios y la red de conocimiento. Sin embargo, como caracterizaba Alexander Chrislenko (1997) a internet, aun siendo el mayor repositorio informativo jamás conocido, su desestructuración lo convierte en un caótico mar de datos incomunicados:
The Web is probably the richestinformation repository in human history, but most of its information is passiveand unstructured. The Web doesn't know what it carries and for what purpose,and the users cannot specify what they want from it. There are some sites thatuse structured information storage and queries, but they are just littleislands of order in the chaotic sea of information, not communicating to each other.

2. Tecno-optimismo de la metáfora de internet como “supercerebro”y como “noosfera” y sus insuficientes propuestas
Según refiere Christian Wenger (1998), la idea de un “supercerebro” apareció por vez primera en el sociólogo Herbert Spencer, y fue después adoptada por Vladimir Vernadsky, que, además, creó el término de “noosfera”, como “una red de pensamientos, información y comunicación”. Posteriormente ,recogieron ambas ideas y términos autores como Pierre Teilhard (1955) yValentin Turchin (1977).
Desde los inicios de la red internet, varios autores han retomado las ideas del supercerebro y la noosfera y han creado una metáfora de internet como cerebro global (Peter Russell, 1983; Mayer-Kress G. & Barczys, 1995; Russell, 1995;Heylighen & Bollen, 1996; Bollen & Heylighen, 1996; Chrislenko, 1996).Esta metáfora tecno-optimista (Lamarca, 2002) se sustenta en la arquitectura distribuida de información hipermedia (Heylighen & Bollen, 1996), por la que en internet se unen estos tres hechos: su extensión mundial, su cercaníaorganizativo-estructural, de los nodos y el hipertexto, a las relaciones asociativas neuronales en el cerebro humano, y su enorme capacidad de albergar cantidades ingentes de información.
“La Web inteligente”, II Jornada en.red.ando, Barcelona, 26/10/2001.  Fuente: Lamarca (2002)
Para estos autores tecno-optimistas, en su mayoríaespecialistas en informática, es posible hacer de internet un superorganismo social dotado de cerebro global, lo que exige optimizar al máximo su arquitectura de información. En esta línea, los knowbots, o “agentes de inteligencia artificial”, propuestos por Ben Goertzel (1996), que, una vez conocedores de las necesidades de búsqueda deinformación del usuario buscarían la información con criterios asociativos y la presentarían organizada al usuario. Para ello, han pretendido desarrollar algoritmos (Bollen & Heylighen, 1996) o software específicos, como elsoftware Webmind, de la IntelliGenesis Corporation, que consigue separar las informaciones en datos y compararlos asociativamente, aunque solo con bases de datos numéricas en intranet, quedando lejos de poder aplicarse a la inmensidad de internet. Los algoritmos matemáticos puros, sibien tienen la ventaja de su escalabilidad masiva y su independencia del lenguaje natural, no son comprensibles ni dominables por la mayoría de los internautas, tienden a una “inteligencia artificial” muy complicada de conseguir en una macrored comunicacional como es internet.


3. Las propuestas de Tim Berners-Lee desde el World Wide Web Consortium (el W3C)
Hubo de ser el “padre” de la WWW, Tim Berners-Lee,quien propusiera (1998a, 1998b, 2000, 2001) las estrategias para conseguir una web semántica, que fuese más que un gran receptáculo de informaciones, capaz no solo de visualizarnos los datos contenidos, sino capaz también de “entender”, en cierta medida, significados básicos de las publicaciones, que sirvieran para su mejor identificación, localización e interconectabilidad.
Arquitectura de la Web Semántica, en Berners-Lee, 2000:  http://www.w3.org/2000/Talks/1206-xml2k-tbl/slide10-0.htm

En su propuesta, la web semántica debe conseguirse desde ambos planos al unísono:
  •            No solo el desarrollo de motores de búsqueda capaces de combinar los algoritmos matemáticos y, a la vez, de atender los estándares de los lenguajes abiertos y los etiquetados y categorías ontológicas.
  •       Sino también, la concienciación generalizada hacia los estándares de diseño y de etiquetado de los objetos que publiquemos en internet, lo que permitirá una web “contextual”, con una mayor interconectabilidad de la información y una nueva cultura de “datos enlazados y compartidos” (linked data).
Como refleja este diagrama, a la web semánticadeben contribuir tanto un software más sofisticado, como una información más rica en “datos inteligentes”, sintáctica y semánticamente más y mejor autodescriptivos.
Diagrama sobre la web semántica. Créditos: Nova Spivack, de Radar Networks
 
Sobre los estándares abiertos, debemos concienciarnos en seguir las normas de publicación que múltiples expertos van consensuando a través de los grupos de trabajo que organiza y coordina el W3C.Por ahora, los lenguajes desarrollados son: para la sintaxis, el lenguaje XML(Extensible Markup Language), y sus derivados, y SPARQL, y para la semántica,los lenguajes RDF (Resource Description Framework) y OWL.
Y sobre la cultura “linked data”, el propioBerners-Lee la expuso en esta famosa charla en marzo de 2009, en que exhorta ala ciudadanía no solo a exigir a contribuir en la medida se sus posibilidades alos linked data, sino también a exigir a los organismos públicos que no sequeden en la cultura de “transparencia” del movimiento “datos abiertos” (opendata), a que se han unido muchas Administraciones (EEUU, Europa y Australia ala cabeza), con la concienciación de la “reutilización”, sino que también contribuyan con decisión a los linked data, porque son el verdadero revulsivode una web semántica a que debemos aspirar con entusiasmo y, podríamos añadir,sentido de conculturalidad e inclusión.
TEDTalks (marzo 2009). “Tim Berners-Lee on the next web”. 
 




Utilidades informativas: Fuentes
BERNERS-LEE, Tim (1998a). “Whatthe Semantic Web can represent”. http://www.w3.org/DesignIssues/RDFnot.html
BERNERS-LEE, Tim (1998b). Semantic Web Road Map.
BERNERS-LEE, Tim (2000). “Semantic Web”.
BERNERS-LEE, Tim. HENDLER, James. LASSILA,Ora (2001). "The Semantic Web", Scientific American. http://www.sciam.com/article.cfm?articleID=00048144-10D2-1C70-84A9809EC588EF21&pageNumber=1&catID=2
BOLLEN, Johan &HEYLIGHEN, Francis (1996), “Algorithms for the Self-Organisation of Distributed, Multi-UserNetworks. Possible application to the future World Wide Web”, SymposiumTheories and Metaphors of Cyberspace, Universidad de Viena, 9 a 12 abril1996.
CAMUS, Alberto (16/04/2012). “Google ya lo dijo: seviene la web semántica”.
CHRISLENKO, Alexander (1996).“Networking in the Mind Age: future of the distributed intelligence”.
__ (29/06/1997).“Semantic Web vision paper”.
CODINA, Lluís et al.(2009). Web semántica y sistemas deinformación documental. Gijón: Trea.
EFRATI, Amil (15/03/2012).“Google Gives Search a Refresh”.
GOETZEL, Ben (1996). “World Wide Brain: The Emergence ofGlobal Web Intelligence and How it Will Transform the Human Race”.
HASSAN, Yusef y MARTÍN, Francisco J. (2003): “WebSemántica: el papel del Arquitecto de Información”.
HEYLIGHEN, Francis& BOLLEN, Johan (1996). “The World-Wide Web as a Super-Brain: from metaphorto model”. En: Trappl,R. (ed.): Cybernetics and Systems '96(Austrian Society for Cybernetic Studies), p. 917.
LAMARCA, MªJesús (2002). “Hacia la Web Semántica”,Hipertexto: el nuevo concepto dedocumento en la cultura de la imagen.
MAYER-KRESS, Gottfried & BARCZYS,Cathleen (1995): "The Global Brain as an Emergent Structure from theWorldwide Computing Network", The Information Society 11.
MÉNDEZ,Eva Mª (2004). “La Web Semántica: una web “más bibliotecaria””.
PEDRAZA-JIMÉNEZ,Rafael et al. (2007). “Web semántica y ontologías en el procesamiento de lainformación documental”.
PEIS,Eduardo et al. (2003). “Ontologías, metadatos y agentes: recuperación“semántica” de la información”.
RODRÍGUEZ,Keilyn y RONDA, Rodrigo (2005). “Web semántica: un nuevo enfoque para laorganización y recuperación de información en el web”.
RUSSELL, Peter (1995): The Global BrainAwakens: Our Next Evolutionary Leap. New York: Miles River Press.
TEDTalks (marzo 2009). “Tim Berners-Lee on the next web”. Disponible enlínea en:
TEILHARD, Pierre (1955). El fenómeno humano.
TURCHIN,Valentin (1977). The Phenomenon of Science. A cybernetic approach tohuman evolution. New York: Columbia University Press.
WENGER,Christian (1998). “The Impact of the Internet on the Global Brain”.