Caching across Heterogeneous Information Sources: an Object-based Approach

Authors: A. Vakali and Y. Manolopoulos

Appeared in: International Journal for Computer Research, Special Issue on Advances in Information Processing and Technology, pages 361-382, 2001.

Abstract: Information exchange has been increased drastically and rapidly due to the major large scale Internet expansion. The structure of information sources worldwide has been altered and both structured and semistructured data are stored in various heterogeneous information spaces. Several tools have been developed for facilitating the rapid integration of the different information structures and accessing needs across heterogeneous sources over the Internet. This paper proposes a caching approach to extend the heterogeneous information sources integration process such that distributed objects are better accessed and retrieved. Our caching approach considers objects that are formed in response to certain queries
posed over a specified number of distinct information sources. A methodology based on the notion of genetic algorithms is studied aiming at facilitating distributed objects exchange and accessing. In the proposed model, queries refer to documents or objects identied by their information source and their location within that source. Objects remain in the cache area based on their frequency of accesses their popularity and their server priority, whereas the cache content is regularly updated. The proposed methods are experimented and results are compared with the corresponding results of the conventional Least Recently Used (LRU) cache replacement algorithm. The proposed evolutionary approach based algorithm is proven to be superior than the traditional LRU algorithm with respect to both cache and byte hit ratios.

Περίληψη: Στην εργασία αυτή εξετάζεται η εναποθήκευση (caching) αντικειμένων που προέρχονται από ετερογενείς πηγές του Παγκόσμιου Ιστού. Προτείνεται μία πολιτική εναποθήκευσης που να επεκτείνει την κατανομή των αντικειμένων μεταξύ ετερογενών πηγών, με στόχο την βελτίωση της πρόσβασης και την διαθεσιμότητα των κατανεμημένων αντικειμένων. Η προτεινόμενη μεθοδολογία εναποθήκευσης βασίζεται στην λογική των γενετικών αλγορίθμων και η προτεινόμενη πολιτική αξιολογείται με βάση την αποκρισιμότητα σε ερωτήματα χρηστών από διάφορες ετερογενείς πηγές στο Διαδίκτυο. Τα αντικείμενα παραμένουν στην περιοχή εναποθήκευσης με κριτήρια που σχετίζονται με την συχνότητα αναφοράς σε αυτά καθώς και με την προτεραιότητα του εξυπηρέτη και της πηγής από την οποία προέρχονται. Οι προτεινόμενες πολιτικές εναποθήκευσης αξιολογούνται και συγκρίνονται και με τον συμβατικό αλγόριθμο LRU για σημαντικό αριθμό ερωτημάτων και ετερογενών τόπων. Ο προτεινόμενος τρόπος εναποθήκευσης που βασίζεται στους γενετικούς και εξελικτικούς αλγορίθμους αποδεικνύεται πειραματικά ιδιαίτερα βελτιωμένος σε σχέση με την τυπική εναποθήκευση. Οι μετρικές αξιολόγησης των πολιτικών εναποθήκευσης περιλαμβάνουν τις επιτυχίες ανεύρεσης των αντικειμένων στην περιοχή εναποθήκευσης και το ποσοστό χωρητικότητας δεδομένων που ανευρίσκουν οι χρήστες στον χώρο εναποθήκευσης.

