Τεχνολογία-Επιστήμη
Πέμπτη, 24 Ιανουαρίου 2013 20:37

Common Crawl: Ο επερχόμενος «διάδοχος» της Google;

Η Google ξεκίνησε ως μία μηχανή αναζήτησης η οποία ήταν καλύτερη από τις άλλες, χάρη στους εξελιγμένους αλγορίθμους και τις «έξυπνες» μεθόδους «web crawling» της.

Η Google ξεκίνησε ως μία μηχανή αναζήτησης η οποία ήταν καλύτερη από τις άλλες, χάρη στους εξελιγμένους αλγορίθμους και τις «έξυπνες» μεθόδους «web crawling» της.

Σήμερα έχει εξελιχθεί σε έναν κολοσσό στο χώρο της τεχνολογίας, αλλά οι μηχανές αναζήτησης παραμένουν στην «καρδιά» της. Οπότε και ακούγεται τουλάχιστον φιλόδοξο σαν στόχος να επιδιώκει κάποιος να την «προκαλέσει» εκεί- ωστόσο, αυτό σκοπεύει να κάνει η Common Crawl: μία ΜΚΟ η οποία, χρησιμοποιώντας τον δικό της web crawler, δημιουργεί ένα τεράστιο ευρετήριο του ίδιου του Ίντερνετ, το οποίο και καθιστά διαθέσιμο σε όποιον ενδιαφέρεται.

Η Common Crawl «προσφέρει» πάνω από 5 δισεκατομμύρια ιστοσελίδες, σε μία (αν όχι τη μεγαλύτερη) τεράστια «συγκέντρωση γνώσεως», όπως λέει ο ιδρυτής της, Γκιλάντ Ελμπάζ, στο MIT Technology Review. 

Όπως ελπίζουν στην Common Crawl, το «ευρετήριο» αυτό, το οποίο συντάσσουν, θα μπορούσε κάλλιστα να αποτελέσει τη βάση για νέες μηχανές αναζήτησης, ενώ παράλληλα αποτελεί ένα θαυμαστό τρόπο «εκδημοκρατισμού» της πρόσβασης στη γνώση, που είναι εξαιρετικά μεγάλης σημασίας για την καινοτομία εν γένει.

Επίσης, θα αποτελέσει κίνητρο για ερευνητές με νέες ιδέες πάνω στη διαχείριση και χρήση δεδομένων του Web να δραστηριοποιηθούν μόνοι τους, αντί να απευθυνθούν απλά στην «βασίλισσα» Google.

Πέρα από τον Ελμπάζ, στην Common Crawl συμμετέχουν ο Πίτερ Νόρβιγκ, διευθυντής έρευνας της Google, και ο Τζόι Ίτο, διευθυντής του Media Lab του ΜΙΤ. Μέχρι τώρα έχουν καταχωρηθεί πάνω από 5 δισεκατομμύρια ιστοσελίδες, που αντιστοιχούν σε 81 terabytes δεδομένων, διαθέσιμα μέσω της υπηρεσίας cloud computing της Amazon.

Προγραμματιστές οι οποίοι θέλουν να αξιοποιήσουν τον όγκο δεδομένων που διατίθεται από την Common Crawl μπορούν να το κάνουν στήνοντας ένα λογαριασμό 25 δολαρίων στην Amazon.

Ήδη, ενδιαφέρον για την Common Crawl και τον όγκο των δεδομένων της έχουν εκδηλώσει διάφορες startps, όπως η TinEye και η Lucky Oyster, που ασχολούνται με την αναζήτηση εικόνων και με την εύρεση πληροφοριών από τα social media αντίστοιχα.