Στην εξέλιξη της επικοινωνίας και την πρόοδο που έχει συντελεστεί στα υπολογιστικά συστήματα μας οδήγησε η ανάγκη απλούστευσης της καθημερινότητας ή ακόμα και τα πιο σύνθετα ζητήματα. Σε αυτή την κοινωνία παροχής ολοένα και περισσότερων νέων πληροφοριών, αυτά συγκεντρώνονται και καταγράφονται διαρκώς, δημιουργώντας έτσι μια τεράστια βάση δεδομένων.
Ένα απλό παράδειγμα είναι η καταγραφή σε μια βάση δεδομένων, των συναλλαγών που γίνονται από πελάτες εντός ενός καταστήματος τραπέζης ή μέσω της χρήσης πιστωτικής κάρτας (σύστημα δοσοληψιών). Ενώ ένα πολυπλοκότερο παράδειγμα θα ήταν η οργάνωση και καταγραφή σε μια βάση δεδομένων θέματα όπως πειραματικά δεδομένα, φωτογραφίες και δεδομένα δορυφόρων ή ακόμα ιατρικά θέματα (διαδικασίες συσσώρευσης ψηφιακών αρχείων).
Από την ανάγκη καταγραφής και διαχείρισης αυτών των μεγάλων βάσεων δεδομένων και την συνεχή ανανέωση και νέων καταγραφών από τους χρήστες, οδηγηθήκαμε στην αναζήτηση και τελικά στην λύση αυτής της ανάγκης μέσω της διαδικασίας της Eξόρυξης Δεδομένων (Data Mining). Η διαδικασία αυτή στηρίζεται σε τεχνικές αλγορίθμων απαραίτητες και χρήσιμες σε κλάδους όπως είναι η οικονομία, η στατιστική, η βιοστατιστική, η δημογραφία, η γεωλογία, η μετεωρολογία, η ιατρική.
Σαφής και περιεκτικός ορισμός για την Εξόρυξη Δεδομένων (ΕΔ) είναι δύσκολο να δοθεί λόγω των διαφορετικών και αντικρουόμενων απόψεων. Ένας ορισμός που θα μπορούσε να καταγραφεί είναι ότι « Εξόρυξη Δεδομένων (Data Mining) είναι η ανάλυση – συνήθως τεραστίων – παρατηρούμενων (observational) συνόλων δεδομένων, έτσι ώστε να βρεθούν μη παρατηρηθείσες σχέσεις και να συνοψιστούν τα δεδομένα με καινοφανείς τρόπους οι οποίοι είναι κατανοητοί και χρήσιμοι στον κάτοχο των δεδομένων» (Hand et. Al, 2001).
Σύμφωνα με τον ανωτέρω ορισμό η δήλωση των σχέσεων και η σύνοψη των στοιχείων συχνά αναφέρεται ως μοντέλο (model) ή πρότυπο (pattern). Στόχος της ΕΔ είναι η περιγραφή των δεδομένων και η πιθανότερη πρόβλεψή τους, όπως την μελλοντική αξία ή συμπεριφορά κάποιων μεταβλητών, και γίνεται μέσω προτύπων γνωστά ως (pattern recognition). Η αναγνώριση των προτύπων γίνεται με την βοήθεια γραμμικών εξισώσεων, κανόνων, διάκριση σε συστάδες, απόδοσης δομών και γραφημάτων σε μορφή δέντρου καθώς και σε επαναλαμβανόμενα πρότυπα με μορφή χρονοσειρών.
Βέβαια αξίζει να σημειωθεί ότι ο ορισμός αυτός αφορά παρατηρούμενα δεδομένα (observational data) και όχι σε εμπειρικά ή πειραματικά (experimental data) αφού η ΕΔ κατά βάση ασχολείται με ήδη συλλεγμένα δεδομένα με σκοπό την περαιτέρω ανάλυση μέσω των διαδικασιών της.
Σκοπός λοιπόν της ΕΔ είναι η ανάπτυξη στρατηγικής και συλλογή δεδομένων και αυτή είναι η ουσιαστική διαφορά της από την Στατιστική επιστήμη παρόλο που σχετίζεται μεταξύ τους σε μεγάλο βαθμό. Η διαφορά τους όμως είναι ότι στην Στατιστική συλλέγονται τα δεδομένα με σκοπό να απαντηθούν συγκεκριμένα θέματα ενώ η ΕΔ αναφέρεται συχνά ως δευτερεύουσα ανάλυση δεδομένων.
1. Δ Rosch, Μια εμπειρική σύγκριση των προβλέψεων κινδύνου αθέτησης από εναλλακτικές φιλοσοφίες αξιολόγησης της πιστοληπτικής ικανότητας. International Journal of Η πρόβλεψη. 21 (2005) 37-51.
2. ΣΤ Wen και Χ Yang, Ασυμμετρία της επιστροφής Διανομής και Coeffcient του επασφάλιστρο κινδύνου. Εφημερίδα των Συστημάτων Επιστήμης και Πολυπλοκότητας, 22 (2009): 360371.
3. ΣΤ Wen και Ζ Liu, ένα συνδετικό ρήμα που βασίζεται Μέτρο συσχέτισης και η εφαρμογή της στην χρηματιστηριακή αγορά της Κίνας. International Journal of Πληροφορικής & Λήψη Αποφάσεων, 8 (2009): 1-15.
4. DJ Hands και NM Adams, προσδιορίζοντας τα χαρακτηριστικά για την κατασκευή scorecard σε credit scoring. Εφημερίδα της Εφαρμοσμένης Στατιστικής, 5 (2000) 527-540.
5. LC Thomas, Μια έρευνα της πιστοληπτικής ικανότητας και συμπεριφοράς βαθμολόγησης: Πρόβλεψη οικονομικού κίνδυνου των δανείων προς τους καταναλωτές. International Journal of Η πρόβλεψη. 16 (2000) 149 – 172.