Thursday 19 November 2015

Retrieval Information dari kumpulan data yang sangat banyak

Dalam artikel ini akan membahas tentang retrieval information dari kumpulan data yang sangat banyak, dalam hal ini kita akan membahas terkait teori retrieval information ini.

Terdapat 2 jenis retrieval information yaitu :
1. retrieval information dari data yang terstruktur
2. retrieval information dari data yang tidak terstruktur

Pada artikel ini akan dibahas terkait retrieval information dari data yang tidak terstruktur.

Apa itu Information Retrieval ?

Adalah menemukan kembali materi(data) dari kumpulan data tidak terstruktur (biasanya text) yang memenuhi kebutuhan informasi yang di inginkan dari kumpulan data yang besar (biasanya berada di dalam komputer).

Ada beberapa istilah dalam retrieval information :
- Precision : Bagian data yang terambil yang relevan dengan informasi yang user inginkan
- Recall : Bagian dokumen yang relevan dalam kumpulan data yang terambil.

Dalam langkah-langkah untuk mengambil data yang ada dalam kumpulan data yang besar ini, harus dilakukan Inverted Index atau indeks terbalik,
Mengapa dikatakan indeks terbalik, karena dimulai dalam memberikan keywords dan mencari dokumen yang terdapat keywords.

Berikut adalah langkah-langkah dalam mengolah banyak document sehingga bisa di dapat keywords/term untuk masing-masing dokumen.

1. Banyak dokumen di indeks sehingga terbaca apa saja yang ada didalam dokumen tersebut.
Tokenizer :
- Memecah data dalam dokumen sehingga menjadi kata demi kata.

2. Token stream : setelah diproses (tokenizer) maka akan ada banyak kata yang didapat dalam sebuah dokumen.
 Linguistic module :
- memproses kata/keywords/term menjadi lebih spesifik seperti : merubah kata --> automate's, automatic, automation menjadi satu kata yaitu automate.

3. Modifikasi token : setelah diproses oleh linguistic module maka terms sudah di optimize.
 Indexer :
- kata yang sudah dimodifikasi/optimize di index dan dijadikan term/keywords

Dari informasi diatas, kita sudah dapat membayangkan bagaimana crawler atau robot dari search engine melakukan pengindeks-an halam web yang ada di WWW.

Selanjutnya, akan kita bahas tentang permasalahan dalam tokenize di artikel selanjutnya.

No comments:

Post a Comment