Tugas OFCLASS/GSLC 31 Mei 2014

Buat Rangkuman untuk Pertemuan 22 Natural Language Processing mengenai :

1. Text Classification?
2. Information Retrieval?
3.HITS Algorithm?
4.Prolog?

1. Text Classification
Text Classification yaitu proses pengelompokan dokumen, yang dalam tugas akhir ini adalah konten web page, ke dalam beberapa kelas yang telah ditentukan.. Text Classification bertujuan untuk menemukan model dalam mengkategorisasikan teks natural language. Model tersebut akan digunakan untuk menentukan kelas dari suatu dokumen.
Beberapa metode text categorization yang sering dipakai antara lain : k- Nearest Neighbor, Naïve Bayes, Support Vektor Machine, Decision Tree, Neural Networks, Boosting. Dalam pengaplikasian text Classsification terdapat 3 tahap, yaitu : preprocessing, training phase dan testing phase.
1. Preprocessing
Tahap pertama adalah dokumen preprocessing adalah :
– Ekstrasi Term
Ekstrasi term dilakukan untuk menentukan kumpulan term yang mendeskripsikan dokumen. Kumpulan dokumen di parsing untuk menghasilkan daftar term yang ada pada seluruh dokumen.

– Seleksi Term
Jumlah term yang dihasilkan pada feature ekstrasi dapat menjadi suatu data yang berdimensi cukup besar. Untuk itu perlu dilakukan feature selection untuk mengurangi jumlah dimensi.

– Representasi Dokumen
Supaya teks natural language dapat digunakan sebagai inputan untuk metode klasifikasi maka teks natural language diubah kedalam representasi vektor.

2. Training Phase
Tahap kedua adalah training. Pada tahap ini system akan membangun model yang berfungsi untuk menentukan kelas dari dokumen yang belum diketahui kelasnya.

3. Testing Phase
Tahap terakhir adalah tahap pengujian yang akan memberikan kelas pada data testing dengan menggunakan model yang telah dibangun pada tahap training. Tujuan dilakukan testing adalah untuk mengetahui performansi dari model yang telah dibentuk.

2. Information Retrieval
Information Retrieval (IR) adalah pekerjaan untuk menemukan dokumen yang relevan dengan kebutuhan informasi yang dibutuhkan oleh user. Yang paling populer adalah search engine pada World Wide Web. Karakteristik dari sebuah sistem Information Retrieval diantaranya adalah:
• A corpus of documents. Setiap sistem harus memutuskan dokumen yang ada akan diperlakukan sebagai apa. Bisa sebagai sebuah paragraf, halaman, atau teks multipage.
• Queries posed in a query language. Sebuah query menjelaskan tentang apa yang user ingin peroleh.
• A result set. Ini adalah bagian dari dokumen yang dinilai oleh sistem sebagai yang relevan dengan query.
• A presentation of the result set. Maksud dari bagian ini adalah tampilan list judul dokumen yang sudah di ranking.

Proses yang terjadi di dalam Information Retrieval System terdiri dari 2 bagian utama, yaitu Indexing subsystem, dan Searching subsystem (matching system). Proses indexing dilakukan untuk membentuk basisdata terhadap koleksi dokumen yang dimasukkan, atau dengan kata lain, indexing merupakan proses persiapan yang dilakukan terhadap dokumen sehingga dokumen siap untuk diproses. Proses indexing sendiri meliputi 2 proses, yaitu document indexing dan term indexing. Dari term indexing akan dihasilkan koleksi kata yang akan digunakan untuk meningkatkan performansi pencarian pada tahap selanjutnya.
Tahap-tahap yang terjadi pada proses indexing ialah:
1. Word Token,yaitu mengubah dokumen menjadi kumpulan term dengan cara menghapus semua karakter dalam tanda baca yang terdapat pada .
2. Stopword Removal. Proses penghapusan kata-kata yang sering ditampilkan dalam dokumen.
3. Stemming. Proses mengubah suatu kata bentukan menjadi kata dasar.
4. Term Weighting. Proses pembobotan setiap term di dalam dokumen.

Model IR ada tiga jenis, yaitu :
• Model Boolean : merupakan model IR sederhana yang berdasarkan atas teori himpunan dan aljabar boolean
• Model Vector Space : merupakan model IR yang merepresentasikan dokumen dan query dalam bentuk vektor dimensional
• Model Probabilistic : merupakan model IR yang menggunakan framework probabilistic

3. HITS Algorithm
Algoritma Hyperlink Induced Topic Search (HITS) adalah memberikan gagasan baru tentang hubungan antara hubs dan authorities.
Dalam algoritma HITS , langkah pertama adalah untuk mengambil halaman yang paling relevan dengan permintaan pencarian . Set ini disebut set akar dan dapat diperoleh dengan mengambil halaman atas untuk dikembalikan oleh algoritma pencarian berbasis teks . Satu set dasar yang dihasilkan dengan menambah set akar dengan semua halaman web yang terhubung dari itu dan beberapa halaman yang link ke sana. Halaman-halaman web di set dasar dan semua hyperlink.
Nilai otoritas dan hub didefinisikan dalam hal satu sama lain dalam rekursi bersama. Nilai otoritas dihitung sebagai jumlah dari nilai-nilai hub skala yang mengarah ke halaman tersebut. Nilai hub adalah jumlah dari nilai-nilai otoritas skala dari halaman ini menunjuk ke . Beberapa implementasi juga mempertimbangkan relevansi dari halaman yang terhubung .

Algoritma ini melakukan serangkaian iterasi , masing-masing terdiri dari dua langkah dasar :

– Pembaruan Authority : Perbarui skor Authority setiap node untuk menjadi sama dengan jumlah dari Hub Skor dari setiap node yang menunjuk ke itu . Artinya , node diberi skor otoritas tinggi dengan menjadi terhubung ke halaman yang dikenali sebagai hub untuk informasi.
– Hub Update: Perbarui setiap node Hub Skor menjadi sama dengan jumlah dari Otoritas Skor dari setiap node yang menunjuk ke . Artinya , node diberi skor tinggi hub dengan menghubungkan ke node yang dianggap otoritas pada subjek . Sebagai sebuah konsekuensi , dieksekusi pada saat permintaan , bukan pada saat pengindeksan , dengan hit terkait kinerja yang menyertai pemrosesan query – waktu .

4. Prolog
Prolog singkatan dari Programming in Logic. Dikembangkan oleh Alain Colmenraurer dan P.Roussel di Universitas Marseilles Perancis, tahun1972. Prolog populer di Eropa untuk aplikasi artificial intelligence.

Perbedaan Prolog dengan Bahasa Lain :
– Bahasa Pemrograman yang Umum (Basic, Pascal, C, Fortran): diperlukan algoritma/prosedur untuk memecahkan masalah (procedural languange). program menjalankan prosedur yang sama berulang-ulang dengan data masukan yang berbeda-beda. Prosedur dan pengendalian program ditentukan oleh programmer dan perhitungan dilakukan sesuai dengan prosedur yang telah dibuat.
– Bahasa Pemrograman Prolog : Object oriented languange atau declarative languange. Tidak terdapat prosedur, tetapi hanya kumpulan data-data objek (fakta) yang akan diolah, dan relasi antar objek tersebut membentuk aturan yang diperlukan untuk mencari suatu jawaban. Programmer menentukan tujuan (goal), dan komputer menentukan bagaimana cara mencapai tujuan tersebut serta mencari jawabannya.

Aplikasi Prolog :
– Sistem Pakar (Expert System)
Program menggunakan teknik pengambilan kesimpulan dari data-data yang didapat, layaknya seorang ahli. Contoh dalam mendiagnosa penyakit
– Pengolahan Bahasa Alami (Natural Languange Processing)
Program dibuat agar pemakai dapat berkomunikasi dengan komputer dalam bahasa manusia sehari-hari, layaknya penterjemah.
– Robotik
Prolog digunakan untuk mengolah data masukanyang berasal dari sensor dan mengambil keputusan untuk menentukan gerakan yang harus dilakukan.
– Pengenalan Pola (Pattern Recognition)
Banyak digunakan dalam image processing, dimana komputer dapat membedakan suatu objek dengan objek yang lain.
– Belajar (Learning)
Program belajar dari kesalahan yang pernah dilakukan, dari pengamataqn atau dari hal-hal yang pernah diminta untuk dilakukan.

Leave a Reply

Your email address will not be published. Required fields are marked *