Intelegensia Semu | Tugas OFF CLASS/GSLC 31 Mei 2014

1. Text Classification?
2. Information Retrieval?
3.HITS Algorithm?
4.Prolog?

Text Classification

Klasifikasi teks, juga dikenal sebagai kategorisasi: diberi teks dari beberapa jenis, memutuskan mana dari satu set standar dari kelas itu milik. Identifikasi Bahasa dan klasifikasi genre adalah contoh dari klasifikasi teks, seperti analisis sentimen (mengklasifikasikan film atau produk review sebagai positif atau negatif) dan deteksi spam (mengelompokkan pesan email sebagai spam atau tidak-spam).

Klasifikasi berdasarkan kompresi data

Cara lain untuk berpikir tentang klasifikasi adalah sebagai masalah dalam kompresi data. Sebuah algoritma kompresi lossless mengambil urutan simbol, mendeteksi pola-pola berulang di dalamnya, dan menulis deskripsi dari urutan yang lebih kompak daripada yang asli.
Misalnya, teks “0,142857142857142857” mungkin dikompresi untuk Kompresi algoritma bekerja dengan membangun kamus subsequences teks, dan kemudian mengacu pada entri dalam kamus. Contoh di sini hanya satu entri kamus, “142.857.”
Akibatnya, algoritma kompresi menciptakan sebuah model bahasa. Algoritma LZW khususnya langsung model distribusi probabilitas maksimum entropi. Untuk melakukan klasifikasi dengan kompresi.

Information Retrieval

Pencarian informasi adalah tugas mencari dokumen yang relevan dengan kebutuhan pengguna untuk informasi. Contoh yang paling terkenal dari sistem temu kembali informasi adalah mesin pencari di World Wide Web. Seorang pengguna Web dapat mengetik query seperti [AI ke mesin pencari dan melihat daftar halaman yang relevan. Pada bagian ini, kita akan melihat bagaimana sistem tersebut dibangun. Sebuah pencarian informasi (selanjutnya IR) sistem dapat dicirikan oleh:
Sebuah korpus dokumen. Setiap sistem harus memutuskan apa yang ingin memperlakukan sebagai dokumen: sebuah paragraf, halaman, atau teks multipage.
Pertanyaan yang diajukan dalam bahasa query. Sebuah query menentukan apa yang pengguna ingin tahu. Bahasa query dapat hanya daftar kata, seperti [buku AI]; atau dapat menentukan kalimat dari kata-kata yang harus berdekatan.
Sebuah hasil set. Ini subset dari dokumen yang hakim sistem IR untuk menjadi relevan dengan query. Oleh relevan, kita berarti mungkin berguna bagi orang yang berpose query, untuk informasi tertentu perlu dinyatakan dalam query.
Presentasi dari hasil set. Ini dapat yang sederhana seperti daftar peringkat judul dokumen atau serumit warna peta berputar dari hasil set diproyeksikan ke ruang tiga-dimensi, diberikan sebagai tampilan dua dimensi.

Characteristic of IR

1. Sebuah kumpulan tulisan (document).? Sistem harus menentukan mana yang ingin dianggap sebagai dokumen (kertas). Contoh: sebuah paragraf, halaman, dll

2. Query pengguna
Query adalah formula yang digunakan untuk mencari informasi yang dibutuhkan oleh pengguna.? Dalam bentuk yang paling sederhana, sebuah query adalah kata kunci dan dokumen yang mengandung kata kunci adalah dokumen yang dicari
Contoh: [AI book]; [“Buku Al”]; [AI AND book];
[AI buku NEAR] [AI situs buku: www.aaai.org

3. Set Hasil
Hasil dari query. Sebuah bagian dari dokumen yang relevan dengan query.
4. Tampilan hasil set
Bisa daftar hasil di peringkat dokumen judul

HITS Algorithm

Hyperlink-Induced Topic Search (HITS, juga dikenal sebagai hub dan otoritas) adalah algoritma analisis link yang tarif halaman Web, yang dikembangkan oleh Jon Kleinberg. Itu adalah pendahulu untuk PageRank. Ide di balik Hub dan Otoritas berasal dari wawasan tertentu ke dalam penciptaan halaman web ketika Internet awalnya membentuk; yaitu, halaman web tertentu, yang dikenal sebagai hub, menjabat sebagai direktori besar yang tidak benar-benar berwibawa dalam informasi yang diadakan, tetapi digunakan sebagai kompilasi dari katalog yang luas dari informasi yang menyebabkan pengguna langsung ke halaman otoritatif lainnya. Dengan kata lain, sebuah hub baik mewakili halaman yang menunjuk ke halaman lain, dan otoritas yang baik mewakili halaman yang dihubungkan oleh banyak hub berbeda.

Oleh karena itu, skema menugaskan dua nilai untuk setiap halaman: kewenangannya, yang memperkirakan nilai dari isi halaman, dan nilai hub, yang memperkirakan nilai link ke halaman lain.

Dalam jurnal
Sebelumnya, banyak metode yang digunakan untuk peringkat pentingnya jurnal ilmiah. Salah satu metode tersebut adalah faktor dampak Garfield. Namun, banyak jurnal seperti Science dan Nature dipenuhi dengan berbagai kutipan, membuat majalah ini memiliki faktor dampak yang sangat tinggi. Dengan demikian, ketika membandingkan dua jurnal yang lebih jelas yang telah menerima kira-kira jumlah yang sama kutipan tapi salah satu jurnal ini telah menerima banyak kutipan dari Science dan Nature, jurnal ini perlu berada di peringkat lebih tinggi. Dengan kata lain, lebih baik untuk menerima kutipan dari jurnal penting daripada dari satu yang tidak penting.

Di Web
Fenomena ini juga terjadi di Internet. Menghitung jumlah link ke halaman dapat memberikan kita perkiraan umum menonjol di Web, namun halaman dengan sangat sedikit link masuk mungkin juga menonjol, jika dua link ini berasal dari halaman rumah Yahoo! atau Google atau MSN. Dengan demikian, karena situs tersebut adalah penting sangat tinggi tetapi juga Search Engine, bisa ada hasil yang sangat tidak relevan. The Social Network Twitter menggunakan algoritma HITS gaya untuk menyarankan account pengguna untuk mengikuti.

Algoritma
Dalam algoritma HITS, langkah pertama adalah untuk mengambil halaman yang paling relevan dengan permintaan pencarian. Set ini disebut set akar dan dapat diperoleh dengan mengambil halaman n top dikembalikan oleh algoritma pencarian berbasis teks. Satu set dasar yang dihasilkan dengan menambah set akar dengan semua halaman web yang terhubung dari itu dan beberapa halaman yang link ke sana. Halaman-halaman web di set dasar dan semua hyperlink di antara halaman tersebut membentuk subgraf terfokus. The HITS perhitungan dilakukan hanya pada subgraf terfokus ini. Menurut Kleinberg alasan untuk membangun satu set dasar adalah untuk memastikan bahwa sebagian besar (atau banyak) dari otoritas terkuat disertakan.

Nilai otoritas dan hub didefinisikan dalam hal satu sama lain dalam rekursi bersama. Nilai otoritas dihitung sebagai jumlah dari nilai-nilai hub skala yang mengarah ke halaman tersebut. Nilai hub adalah jumlah dari nilai-nilai otoritas skala dari halaman ini menunjuk ke. Beberapa implementasi juga mempertimbangkan relevansi dari halaman yang terhubung.

Algoritma ini melakukan serangkaian iterasi, masing-masing terdiri dari dua langkah dasar:

Pembaruan Authority: Perbarui skor Authority setiap node untuk menjadi sama dengan jumlah dari Hub Skor dari setiap node yang menunjuk ke itu. Artinya, node diberi skor otoritas tinggi dengan menjadi terhubung ke halaman yang dikenali sebagai hub untuk informasi.
Hub Update: Perbarui setiap node Hub Skor menjadi sama dengan jumlah dari Otoritas Skor dari setiap node yang menunjuk ke. Artinya, node diberi skor tinggi hub dengan menghubungkan ke node yang dianggap otoritas pada subjek.
The Hub skor dan skor Authority untuk node dihitung dengan algoritma berikut:

Mulailah dengan setiap node memiliki skor hub dan skor kewenangan 1.
Jalankan Aturan Authority Pembaruan
Jalankan Aturan Hub Pembaruan
Menormalkan nilai-nilai dengan membagi masing-masing nilai Hub dengan akar kuadrat dari jumlah kuadrat dari semua nilai Hub, dan membagi setiap skor Authority dengan akar kuadrat dari jumlah kuadrat dari semua nilai Authority.
Ulangi dari langkah kedua yang diperlukan.
HITS, seperti Page dan Brin PageRank, merupakan algoritma iteratif didasarkan pada keterkaitan dokumen di web. Namun itu memang memiliki beberapa perbedaan utama:

Ini adalah permintaan tergantung, yaitu, (Hub dan Authority) skor yang dihasilkan dari analisis link dipengaruhi oleh istilah pencarian;
Sebagai sebuah konsekuensi, dieksekusi pada saat permintaan, bukan pada saat pengindeksan, dengan hit terkait kinerja yang menyertai pemrosesan query-waktu.
Hal ini tidak umum digunakan oleh mesin pencari. (Meskipun algoritma serupa dikatakan digunakan oleh Teoma, yang diakuisisi oleh Ask Jeeves / Ask.com.)
Ini menghitung dua nilai per dokumen, hub dan otoritas, sebagai lawan dari skor tunggal;
Hal ini diproses pada subset kecil dari dokumen ‘relevan’ (a ‘subgraph fokus’ atau dasar set), tidak semua dokumen seperti yang terjadi dengan PageRank.

Secara terperinci
Untuk memulai peringkat, \ forall p, \ mathrm {} auth (p) = 1 dan \ mathrm {} hub (p) = 1 Kami mempertimbangkan dua jenis update:. Authority Rule Update dan Hub pembaruan Rule. Dalam rangka untuk menghitung skor hub / kewenangan masing-masing node, iterasi berulang Peraturan pembaruan Otoritas dan Update Rule Hub diterapkan. Sebuah aplikasi k-langkah dari algoritma Hub-Otoritas memerlukan melamar k kali pertama Rule pembaruan Authority dan kemudian Update Rule Hub.

Otoritas pembaruan Rule
\ Forall p, kami memperbarui \ mathrm {} auth (p) menjadi penjumlahan:

\ Mathrm {} auth (p) = \ displaystyle \ sum_ {i = 1} ^ n \ mathrm {} hub (i)

di mana n adalah jumlah total halaman yang terhubung ke p dan i adalah halaman yang terhubung ke p. Artinya, skor Kewenangan halaman adalah jumlah dari semua nilai Hub halaman yang mengarah ke sana.

Hub Peraturan Pembaruan
\ Forall p, kami memperbarui \ mathrm {} hub (p) menjadi penjumlahan:

\ Mathrm {} hub (p) = \ displaystyle \ sum_ {i = 1} ^ n \ mathrm {} auth (i)

di mana n adalah jumlah total halaman p terhubung ke dan saya adalah halaman yang menghubungkan ke p. Jadi Hub skor halaman adalah jumlah dari nilai Kewenangan semua halaman yang menghubungkan

Normalisasi
Skor hub-otoritas final node ditentukan setelah pengulangan tak terbatas algoritma. Sebagai langsung dan iteratif menerapkan pembaruan Peraturan Hub dan Otoritas pembaruan Rule menyebabkan divergen nilai-nilai, perlu untuk menormalkan [disambiguasi diperlukan] matriks setelah setiap iterasi. Dengan demikian nilai-nilai yang diperoleh dari proses ini akhirnya akan bertemu. [4]

Pseudocode
1 G: = set halaman
2 untuk setiap halaman p di G do
3 p.auth = 1 / / p.auth adalah skor otoritas halaman p
4 p.hub = 1 / / p.hub adalah skor hub halaman p
5 HubsAndAuthorities function (G)
6 untuk langkah 1 sampai k do / / menjalankan algoritma untuk k langkah
7 norma = 0
8 untuk setiap halaman p di G jangan / / memperbarui semua nilai otoritas pertama
9 p.auth = 0
10 untuk setiap q halaman di p.incomingNeighbors melakukan / / p.incomingNeighbors adalah set halaman yang memiliki pranala ke p
11 p.auth + = q.hub
12 norma + = persegi (p.auth) / / menghitung jumlah nilai auth squared untuk menormalkan
13 norma = sqrt (norma)
14 untuk setiap halaman p di G jangan / / memperbarui nilai auth
15 p.auth = p.auth / norma / / menormalkan nilai auth
16 norma = 0
17 untuk setiap halaman p di G jangan / / kemudian memperbarui semua nilai hub
18 p.hub = 0
19 untuk setiap r di halaman p.outgoingNeighbors melakukan / / p.outgoingNeighbors adalah set halaman yang link ke p
20 p.hub + = r.auth
21 norma + = persegi (p.hub) / / menghitung jumlah nilai hub kuadrat untuk menormalkan
22 norma = sqrt (norma)
23 untuk setiap halaman p di G jangan / / kemudian memperbarui semua nilai hub
24 p.hub = p.hub / norma / / menormalkan nilai hub
Hub dan otoritas nilai berkumpul dalam pseudocode di atas.

Kode di bawah tidak bertemu, karena itu perlu untuk membatasi jumlah langkah yang algoritma berjalan untuk. Salah satu cara untuk berkeliling ini, bagaimanapun, akan menormalkan nilai hub dan otoritas setelah setiap “langkah” dengan membagi setiap nilai wewenang oleh akar kuadrat dari jumlah kuadrat dari semua nilai otoritas, dan membagi setiap nilai hub oleh akar kuadrat dari jumlah kuadrat dari semua nilai hub. Inilah yang pseudocode di atas tidak.

Pseudocode Non-konvergen
1 G: = set halaman
2 untuk setiap halaman p di G do
3 p.auth = 1 / / p.auth adalah skor otoritas halaman p
4 p.hub = 1 / / p.hub adalah skor hub halaman p
5 HubsAndAuthorities function (G)
6 untuk langkah 1 sampai k do / / menjalankan algoritma untuk k langkah
7 untuk setiap halaman p di G jangan / / memperbarui semua nilai otoritas pertama
8 p.auth = 0
9 untuk setiap q halaman di p.incomingNeighbors melakukan / / p.incomingNeighbors adalah set halaman yang memiliki pranala ke p
10 p.auth + = q.hub
11 untuk setiap halaman p di G jangan / / kemudian memperbarui semua nilai hub
12 p.hub = 0
13 untuk setiap r di halaman p.outgoingNeighbors melakukan / / p.outgoingNeighbors adalah set halaman yang link ke p
14 p.hub + = r.auth

Prolog

Prolog adalah bahasa didasarkan pada urutan pertama logika predikat. (Akan merevisi / memperkenalkan kemudian ini).
Kita dapat menyatakan beberapa fakta dan beberapa aturan, kemudian mengajukan pertanyaan untuk mencari tahu apa yang benar.
Fakta:

suka (john, mary).
tinggi (john).
tinggi (sue).
pendek (fred).
mengajarkan (alison, Artificial Intelligence).

Catatan: huruf kecil, berhenti penuh pada akhir.

Aturan:

suka (fred, X): – tinggi (X).
Memeriksa (Person, Course): – mengajar (Person, Course).

John menyukai seseorang jika orang itu adalah tinggi.
Seseorang memeriksa saja jika mereka mengajar kursus itu.
CATATAN: “: -” digunakan untuk berarti IF. Dimaksudkan untuk terlihat sedikit seperti panah mundur
CATATAN: Penggunaan modal (atau kata-kata yang dimulai dengan huruf kapital) untuk variabel.

Prolog dapat kembali lebih dari satu jawaban untuk sebuah pertanyaan.
Ia memiliki built in metode pencarian untuk pergi melalui semua aturan dan fakta yang mungkin untuk mendapatkan semua jawaban yang mungkin.
Metode pencarian “kedalaman pencarian pertama” dengan “kemunduran”.

 

Backlink : http://binusmaya.binus.ac.id/

Backlink : www.binus.ac.id

 

Leave a Reply

Your email address will not be published. Required fields are marked *