Archive

Posts Tagged ‘term’

Information retrieval it telkom: Mengumpulkan hasil Twitter dan hasil Web

April 29, 2011 9 comments

Berikut merupakan hasil analisis yang dilakukan oleh Jaime teevan, Daniel Ramage, Meredith Ringel Morris dalam paper “a comparison of microblog search and web search” tentang bagaimana mereka mengumpulkan hasil twitter dan hasil web berkaitan dengan information retrieval :

Untuk memperkirakan content Twitter untuk query-query yang ada di dalam sampel yang saat itu dikeluarkan, dilakukan crawl terhadap delapan juta posting yang disediakan oleh aliran spritzer Twitter selama satu minggu. Aliran spritzer adalah aliran umum yang berisi pesan sampel dari semua posting Twitter publik. Susunannya adalah ditentukan oleh Twitter. Dari sini kita mencoba tweets yang berisi 50 pencarian common queries yang paling populer untuk analisa lebih lanjut. Jumlah potensi hasil per query berkisar antara ratusan hingga puluhan ribu.

Hasil pencarian Twitter berbeda dengan hasil pencarian web di seluruh isi dari setiap hasil yang disajikan kepada pengguna dalam daftar hasil. Sebaliknya, hasil pencarian web biasanya disajikan sebagai daftar hyperlink, masing-masing dengan potongan algoritma yang diekstraksi dari teks yang dirancang untuk membantu pencari dalam memilih hyperlink yang akan dikunjungi (meskipun dalam beberapa kasus potongan dapat sepenuhnya memenuhi kebutuhan informasi pengguna). Untuk merepresentasikan hasil pencarian web, dilakukan ekstraksi terhadap judul teks dan ringkasan dari semua hasil yang disajikan oleh Bing dari query log kepunyaan mesin pencari untuk query yang sama dari periode waktu yang sama. Sementara, tweets secara kualitatif berbeda dari potongan Web, keduanya berasal dari bentuk dasar tekstual yang oleh pencari disajikan melalui hasil sistem pencarian yang dianggap relevan, dan menjamin persamaan.

Term-term yang sangat umum dan sangat langka disaring dari setiap set hasil query-spesifik, seperti praktek standar untuk jenis analisis yang dilakukan. Secara khusus, dilakukan penyaringan terhadap 20 term yang paling umum dan muncul kurang dari tiga hasil. Setelah penyaringan, 42 dari 50 hasil set query awal setidaknya memiliki 100 hasil not-empty dari Twitter dan Web, untuk mencari perbedaan di Twitter dan hasil pencarian Web untuk query-query tersebut dibutuhkan eksplorasi lebih lanjut.

salam,

mahasiswa kelas Information Retrieval ITTelkom, 2011

on Information retrieval it telkom: Mengumpulkan hasil Twitter dan hasil Web