Archive

Posts Tagged ‘web’

Information retrieval it telkom: Mengumpulkan hasil Twitter dan hasil Web

April 29, 2011 9 comments

Berikut merupakan hasil analisis yang dilakukan oleh Jaime teevan, Daniel Ramage, Meredith Ringel Morris dalam paper “a comparison of microblog search and web search” tentang bagaimana mereka mengumpulkan hasil twitter dan hasil web berkaitan dengan information retrieval :

Untuk memperkirakan content Twitter untuk query-query yang ada di dalam sampel yang saat itu dikeluarkan, dilakukan crawl terhadap delapan juta posting yang disediakan oleh aliran spritzer Twitter selama satu minggu. Aliran spritzer adalah aliran umum yang berisi pesan sampel dari semua posting Twitter publik. Susunannya adalah ditentukan oleh Twitter. Dari sini kita mencoba tweets yang berisi 50 pencarian common queries yang paling populer untuk analisa lebih lanjut. Jumlah potensi hasil per query berkisar antara ratusan hingga puluhan ribu.

Hasil pencarian Twitter berbeda dengan hasil pencarian web di seluruh isi dari setiap hasil yang disajikan kepada pengguna dalam daftar hasil. Sebaliknya, hasil pencarian web biasanya disajikan sebagai daftar hyperlink, masing-masing dengan potongan algoritma yang diekstraksi dari teks yang dirancang untuk membantu pencari dalam memilih hyperlink yang akan dikunjungi (meskipun dalam beberapa kasus potongan dapat sepenuhnya memenuhi kebutuhan informasi pengguna). Untuk merepresentasikan hasil pencarian web, dilakukan ekstraksi terhadap judul teks dan ringkasan dari semua hasil yang disajikan oleh Bing dari query log kepunyaan mesin pencari untuk query yang sama dari periode waktu yang sama. Sementara, tweets secara kualitatif berbeda dari potongan Web, keduanya berasal dari bentuk dasar tekstual yang oleh pencari disajikan melalui hasil sistem pencarian yang dianggap relevan, dan menjamin persamaan.

Term-term yang sangat umum dan sangat langka disaring dari setiap set hasil query-spesifik, seperti praktek standar untuk jenis analisis yang dilakukan. Secara khusus, dilakukan penyaringan terhadap 20 term yang paling umum dan muncul kurang dari tiga hasil. Setelah penyaringan, 42 dari 50 hasil set query awal setidaknya memiliki 100 hasil not-empty dari Twitter dan Web, untuk mencari perbedaan di Twitter dan hasil pencarian Web untuk query-query tersebut dibutuhkan eksplorasi lebih lanjut.

salam,

mahasiswa kelas Information Retrieval ITTelkom, 2011

on Information retrieval it telkom: Mengumpulkan hasil Twitter dan hasil Web

Advertisements

Information retrieval IT Telkom: Perbedaan Bahasa dalam Hasil Pencarian

April 29, 2011 3 comments

Berikut merupakan hasil analisis yang dilakukan oleh Jaime teevan, Daniel Ramage, Meredith Ringel Morris dalam paper “a comparison of microblog search and web search” tentang sub bab perbandingan antara bahasa hasil pencarian antara twitter search dan web search berkaitan dengan information retrieval :

Perbedaan paling dekat antara Twitter dan set hasil Web terletak pada jumlah informasi yang tersedia yang mengikuti sebuah query. Jumlah rata-rata per-query dari kata-kata dalam hasil Twitter adalah 19,55, sedangkan hasil potongan Web adalah 33,95. Panjang tweets yang relatif pendek mencerminkan perilaku postingan Twitter di hadapan sistem yang mempunyai batas 140 karakter. Sebaliknya, panjang potongan Web yang relatif lebih panjang mencerminkan tujuan dari mesin pencari untuk mendukung kebutuhan penggunanya dalam pencarian Web. Karena potongan Web dihubungkan dengan halaman web, lebih banyak konten dapat ditemukan dengan mengikuti (follow) link yang ada. Hasil Twitter, sebaliknya, menyediakan teks lengkap dari pencocokan tweets dan biasanya dibaca secara keseluruhan dalam daftar hasil.

Karena set hasil Web dan Twitter dikumpulkan untuk query yang sama, diharapkan mereka akan berisi konten dasar yang sama. Dan, memang, banyak term umum yang disahre, misalnya, baik tweets maupun potongan Web untuk term penyanyi Lady Gaga cenderung berisi term musik (8% dari tweets, 27% dari potongan Web). Tapi dengan analisis kuantitatif yang lebih luas, dapat diamatibahwa real-time dan dinamika sosial Twitter tidak menghasilkan pola bahasa yang cukup berbeda dari yang ada di potongan pencarian Web.

ttd.

Information retrieval IT Telkom: Perbedaan Bahasa dalam Hasil Pencarian