Thursday, March 15, 2007

Datamining.typepad.com

I found a very rich information blog that was created by Matthew Hurst, a Scientist at Microsoft's Live Labs. I like this blog because I can get many knowledge about Data Mining and Text mining. You can visit this blog at http://datamining.typepad.com/. Happy surfing!

19 comments:

barliant said...

Hallo pak Budi! Apa kabar? Senang sekali bisa ketemu pak Budi lagi lewat blog ini. Saya juga 'nyemplung' di Text Mining nih pak.. kita bisa diskusi ya?

Apa kabar di Duta Wacana?

please visit my blog at barliant.blogspot.com.

Budi Susanto said...

Hallo Pak Anung,

wah seneng juga dapat partner untuk diskusi tentang bidang ini. Saya sendiri masih belajar banyak koq pak. Mari kita belajar bersama...

Anonymous said...

Senang sekali bertemu dengna Pak Budi...Sebelumnya sy coba menebak apakah ini pak budi yang telah menerbitkan buku tentang data mining. Nah ternyata benar. Oy,
Saya hendrik
Sy sdng mengerjakan TA nih pak yg berhubungan dengan email. Pengklasifikasian email dgn multiclass SVM. Basicnya juga email mining gitu deh..
Saya baru aja berkutat selama 2 bulan. Mempelajari hal2 yg berhubungan dengan email mining. Kalau boleh saya bertanya pak? Apakah berpengaruh ketika kita parsing email menjadi bag of word tehdp kombinasi body dengan header atau terhadap body saja atau terhadap header saja?

Saya bingung neh pak ? setelah bow terbentuk langkah selanjutnya apakah menggunakan tf/idf atau bisa dengan IG saja ??

Terima kasih pak mohon tanggapannya

Budi Susanto said...

Halo mas hendrik,

pertama, saya mengucapkan terima kasih untuk komentarnya, Kedua, saya bukan yang menulis buku data mining :D. Banyak banget juga ya yang punya nama saya :D. Btw, saya ingin juga menulis tentang text mining. Beberapa buku saya yang sudah terbit, bisa ditinjau di http://budsus.wordpress.com.
Kemudian untuk email mining, menurut saya yang perlu diperhatikan adalah ketika pembuatan bag of word dilakukan, forman dokumen email harus betul-betul bersih dari berbagai "sampah", ini pekerjaan yang agak susah. Kemudian, yang berikutnya antara heeader dan body harus diberikan bobot yang berbeda, dimana header lebih tinggi dari body. Di blog ini saya sudah tuliskan apa yang pernah saya lakukan dengan email mining. Semoga membantu.

Anonymous said...

Pak budi terima kasih ya atas tanggapan yg pertama. Pak sy ingin bertanya tentang pemberian nilai bobot pada header dan body dgn tf/idf.Semua term2 yg ada sudah bisa sy pisahkan mana yg merupakan term2 yg berasal dari body ataupun header.Itulah yg menjadi BOW nya. Kemudian sy membentuk atribut dari semua term yg memiliki nilai INFORMATION GAIN yg tinggi (dlm hal ini sy memilih atribut2 yg memiliki kontribusi artinya memiliki kemunculan yg sering pd setiap document). Dalam hal ini mungkin saja kata2 yg di body lebh mendominasi atribut. Lalu saya menghitung nilai tf/idf terhadap atribut yg difilter berdasarkan nilai IG tersebut. Apakah konsep yg bapak terapkan tidak hanya sekedar mencari nilai tf*idf nya terhadap semua atribut tsb ? Bagaimana cara memberikan bobot yg berbeda terhadap atribut yg berasal dari header ataupun body ?
-----------------------

Itu aja beberapa pertanayaan dari sy. Saya harap pak budi bisa memberikan pencerahan .
Oy pak boleh minta almt email nya gak pak yg aktif?? Sy ingin lebih berdiskusi dengan bapak. Soalnya sy masih terkadang cenderung bingung dengan konsepnya.
thanks pak budi.

Budi Susanto said...

Untuk pembobotan yang berbeda antara subject dan body, dulu saya buat sederhana saja sich mas Hendrik. TF untuk subject saya kalikan dengan 100 misalnya. Setelah itu baru di hitung tf/idf nya.
Silahkan saja mas hendrik. Email saya ada di posting http://budsus.blogspot.com/2007/06/recaptcha.html.

thanks

Anonymous said...

Hallo pak Budi...
wkt lg browsing bhn2 tuk skripsi,saya sampe k sini...skripsi saya mengenai implementasi penggunaan pembobotan TF-IDF dalam Sistem Temu Balik Informasi (IR)..saya sebenarnya masih ragu apa keunggulan metode ini dibanding okapi..Apa ya pak?

Arifin said...

Dari hasil pembacaan blognya bapak saya yakin pak budi merupakan orang yang sangat berpengalaman dalam hal data mining terutama text mining. jadi saya merasa beruntung sekali bisa menemukan blognya bapak. semoga bapak bisa memberikan saya sedikit masukkan soal text mining. soalnya saya masih binggung apakah kasus nya saya apakah cocok digunakan algoritma bayesian atau ID3 atau algortima yang lain? jadi dalam hal ini saya sangat butuh masukkan dari bapak.

arifin said...

kasusnya seperti gini pak.
saya ingin membuat aplikasi yang bisa mengelompokkan sejumlah artikel yang saya peroleh di internet untuk dikelompokkan berdasarkan bidang ilmu studinya seperti kumpulan artikel untuk studi ekonomi, teknik, hukum dan bidang study lainnya.
yang menjadi pertanyaan adalah
1. apakah bayesian atau ID3 yang lebih cocok untuk diterapkan pada masalah diatas?
2. gimana logika kerjanya hingga diperoleh pengelompokkan artikel pada masing-masing bidang study?
3. apakah saya harus menyediakan terlebih dahulu kata kunci untuk setiap kelompok terlebih dahulu baru berikutnya dilakukan perbandingan pada sejumlah artikel yang ada?

terima kasih pak dan mohon bantuannya.

Budi Susanto said...

Untuk klasifikasi, yang sangat perlu diperhatikan adalah tentang kualitas dari dokumen-dokumen yang dijadikan sebagai pelatihannya. Jika dokumen pelatihan tersebut tidak baik, hasil klasifikasi dapat dipastikan juga tidak baik tingkat presisinya (walaupun juga dipengaruhi metodenya)

>1. apakah bayesian atau ID3 yang lebih cocok untuk diterapkan pada masalah diatas?

Bayes lebih banyak digunakan dan memberikan tingkat presisi yang masih cukup baik dibanding dengan ID3. Ada juga metode lain yang juga banyak digunakan yaitu KNN atau SVM (yang ini saya masih belum ngerti, masih proses belajar)

> 2. gimana logika kerjanya hingga diperoleh pengelompokkan artikel pada masing-masing bidang study?

Silahkan mengunjungi tulisan saya: http://budsus.wordpress.com/2007/08/06/studiem-program-penambah-email/

> 3. apakah saya harus menyediakan terlebih dahulu kata kunci untuk setiap kelompok terlebih dahulu baru berikutnya dilakukan perbandingan pada sejumlah artikel yang ada?

yang perlu disediakan dokumen pelatihan lalu diproses sebagaimana metodologi text mining.

Arifin said...

jika masalahnya adalah pada kualitas dokumennya, gimana jika kasusnya adalah kamus? saya kira kualitas dokumennya harusnya terjamin dan tertata. maksudnya saya dalam hal ini bisa juga kan jika saya terapkan pada aplikasi pengelompokan definisi di kamus digital jadi miningnya langsung pada arti pada kamus tersebut. mungkin lebih kurang contohnya seperti ini pak.
1. masukkan keyword -gembira-
2. mining kata-kata yang berhubungan dengan gembira didalam kamus digital seperti senang, tawa dll. (yang berhubungan dengan gembira)
3. pilih kata-kata dari kelompok gembira lalu untuk memperoleh definisinya.
bisa tidak pak? terima kasih

Arifin said...

Maaf pak kemarin ada yang salah dalam penyampaian. maksudnya saya adalah ingin mengklasifikasikan kata yang ada didalam kamus (bukan definisinya). contohnya keyword yang dimasukkan berupa "selamat" maka lakukan pengklasifikasian terhadap kata yang mengandung "selamat" sehingga menghasilkan beberapa kata seperti "selamat pagi", "selamat siang", "selamat malam" seperti gitu bisa tidak pak? mohon arahannya terima kasih.

Budi Susanto said...

Mungkin akan lebih baik jika mencoba membuat Thesaurus saja, karena penekannya di kata atau frase. Text Mining lebih melihat pola yang mungkin dapat dimunculkan dalam sekumpulan dokumen.

Arifin said...

Terima kasih pak atas masukkannya. saya akan mencoba cari referensi yang berhubungan dengan Thesaurus. jika ada masalah lagi saya masih bisa kan nanyain bapak lagi. terima kasih banyak ya pak.

Anonymous said...

Halo Pak Budi,
Saya bermaksud menginformasikan pada bloggers tentang buku terjemahan data mining berjudul "Pengantar Ilmu Penggalian Data Bisnis" karangan David Olson dan Yong Shi dari Universitas Nebraska – USA. Aslinya buku ini diterbitkan oleh Penerbit McGraw Hill tahun 2007 lalu. Deskripsi buku secara garis besar bisa dilihat disini http://www.spss.co.id/content/view/105/2/lang,en . Mudah-mudahan buku ini bisa menjadi salah satu alternatif sumber bacaan tentang data mining.

Semoga membantu..

Salam,
Dyah Suharno

Budi Susanto said...

Terima kasih untuk informasi bukunya. Saya akan coba cari di toko buku.

fifi fadli said...

hallo pak budi,eaktu sy lagi bingung dengan text mining dan algoritma tf-idf,sy searching dan ternya ta sy mendapatkan blog ini,saya ingin bertanya+berdiskusi pak,,sy mengambil judul penerapan algoritma tf-idf unruk text mining...yg ingin sy tanyakan pak(maaf klo banyak):

1. apakah dengan menggunakan text mining ini beda konsepnya pada sistem temu kembali informasi?(klo beda letak perbedaaanya dimana,klo sama dimananya juga pak,,mohon penejelasnnya)

2.implementasi apa yang cocok untuk judul saya menurut pendapat bapak jika dalam lingkup kampus agar bisa dijadikan studi kasus saja biar lingkup terlihat sempit ?

3. sy mencari buku yang membahas tentang text mining ini secara jelas tapi tidak mendapatkannya,,apakah dalam buku data minig,banyak pembahasan yamg mencakup text mining didalamnya?(klo bapak ada referensi buku tentang text mining,tolong informasinya pak)

4. tentang tf-idf,,apakah dalam text mining ini metode tf-idf lah yang sesuai,,apa bisa dikatakan hampir sama waktu/efesiensi dalam searchingnya,,bagaimana perbandingannya pada search engine(seperti google atao sejenisnya)?

5.saya bisa minta ym bapak,agar bisa bertanya-tanya pak?terima kasih banyak pak

rahmah suci said...

kita juga punya nih jurnal mengenai Data Mining , silahkan dikunjungi dan dibaca , berikut linknya

http://repository.gunadarma.ac.id/bitstream/123456789/486/1/Data%20Mining%20Discretization%20Methods%20and%20Performances.pdf
semoga bermanfaat yaa :)

Yanti said...

Assalamu Alaikum ak Budi...
Salamat Pagi Pak. maaf saya mau bertanya tentang data mining khususnya ttg SPK mutasi jabatan struktural. rencananya sya pake klasifikasi algoritma Fuzzy SVM multi klass tpi txta SVM biasa pun bisa menggunakan multi klass. bisa tolong bpak jelaskan perbedaan antara FSV dengn SVM untuk multi klassx? atau dmana bisa referensi sya bisa dapatkan untuk memperdalam ttg FSVM & SVM.
Terima kasih sebelumx