Share Everything

Tuesday, November 26, 2019

Twitter Text Mining


Text Mining adalah proses ekstraksi data dari suatu sumber data. Hal ini bertujuan untuk mendapatkan suatu pengetahuan yang baru mengenai topik yang kita pilih.

Pada kesempatan ini saya melakukan text mining dengan query Cybertruck di Twitter, karena Beberapa hari yang lalu Elon Musk sebagai CEO Tesla menunjukkan produk mobil terbarunya, yaitu Cybertruck yang merupakan Truk Pickup Elektrik.

Langkah-langkah :


Pastikan anda sudah mempunyai Twitter API. Dalam melakukan text mining, saya memanfaatkan tools Orange, dan Twitter sebagai sumber data.
Sebelum melakukan text mining, pastikan Orange telah mempunyai add-ons Text, seperti gambar dibawah.
Gambar 1 : Add-Ons
Setelah itu tinggal masukkan widget dengan proses seperti gambar dibawah.
Gambar 2 : Workflow Orange
Lalu saya melakukan pencarian menggunakan widget Twitter dengan query Cybertruck, dan mengambil sebanyak 500 Tweets.
Gambar 3 : Twitter Widget
Lalu selanjutnya saya memasukkan stopwords yang sudah dibuat menggunakan notepad pada widget Preprocess Text. contoh isi stopwords saya dapat dari website ranks.nl

Berikutnya buka widget wordcloud, dan jika masih terdapat kata-kata yang tidak berhubungan dengan topik, masukkan kata tersebut kedalam stopwords dan buka ulang wordcloud.
Gambar 4 : Jumlah Kata yang ada di Word Cloud
Gambar 5: Word Cloud
Pada wordcloud terlihat kata "cybertruck" memiliki intensitas paling tinggi dengan jumlah kata sebanyak 510, kemunculan ini paling banyak karena Cybertruck merupakan produk baru yang inovatif dan viral karena bentuknya yang dinilai tidak biasa. Kemudian "tesla" sebanyak 270, sebagai perusahaan yang membuat cybertruck. "elonmusk" sebanyak 144, sebagai CEO dari Tesla. dan diikuti dengan kata lainnya. 

Muhammad Rizky Barokah | 1401171253 | MB-41-04
Share:

Instagram Ego Network



Ego Network adalah bagian dari Social Network yang terdiri dari semua hubungan ego (aktor utama) dengan alter (orang lain), dan hubungan diantara alter ini. (Wasserman and Faust 1994, p. 42).
Pembuatan Instagram Ego Network ini saya lakukan menggunakan bantuan dari tools dibawah :
  1. Phantom Buster
  2. Microsoft Excel
  3. Gephi

Langkah-langkah :

Phantom buster menyediakan berbagai macam API, salah satunya Instagram. Disini saya memakai fitur Instagram follower collector untuk mengambil profil yang mengikuti saya. Dan Instagram following collector untuk mengambil profil mana saja yang saya ikuti.

Gambar 1 : Profil Instagram
Setelah mendapatkan data followers sebanyak 188 profil, dan following sebanyak 467 profil. Kemudian saya menyatukan kolom username, fullname, dan profileUrl kedalam satu sheet di Microsoft excel. Selanjutnya saya meng-highlight kolom yang duplikat, kolom duplikat yang telah ditemukan kemudian disortir berdasarkan warnanya. Baris data yang memiliki warna adalah akun mutual (saling follow) dari Instagram saya, baris data yang tidak berwarna dapat dihapus. Dan saya mendapatkan sebanyak 141 mutual.

Gambar 2 : Mutual Instagram
Kemudian kolom Username dan Fullname, disatukan kedalam satu sheet excel, dan diganti menjadi ID dan Label. Lalu save as sebagai CSV (Comma Delimited). File ini dapat digunakan sebagai Nodes untuk visualisasi data di Gephi.
Gambar 3 : Nodes
Kolom profileURL dapat dipindahkan ke Google Spreadsheet, seperti gambar dibawah. Google Spreadsheet digunakan untuk mempermudah pengambilan data di Phantom Buster.

Gambar 4 : Google Spreadsheet
Saya membatasi pengambilan data sebanyak 500 followers dan following per profil mutual dari akun Instagram saya. Dalam pengambilan data ini dibatasi sebanyak kurang lebih 7000 data per 15 menit. Karena itu saya atur 14 profil per launch secara repeatedly.
Gambar 5 : Setting Phantom Buster



Setelah menunggu kurang lebih 6 jam pengambilan data, saya mendapatkan 55.121 baris data follower, dan 57.510 baris data following. Setelah itu dilakukan kembali penyortiran duplikat terhadap kolom Username dan Query seperti cara diatas. Kemudian data tersebut disatukan dan diganti menjadi Source dan Target untuk menjadi Edges visualisasi gephi. Dan saya mendapatkan total 74.530 baris data untuk edges.
Gambar 6 : Edges
Kemudian CSV Nodes dan Edges yang telah dibuat di-import kedalam aplikasi Gephi. Disini saya menggunakan layout Force Atlas 2, kemudian mengatur filter degree range minimal 10, agar nodes yang terlihat hanyalah nodes yang mempunyai minimal 10 edges. Setelah difilter tersisa 677 nodes, dan 12.837 edges.

Gambar 7 : Visualisasi di Gephi
Visualisasi :

Setelah dilakukan rendering, terlihat beberapa cluster seperti yang telah saya lingkari.
Gambar 8 : Hasil Visualisasi

Gambar 9 : Beetwennes Tinggi
Dibagian ini Faris dan Nabila memiliki beetwenness yang tinggi, karena Faris merupakan teman SMP, SMA dan juga merupakan teman satu jurusan di kampus. Sedangkan Nabila adalah teman SMA dan teman satu kelas saya di kampus. Jadi mereka berdualah yang memiliki paling banyak relasi diantara teman saya.
Gambar 10 : Cluster SMA IPS
Dibagian ini merupakan teman SMA IPS saya, dan yang saya lingkari merupakan teman SMP saya yang berada di SMA IPS sama seperti saya.

Sumber : 

 Muhammad Rizky Barokah | 1401171253 | MB-41-04

Share: