Ingin mendapatkan informasi terkini langsung ke WhatsApp Anda? Ikuti Channel saya!

Langkah-Langkah Data Cleaning di OpenRefine untuk Analisis Bibliometrik

Berkelana dalam dunia data dengan OpenRefine! Temukan bagaimana membersihkan dataset Scopus Anda untuk bibliometrik dengan mudah di artikel ini.


Data adalah bahan bakar yang mendorong penelitian modern, memberikan wawasan dan memandu para peneliti merumuskan dan meyimpulkan temuan penelitian. Namun, data mentah seringkali tidak langsung siap digunakan; mungkin ada kesalahan, duplikasi, atau ketidakkonsistenan yang perlu diatasi. Dalam konteks analisis bibliometrik, data yang Anda ekspor dari database seperti Scopus mungkin perlu dibersihkan sebelum bisa dianalisis. Oleh karena itu, proses data cleaning adalah langkah krusial dalam penelitian.

Data cleaning bisa menjadi tugas yang memakan waktu dan rumit, tetapi dengan alat yang tepat, proses ini bisa menjadi jauh lebih mudah dan efisien. Salah satu alat tersebut adalah OpenRefine, sebuah perangkat lunak open source yang dirancang untuk membersihkan data, mengubah atau mengonversi dari format satu ke format lainnya, dan memperluasnya dengan layanan web dari berbagai sumber. Dengan OpenRefine, Anda dapat membantu memastikan bahwa dataset Anda bebas dari kesalahan dan siap untuk analisis yang mendalam.

Artikel ini akan membantu Anda menjelajahi proses cleaning dataset dari Scopus menggunakan OpenRefine, dengan langkah-langkah yang jelas dan mudah diikuti. Tujuan artikel ini adalah untuk membantu Anda mengubah data mentah menjadi sumber pengetahuan yang berharga dan dapat dipercaya sehingga penelitian Anda tingkat kepercayaan yang tinggi. Apakah Anda seorang dosen, mahasiswa, atau peneliti awal, Anda akan menemukan bahwa OpenRefine adalah alat yang sangat andal dan ampuh untuk penelitian Anda. Mari kita mulai dengan memahami apa itu OpenRefine dan bagaimana cara kerjanya.

Apa itu OpenRefine?

OpenRefine, sebelumnya dikenal sebagai Google Refine, adalah perangkat lunak open-source yang dirancang untuk bekerja dengan data besar (big data) dengan cara yang efisien dan mudah. Ini memungkinkan pengguna untuk membersihkan data yang kotor, berantakan, atau tidak konsisten, mengubahnya menjadi format yang lebih mudah dianalisis dan dikelola. OpenRefine adalah alat yang sangat berharga bagi peneliti, jurnalis data, saintis data, dan siapa saja yang sering berurusan dengan dataset yang besar.

Selain membersihkan data, OpenRefine juga memiliki fitur untuk transformasi data dan ekstensi dengan layanan web dari berbagai sumber. Alat ini dapat digunakan untuk mengeksplorasi dataset besar dengan cepat dan dengan mudah, serta memberikan gambaran umum tentang pola dan tren dalam data. OpenRefine juga memungkinkan pengguna untuk menghubungkan dataset mereka dengan database lain seperti Wikidata, memberikan kemampuan untuk memperluas dan memperkaya dataset mereka dengan informasi tambahan. Meskipun mungkin memerlukan sedikit waktu untuk mempelajari fungsionalitasnya, OpenRefine dapat menjadi alat yang sangat kuat dalam pengolahan dan analisis data.

Langkah-langkah data cleaning di OpenRefine

Beberapa hal mengapa data harus dicleaning sebelum dianalisis dlama konteks analisis bibliometrik biasanya terjadi karena terdapat salah ketik, perbedaan penulisan (kapital dan huruf kecil, penggunaan apostrof dan tidak, penggunaan singkatan) pada keywords. Berikut adalah petunjuk praktis untuk melakukan data cleaning pada keywords artikel ilmiah menggunakan OpenRefine.

Instal dan buka OpenRefine

Pertama, Anda perlu mengunduh dan menginstal OpenRefine. Setelah diinstal, buka OpenRefine di browser web Anda. OpenRefine berjalan sebagai server lokal di komputer Anda, jadi Anda tidak perlu koneksi internet untuk menggunakannya setelah diinstal. Anda akan diberikan alamat URL khusus untuk mengakses OpenRefine di browser Anda.

Belum sempat memasang perangkat lunak untuk data cleaning? Silakan unduh OpenRefine versi 3.7.3 melalui tautan berikut sesuai dengan sistem operasi yang Anda gunakan: MacWin (termasuk Java, Win (tanpa Java), Linux. Jika Anda pengguna Win dan gagal menjalankan OpenRefine, pastikan Anda telah memutakhirkan Java versi terbaru.

Impor data

Klik pada 'Create Project' dan pilih 'Get data from This Computer' lalu klik 'Choose Files' dan pilih file dataset Anda (misalnya file CSV yang Anda ekspor dari Scopus). Klik 'Next' dan OpenRefine akan menampilkan pratinjau data Anda. Di sini, Anda dapat memeriksa apakah data telah diimpor dengan benar dan melakukan pengaturan awal, seperti penentuan karakter pemisah dalam file CSV.



Setelah Anda memastikan bahwa data diimpor dengan benar, klik 'Create Project' di pojok kanan atas halaman. OpenRefine akan membuat proyek baru dengan data Anda, dan Anda akan dibawa ke tampilan utama OpenRefine.

Identifikasi dan pemisahan keywords

  1. Tinjau kolom keywords dalam data Anda di OpenRefine. 
  2. Periksa apakah setiap entri keywords memiliki satu atau beberapa keywords yang terpisah dalam satu sel. 
  3. Jika ada beberapa keywords dalam satu sel, pisahkan keywords tersebut agar setiap keyword berada dalam sel yang terpisah menggunakan fungsi "Split multi-valued cells.." yang terdapat pada menu "Edit cells". Klik "Ok" lalu tunggu proses selesai. Pastikan keywords sudah berada pada sel yang terpisah (di bagian bawahnya).

Pembersihan data keywords

  1. Periksa setiap keyword secara individu untuk mengidentifikasi kesalahan penulisan, format yang tidak konsisten, atau karakter yang tidak diinginkan. 
  2. Gunakan fitur-fitur OpenRefine, seperti fungsi penggantian (replace) atau ekstraksi (extract), untuk membersihkan dan mengubah format keywords yang tidak konsisten. 
  3. Contohnya, jika ada kesalahan penulisan, seperti huruf kapital ai dan AI yang tidak konsisten, Anda dapat menggunakan fungsi "Edit cells" > "Common transforms" > "To lowercase" untuk mengubahnya menjadi huruf kecil yang konsisten. 

Mengatasi duplikat keywords

  1. Jika ada keywords yang tidak relevan atau tidak sesuai dengan fokus penelitian, Anda dapat menghapusnya. 
  2. Gunakan fitur OpenRefine seperti "Text facet" atau "Cluster" untuk mengidentifikasi data duplikat dalam kolom keywords. Pada cluster, pastikan Anda telah mengecek pada "method" dan "distance function" untuk mengetahui rekomendasi keywords yang mirip, yang perlu dimerger. 

Normalisasi keywords

Jika ada variasi ejaan atau sinonim dalam keywords, Anda dapat melakukan normalisasi untuk menggabungkan variasi tersebut menjadi satu bentuk yang konsisten.

Validasi keywords

  1. Lakukan validasi keywords untuk memastikan konsistensi dan keabsahan informasi. 
  2. Periksa keywords secara keseluruhan untuk memastikan bahwa setiap keyword benar-benar relevan dan sesuai dengan topik penelitian. 
  3. Jika diperlukan, lakukan perubahan atau penyesuaian manual pada keywords yang tidak valid atau tidak relevan. 

Ekspor data yang telah dicleaning

  1. Setelah selesai melakukan data cleaning pada keywords, Anda dapat menghasilkan file output dengan data keywords yang telah dibersihkan. 
  2. Anda dapat menggabungkan keywords yang yang telah dibersihkan dengan menggunakan fungsi "Edit cells" > "Join multi-valued cells" untuk menggabungkan keywords kembali seperti awal. 
  3. Klik pada ikon "Export" di bagian atas layar OpenRefine dan pilih format file yang diinginkan. Untuk analisis di VOSviewer silakan ekspor ke format .csv (Comma-separated value). 
  4. Pilih lokasi penyimpanan dan berikan nama file untuk data keywords yang telah dicleaning, lalu klik "Export" untuk mengekspor data. 

Pastikan untuk selalu mem-backup data asli Anda sebelum melakukan data cleaning dengan OpenRefine. Selain itu, eksplorasi fitur-fitur yang tersedia di OpenRefine dan eksperimen dengan berbagai fungsi dapat membantu Anda dalam membersihkan data keywords artikel ilmiah dengan lebih efisien dan akurat.

Penutup

Setelah berjalan melalui proses ini, Anda sekarang memiliki pemahaman yang lebih baik tentang bagaimana membersihkan dataset Anda menggunakan OpenRefine. Proses ini membutuhkan perhatian terhadap detail dan kesabaran, tetapi dengan waktu, Anda akan melihat betapa pentingnya langkah ini dalam menghasilkan penelitian yang akurat dan berkualitas tinggi. Dengan dataset yang bersih dan bebas dari kesalahan, Anda sekarang dapat bergerak maju dengan analisis Anda, yakin bahwa Anda bekerja dengan informasi yang paling tepat dan relevan.

Ingatlah bahwa setiap penelitian adalah sebuah perjalanan, dan setiap langkah, termasuk proses data cleaning, membawa Anda lebih dekat ke tujuan Anda. OpenRefine adalah alat yang kuat dalam perjalanan ini, memfasilitasi dan mempercepat proses cleaning data. Teruslah eksplorasi, belajar, dan menemukan --di setiap baris data, ada peluang untuk menemukan sesuatu yang baru. Semoga sukses dengan penelitian Anda dan selamat mengeksplorasi dunia pengetahuan dengan data yang bersih dan akurat!

Dosen, kadang ngerjain riset, kadang ngisi acara atau pelatihan, namun seringnya berimajinasi.