Kita dapat menambah atau mengurangi spaCy stop words. Stop words adalah list dari kata-kata yang umum digunakan namun tidak digunakan saat melakukan text processing pada NLP.
Pada Bahasa Inggris, kata seperti “a”, “the” biasanya dimasukan kedalam stop words. Karena kata ini tidak akan mempengaruhi konteks kalimat.
import spacy
nlp = spacy.load('en_core_web_sm')
# untuk melihat isi stop words
print(nlp.Defaults.stop_words)
# untuk memeriksa apakah sebuah kata termasuk stop words
nlp.vocab['myself'].is_stop
# True
nlp.vocab['mystery'].is_stop
# False
Menambah dan Membuang Isi Stop Words
Ada kalanya untuk project NLP tertentu, kita perlu menambah atau membuang isi stop words.
Misalnya text yang akan kita proses memiliki kata singkatan ‘btw’ yang berarti ‘by the way’, dan kata ini tidak diperlukan, dapat ditambahkan kedalam stop words.
Dan begitu juga sebaliknya, misalkan kita tidak memerlukan kata ‘beyond’, kata tersebut bisa dibuang dari stopwords.
Berikut cara untuk menambah dan membuang spacy stop words.
# Menambahkan kata ke stop words. Gunakan lowercase (huruf kecil)
nlp.Defaults.stop_words.add('btw')
nlp.vocab['btw'].is_stop = True
# membuang kata dari stop words
nlp.Defaults.stop_words.remove('beyond')
nlp.vocab['beyond'].is_stop = False