Sekarang Anda dapat menggunakan
Intl.Segmenter
untuk segmentasi teks yang sensitif terhadap lokalitas guna
membagi string menjadi kata-kata, kalimat,
atau grafem.
Banyak bahasa non-Latin, seperti China dan Jepang,
jangan gunakan spasi untuk memisahkan kata. Oleh karena itu, menggunakan split()
JavaScript
pada spasi kosong untuk memisahkan teks menjadi kata, akan mengembalikan hasil yang salah.
Saat membuat objek Intl.Segmenter
baru dengan
Konstruktor Intl.segmenter()
,
meneruskan locale
dan opsi termasuk granularity
, yang bisa
memiliki nilai "grapheme"
, "word"
, atau "sentence"
. Hal berikut
contoh membuat objek Intl.Segmenter
baru untuk bahasa Jepang, dengan memisahkan kata.
const segmenter = new Intl.Segmenter('ja-JP', { granularity: 'word' });
Memanggil
segment()
pada objek Intl.Segmenter
dengan string teks
akan mengembalikan nilai iterable:
const segments = segmenter.segment(str);
console.table(Array.from(segments));
Baca Menggunakan Intl.Segmenter API di blog Polypanel untuk mendapatkan tutorial yang sangat menarik tentang cara menggunakan fitur ini.
Segmentasi Teks Internasional dengan Intl.Segmenter di JavaScript
memiliki contoh lainnya, termasuk cara menggunakan Intl.Segmenter
dengan emoji.