Tokenizer
in package
Vietnamese specific tokenization code. Typically, tokenizer.php either contains a stemmer for the language in question or it specifies how many characters in a char gram for Vietnamese neither char gramming or stemming seemed to make sense, so for now this file is blank.
Tags
Table of Contents
- $stop_words : mixed
- A list of frequently occurring terms for this locale which should be excluded from certain kinds of queries. This is also used for language detection
- stopwordsRemover() : mixed
- Removes the stop words from the page (used for Word Cloud generation and language detection)
Properties
$stop_words
A list of frequently occurring terms for this locale which should be excluded from certain kinds of queries. This is also used for language detection
public
static mixed
$stop_words
= ['như', 'tôi', 'mình', 'mà', 'ông', 'là', 'cho', 'trên', 'là', 'với', 'họ', 'được', 'tại', 'một', 'có', 'này', 'từ', 'bởi', 'nóng', 'từ', 'nhưng', 'những', 'gì', 'một', 'số', 'là', 'nó', 'anh', 'hoặc', 'có', 'các', 'của', 'để', 'và', 'một', 'trong', 'chúng', 'tôi', 'có', 'thể', 'ra', 'khác', 'là', 'mà', 'làm', 'của', 'họ', 'thời', 'gian', 'nếu', 'sẽ', 'như', 'thế', 'nào', 'nói', 'một', 'môi', 'nói ', 'không', 'bộ', 'ba', 'muốn', 'không', 'khí', 'cũng', 'cũng', 'chơi', 'nhỏ', 'cuố', 'đặt', 'nhà', 'đọc', 'tay', 'cổng', 'lớn', 'chính', 'tả', 'thêm', 'thậm', 'chí', 'đất', 'ở', 'đây', 'phải', 'lớn', 'cao', 'như', 'vậy', 'theo', 'hành', 'động', 'lý', 'do ', 'tại ', 'sao', 'xin', 'người', 'đàn', 'ông', 'thay', 'đổi', 'đi', 'ánh', 'sáng', 'loại', 'tắt', 'cần', 'nhà', 'hình', 'ảnh', 'thử', 'chúng', 'tôi', 'một ', 'lần', 'nữa', 'động', 'vật', 'điểm', 'mẹ', 'thế', 'giới', 'gần', 'xây', 'dựng', 'tự', 'đất', 'cha']
Tags
Methods
stopwordsRemover()
Removes the stop words from the page (used for Word Cloud generation and language detection)
public
static stopwordsRemover(mixed $data) : mixed
Parameters
- $data : mixed
-
either a string or an array of string to remove stop words from
Return values
mixed —$data with no stop words