Tokenizer
in package
Hebrew specific tokenization code. Typically, tokenizer.php either contains a stemmer for the language in question or it specifies how many characters in a char gram
Tags
Table of Contents
- $char_gram_len : int
- How many characters in a char gram for this locale
- $stop_words : mixed
- A list of frequently occurring terms for this locale which should be excluded from certain kinds of queries. This is also used for language detection
- stopwordsRemover() : mixed
- Removes the stop words from the page (used for Word Cloud generation and language detection)
Properties
$char_gram_len
How many characters in a char gram for this locale
public
static int
$char_gram_len
= 5
$stop_words
A list of frequently occurring terms for this locale which should be excluded from certain kinds of queries. This is also used for language detection
public
static mixed
$stop_words
= ['כמו', 'אני', 'שלו', 'ש', 'הוא', 'היה', 'עבור', 'על', 'הם', 'עם', 'הם', 'להיות', 'ב', 'אחד', 'יש לי', 'זה', 'מ', 'על ידי', 'חם', 'מילה', 'אבל', 'מה', 'כמה', 'הוא', 'זה', 'אתה', 'או', 'היה לי', 'עבור', 'של', 'אל', 'ו', 'זמן', 'ב', 'אנחנו', 'יכול', 'את', 'אחר', 'היו', 'ש', 'לעשות', 'שלהם', 'זמן', 'אם', 'יהיה', 'איך', 'אמר', 'בית', 'כל', 'לספר', 'עושה', 'סט', 'שלוש', 'רוצה', 'אוויר', 'גם', 'גם', 'לשחק', 'קטן', 'סוף', 'לשים', 'בית', 'לקרוא', 'יד', 'נמל', 'גדול', 'לאיית', 'להוסיף', 'אפילו', 'ארץ', 'כאן', 'חייב', 'גדול', 'גבוה', 'כזה', 'מעקב', 'מעשה', 'מדוע', 'שואל', 'אנשים', 'לשנות', 'הלכתי', 'אור', 'סוג', 'את', 'צריך', 'בית', 'תמונה', 'לנסות', 'שלנו', 'שוב', 'חיה', 'נקודה', 'אמא', 'עולם', 'ליד', 'לבנות', 'עצמי', 'כדור הארץ', 'אב']
Tags
Methods
stopwordsRemover()
Removes the stop words from the page (used for Word Cloud generation and language detection)
public
static stopwordsRemover(mixed $data) : mixed
Parameters
- $data : mixed
-
either a string or an array of string to remove stop words from
Return values
mixed —$data with no stop words