Yioop_V9.5_Source_Code_Documentation

Tokenizer
in package

Turkish specific tokenization code. Typically, tokenizer.php either contains a stemmer for the language in question or it specifies how many characters in a char gram

Tags
author

Chris Pollett

Table of Contents

$char_gram_len  : int
How many characters in a char gram for this locale
$stop_words  : mixed
A list of frequently occurring terms for this locale which should be excluded from certain kinds of queries. This is also used for language detection
stopwordsRemover()  : mixed
Removes the stop words from the page (used for Word Cloud generation and language detection)

Properties

$char_gram_len

How many characters in a char gram for this locale

public static int $char_gram_len = 5

$stop_words

A list of frequently occurring terms for this locale which should be excluded from certain kinds of queries. This is also used for language detection

public static mixed $stop_words = ['olarak', 'ben', 'onun', 'bu', 'diye', 'oldu', 'için', 'üzerinde', 'vardır', 'ile', 'onlar', 'olmak', 'at', 'bir', 'var', 'Bu', 'dan', 'tarafından', 'sıcak', 'kelime', 'ancak', 'ne', 'bazı', 'olduğunu', 'o', 'sen', 'veya', 'vardı', '', 'arasında', 'karşı', 've', 'bir', 'içinde', 'biz', 'can', 'üzerinden', 'diğer', 'vardı', 'hangi', 'do', 'onların', 'zaman', 'eğer', 'olacak', 'nasıl', 'dedi', 'bir', 'her', 'söyle', 'yok', 'set', 'üç', 'istiyorum', 'hava', 'iyi', 'ayrıca', 'oynamak', 'küçük', 'son', 'koymak', 'ev', 'okumak', 'el', 'liman', 'büyük', 'büyü', 'ekleyin', 'hatta', 'arazi', 'burada', 'gerekir', 'büyük', 'yüksek', 'böyle', 'izleyin', 'hareket', 'neden', 'sormak', 'erkekler', 'değişim', 'gitti', 'ışık', 'tür', 'kapalı', 'gerek', 'ev', 'resim', 'denemek', 'bizi', 'tekrar', 'hayvan', 'nokta', 'anne', 'dünya', 'yakın', 'inşa', 'etmek', 'öz', 'toprak', 'baba']
Tags
array

Methods

stopwordsRemover()

Removes the stop words from the page (used for Word Cloud generation and language detection)

public static stopwordsRemover(mixed $data) : mixed
Parameters
$data : mixed

either a string or an array of string to remove stop words from

Return values
mixed

$data with no stop words


        

Search results