Yioop_V9.5_Source_Code_Documentation

Tokenizer
in package

Telegu specific tokenization code. Typically, tokenizer.php either contains a stemmer for the language in question or it specifies how many characters in a char gram

Tags
author

Chris Pollett

Table of Contents

$char_gram_len  : int
How many characters in a char gram for this locale
$stop_words  : mixed
A list of frequently occurring terms for this locale which should be excluded from certain kinds of queries. This is also used for language detection
stopwordsRemover()  : mixed
Removes the stop words from the page (used for Word Cloud generation and language detection)

Properties

$char_gram_len

How many characters in a char gram for this locale

public static int $char_gram_len = 5

$stop_words

A list of frequently occurring terms for this locale which should be excluded from certain kinds of queries. This is also used for language detection

public static mixed $stop_words = ['గా', 'నేను', 'తన', 'ఆ', 'అతను', 'ఉంది', 'కోసం', 'న', 'ఉన్నాయి', 'తో', 'వారు', 'ఉంటుంది', 'వద్ద', 'ఒకటి', 'కలిగి', 'ఈ', 'నుండి', 'ద్వారా', 'వేడి', 'పదం', 'కానీ', 'ఏమి', 'కొన్ని', 'ఉంది', 'ఇది', 'మీరు', 'లేదా', 'వచ్చింది', 'ది', 'యొక్క', 'కు', 'మరియు', 'ఒక', 'లో', 'మేము', 'చెయ్యవచ్చు', 'అవుట్', 'ఇతర', 'ఉన్నాయి', 'ఇది', 'చేయండి', 'వారి', 'సమయం', 'ఉంటే', 'రెడీ', 'ఎలా', 'అన్నాడు', 'ఒక', 'ప్రతి', 'చెప్పండి', 'చేస్తుంది', 'సెట్', 'మూడు', 'కావలసిన', 'గాలి', 'బాగా', 'కూడా', 'ప్లే', 'చిన్న', 'ముగింపు', 'చాలు', 'హోమ్', 'చదవడానికి', 'చేతి', 'పోర్ట్', 'పెద్ద', 'అక్షరక్రమ', 'జోడించండి', 'కూడా', 'భూమి', 'ఇక్కడ', 'తప్పక', 'పెద్ద', 'అధిక', 'ఇటువంటి', 'అనుసరించండి', 'చట్టం', 'ఎందుకు', 'గోవా', 'పురుషులు', 'మార్పు', 'వెళ్ళింది', 'కాంతి', 'రకం', 'ఆఫ్', 'అవసరం', 'ఇల్లు', 'చిత్రాన్ని', 'ప్రయత్నించండి', 'మాకు', 'మళ్ళీ', 'జంతు', 'పాయింట్', 'తల్లి', 'ప్రపంచ', 'సమీపంలో', 'నిర్మించడానికి', 'స్వీయ', 'భూమి', 'తండ్రి']
Tags
array

Methods

stopwordsRemover()

Removes the stop words from the page (used for Word Cloud generation and language detection)

public static stopwordsRemover(mixed $data) : mixed
Parameters
$data : mixed

either a string or an array of string to remove stop words from

Return values
mixed

$data with no stop words


        

Search results