Yioop_V9.5_Source_Code_Documentation

Tokenizer
in package

Thai specific tokenization code. Typically, tokenizer.php either contains a stemmer for the language in question or it specifies how many characters in a char gram

Tags
author

Chris Pollett

Table of Contents

$char_gram_len  : int
How many characters in a char gram for this locale
$stop_words  : mixed
A list of frequently occurring terms for this locale which should be excluded from certain kinds of queries. This is also used for language detection
stopwordsRemover()  : mixed
Removes the stop words from the page (used for Word Cloud generation and language detection)

Properties

$char_gram_len

How many characters in a char gram for this locale

public static int $char_gram_len = 5

$stop_words

A list of frequently occurring terms for this locale which should be excluded from certain kinds of queries. This is also used for language detection

public static mixed $stop_words = ['เป็น', 'ฉัน', 'ของเขา', 'ว่า', 'เขา', 'เป็น', 'สำหรับ', 'บน', 'มี', 'ด้วย', 'พวกเขา', 'จะเป็น', 'ที่', 'หนึ่ง', 'มี', 'นี้', 'จาก', 'โดย', 'ร้อน', 'คำ', 'แต่', 'สิ่งที่', 'บาง', 'เป็น', 'มัน', 'คุณ', 'หรือ', 'มี', 'ได้', 'ของ', 'ที่จะ', 'และ', 'กรอก', 'ใน', 'เรา', 'สามารถ', 'ออก', 'อื่น ๆ', 'เป็น', 'ซึ่ง', 'ทำ', 'ของพวกเขา', 'เวลา', 'ถ้า', 'จะ', 'วิธี', 'กล่าวว่า', 'บิน', 'แต่ละ', 'บอก', 'ไม่', 'ชุด', 'สาม', 'ต้องการ', 'อากาศ', 'ดี', 'ด้วย', 'เล่น', 'ขนาดเล็ก', 'ปลาย', 'ใส่', 'บ้าน', 'อ่าน', 'มือ', 'พอร์ต', 'ที่มีขนาดใหญ่', 'สะกด', 'เพิ่ม', 'แม้กระทั่ง', 'ที่ดิน', 'ที่นี่', 'ต้อง', 'ใหญ่', 'สูง', 'เช่น', 'ทำตาม', 'การกระทำ', 'เหตุผลที่', 'ขอให้', 'ผู้ชาย', 'การเปลี่ยนแปลง', 'ไป', 'แสง', 'ชนิด', 'ออก', 'ต้อง', 'บ้าน', 'ภาพ', 'พยายาม', 'เรา', 'อีกครั้ง', 'สัตว์', 'จุด', 'แม่', 'โลก', 'อยู่ใกล้', 'สร้าง', 'ตนเอง', 'โลก', 'พ่อของ']
Tags
array

Methods

stopwordsRemover()

Removes the stop words from the page (used for Word Cloud generation and language detection)

public static stopwordsRemover(mixed $data) : mixed
Parameters
$data : mixed

either a string or an array of string to remove stop words from

Return values
mixed

$data with no stop words


        

Search results