Yioop_V9.5_Source_Code

ACTIVE_CLASSIFIERS


    public
        mixed
    ACTIVE_CLASSIFIERS
    = 'cu'

ACTIVE_CLASSIFIERS_DATA


    public
        mixed
    ACTIVE_CLASSIFIERS_DATA
    = 'cv'

ACTIVE_RANKERS


    public
        mixed
    ACTIVE_RANKERS
    = 'db'

AGENT_LIST


    public
        mixed
    AGENT_LIST
    = "bz"

ALLOWED_SITES


    public
        mixed
    ALLOWED_SITES
    = 'aa'

ARC_DATA


    public
        mixed
    ARC_DATA
    = "cd"

ARC_DIR


    public
        mixed
    ARC_DIR
    = "cb"

ARC_TYPE


    public
        mixed
    ARC_TYPE
    = "cc"

archive_base_name


    public
        mixed
    archive_base_name
    = "Archive"

ARCHIVE_CRAWL


    public
        mixed
    ARCHIVE_CRAWL
    = 'ay'

ASCENDING

used for word iterator direction


    public
        mixed
    ASCENDING
    = 1

AUX_DOCS


    public
        mixed
    AUX_DOCS
    = 'ar'

AVERAGE_COLOR


    public
        mixed
    AVERAGE_COLOR
    = 'el'

BASIC_SUMMARIZER


    public
        mixed
    BASIC_SUMMARIZER
    = 'dk'

BOTH

Used to say what kind of queue_server this is


    public
        mixed
    BOTH
    = "IndexerAndScheduler"

BREADTH_FIRST


    public
        mixed
    BREADTH_FIRST
    = 'ac'

CACHE_PAGE_PARTITION


    public
        mixed
    CACHE_PAGE_PARTITION
    = 'ap'

CACHE_PAGE_VALIDATION_DATA


    public
        mixed
    CACHE_PAGE_VALIDATION_DATA
    = 'cy'

CACHE_PAGE_VALIDATORS


    public
        mixed
    CACHE_PAGE_VALIDATORS
    = 'cx'

CACHE_PAGES


    public
        mixed
    CACHE_PAGES
    = 'cn'

CENTROID_SUMMARIZER


    public
        mixed
    CENTROID_SUMMARIZER
    = 'dl'

CENTROID_WEIGHTED_SUMMARIZER


    public
        mixed
    CENTROID_WEIGHTED_SUMMARIZER
    = 'dt'

CHANNEL


    public
        mixed
    CHANNEL
    = 'eb'

CLD_IN_COMMON


    public
        mixed
    CLD_IN_COMMON
    = 'av'

CONTENT_SIZE


    public
        mixed
    CONTENT_SIZE
    = 'dx'

CONTINUE_STATE


    public
        mixed
    CONTINUE_STATE
    = 1

CRAWL_DELAY


    public
        mixed
    CRAWL_DELAY
    = 'v'

CRAWL_INDEX


    public
        mixed
    CRAWL_INDEX
    = 'ba'

CRAWL_ORDER


    public
        mixed
    CRAWL_ORDER
    = 'Y'

crawl_status_file


    public
        mixed
    crawl_status_file
    = "CrawlStatus.txt"

CRAWL_TIME


    public
        mixed
    CRAWL_TIME
    = 'b'

CRAWL_TYPE


    public
        mixed
    CRAWL_TYPE
    = 'az'

current_machine_info_file

used by MediaUpdater to know what machine it is for distributed jobs


    public
        mixed
    current_machine_info_file
    = "CurrentMachineInfo.txt"

CURRENT_SERVER


    public
        mixed
    CURRENT_SERVER
    = "bv"

DATA


    public
        mixed
    DATA
    = 'bt'

DEBUG


    public
        mixed
    DEBUG
    = "E"

DESCENDING


    public
        mixed
    DESCENDING
    = -1

DESCRIPTION


    public
        mixed
    DESCRIPTION
    = 't'

DESCRIPTION_SCORES


    public
        mixed
    DESCRIPTION_SCORES
    = 'A'

DIRECTION


    public
        mixed
    DIRECTION
    = "F"

DISALLOWED_SITES


    public
        mixed
    DISALLOWED_SITES
    = 'ab'

DNS_TIME


    public
        mixed
    DNS_TIME
    = "by"

DOC_DEPTH


    public
        mixed
    DOC_DEPTH
    = 'M'

DOC_ID


    public
        mixed
    DOC_ID
    = 'am'

DOC_INFO


    public
        mixed
    DOC_INFO
    = 'r'

DOC_LEN


    public
        mixed
    DOC_LEN
    = 'bi'

DOC_RANK


    public
        mixed
    DOC_RANK
    = 'N'

DOMAIN_WEIGHTS


    public
        mixed
    DOMAIN_WEIGHTS
    = 'bm'

double_index_base_name


    public
        mixed
    double_index_base_name
    = "DoubleIndexData"

DUMMY


    public
        mixed
    DUMMY
    = 'V'

DURATION


    public
        mixed
    DURATION
    = 'ee'

ENCODING


    public
        mixed
    ENCODING
    = 'f'

END_ITERATOR


    public
        mixed
    END_ITERATOR
    = 'ct'

FALLBACK_PROCESSOR


    public
        mixed
    FALLBACK_PROCESSOR
    = 'ep'

FAVICON_URL


    public
        mixed
    FAVICON_URL
    = "K"

FEED_CRAWL_TIME

media feed index archive bundle timestamp


    public
        mixed
    FEED_CRAWL_TIME
    = 100

feed_index_data_base_name


    public
        mixed
    feed_index_data_base_name
    = "IndexDataFeed"

fetch_archive_iterator


    public
        mixed
    fetch_archive_iterator
    = "FetchArchiveIterator"

fetch_closed_name


    public
        mixed
    fetch_closed_name
    = "FetchClosed"

fetch_crawl_info


    public
        mixed
    fetch_crawl_info
    = "FetchInfo"

FETCHER_QUEUE_SERVER_RATIO


    public
        mixed
    FETCHER_QUEUE_SERVER_RATIO
    = 'es'

FILE_NAME


    public
        mixed
    FILE_NAME
    = 'df'

FILETYPE


    public
        mixed
    FILETYPE
    = 'ag'

GENERATION


    public
        mixed
    GENERATION
    = 'aq'

GRAPH_BASED_SUMMARIZER


    public
        mixed
    GRAPH_BASED_SUMMARIZER
    = 'ds'

HASH


    public
        mixed
    HASH
    = 'o'

HASH_SEEN_URLS


    public
        mixed
    HASH_SEEN_URLS
    = 'aj'

HASH_URL


    public
        mixed
    HASH_URL
    = 'T'

HASH_URL_COUNT


    public
        mixed
    HASH_URL_COUNT
    = 'as'

HEADER


    public
        mixed
    HEADER
    = 'bb'

HEIGHT


    public
        mixed
    HEIGHT
    = 'B'

HOST_BUDGETING


    public
        mixed
    HOST_BUDGETING
    = 'ad'

HTTP_CODE


    public
        mixed
    HTTP_CODE
    = 'c'

IMAGE_LINK


    public
        mixed
    IMAGE_LINK
    = "dr"

INDEX


    public
        mixed
    INDEX
    = 'z'

index_closed_name


    public
        mixed
    index_closed_name
    = "IndexClosed"

index_data_base_name


    public
        mixed
    index_data_base_name
    = "IndexData"

INDEX_VERSION


    public
        mixed
    INDEX_VERSION
    = 'ei'

INDEXED_FILE_TYPES


    public
        mixed
    INDEXED_FILE_TYPES
    = 'bq'

INDEXER

Used to say what kind of queue_server this is


    public
        mixed
    INDEXER
    = "Indexer"

INDEXING_PLUGINS


    public
        mixed
    INDEXING_PLUGINS
    = 'bl'

INDEXING_PLUGINS_DATA


    public
        mixed
    INDEXING_PLUGINS_DATA
    = "dd"

INI


    public
        mixed
    INI
    = 'cq'

INLINKS


    public
        mixed
    INLINKS
    = 'P'

INVERTED_INDEX


    public
        mixed
    INVERTED_INDEX
    = 'i'

IP_ADDRESSES


    public
        mixed
    IP_ADDRESSES
    = 'au'

IS_BLACK_AND_WHITE


    public
        mixed
    IS_BLACK_AND_WHITE
    = 'em'

IS_DOC


    public
        mixed
    IS_DOC
    = 'at'

IS_FEED


    public
        mixed
    IS_FEED
    = 'ch'

IS_GOPHER_URL


    public
        mixed
    IS_GOPHER_URL
    = "dp"

IS_SAFE


    public
        mixed
    IS_SAFE
    = 'eh'

IS_VIDEO


    public
        mixed
    IS_VIDEO
    = 'cg'

IS_VR


    public
        mixed
    IS_VR
    = 'ed'

JUST_METAS


    public
        mixed
    JUST_METAS
    = 'aw'

KEY


    public
        mixed
    KEY
    = "ce"

KEYWORD_LINKS


    public
        mixed
    KEYWORD_LINKS
    = 'cs'

LANG


    public
        mixed
    LANG
    = 'bg'

LINK_SEEN_URLS


    public
        mixed
    LINK_SEEN_URLS
    = 'cj'

LINKS


    public
        mixed
    LINKS
    = 'w'

local_ip_cache_file


    public
        mixed
    local_ip_cache_file
    = "LocalIpCache.txt"

LOCATION


    public
        mixed
    LOCATION
    = 'bp'

LOGGING


    public
        mixed
    LOGGING
    = 'cl'

MACHINE


    public
        mixed
    MACHINE
    = 'h'

MACHINE_ID


    public
        mixed
    MACHINE_ID
    = 'cf'

MACHINE_URI


    public
        mixed
    MACHINE_URI
    = 'ae'

MAX

Used in priority queue


    public
        mixed
    MAX
    = 1

MAX_DEPTH


    public
        mixed
    MAX_DEPTH
    = 'dz'

MAX_DESCRIPTION_LEN


    public
        mixed
    MAX_DESCRIPTION_LEN
    = 'cw'

MAX_LINKS_TO_EXTRACT


    public
        mixed
    MAX_LINKS_TO_EXTRACT
    = 'do'

MEMORY_USAGE


    public
        mixed
    MEMORY_USAGE
    = 'al'

messages_data_base_name


    public
        mixed
    messages_data_base_name
    = "MessagesData"

META_WORDS


    public
        mixed
    META_WORDS
    = 'cm'

MIN


    public
        mixed
    MIN
    = -1

MINIMUM_FETCH_LOOP_TIME


    public
        mixed
    MINIMUM_FETCH_LOOP_TIME
    = "dq"

mirror_table_name


    public
        mixed
    mirror_table_name
    = "MirrorTable.txt"

MODIFIED


    public
        mixed
    MODIFIED
    = 'bf'

MORE_FILTER_TERMS


    public
        mixed
    MORE_FILTER_TERMS
    = "ej"

name_archive_iterator


    public
        mixed
    name_archive_iterator
    = "NameArchiveIterator"

NEEDS_OFFSET_FLAG


    public
        mixed
    NEEDS_OFFSET_FLAG
    = 0x7fffffff

network_base_name


    public
        mixed
    network_base_name
    = "Network"

network_crawllist_base_name


    public
        mixed
    network_crawllist_base_name
    = "NetworkCrawlList"

network_status_file


    public
        mixed
    network_status_file
    = "NetworkStatus.txt"

NEW_CRAWL


    public
        mixed
    NEW_CRAWL
    = 'Q'

NO_DATA_STATE


    public
        mixed
    NO_DATA_STATE
    = 2

NO_RANGE


    public
        mixed
    NO_RANGE
    = 'dy'

NUM_ICON_IMAGES


    public
        mixed
    NUM_ICON_IMAGES
    = "L"

NUM_PARTITIONS


    public
        mixed
    NUM_PARTITIONS
    = 'cz'

OFFSET


    public
        mixed
    OFFSET
    = 'R'

OPERATING_SYSTEM


    public
        mixed
    OPERATING_SYSTEM
    = 'be'

PAGE


    public
        mixed
    PAGE
    = 'q'

PAGE_RANGE_REQUEST


    public
        mixed
    PAGE_RANGE_REQUEST
    = 'br'

PAGE_RECRAWL_FREQUENCY


    public
        mixed
    PAGE_RECRAWL_FREQUENCY
    = 'bs'

PAGE_RULES


    public
        mixed
    PAGE_RULES
    = 'ao'

PARTITION_NUM


    public
        mixed
    PARTITION_NUM
    = 'da'

PATHS


    public
        mixed
    PATHS
    = 'S'

PINNED


    public
        mixed
    PINNED
    = "G"

POSITION_LIST


    public
        mixed
    POSITION_LIST
    = 'bn'

POST_MAX_SIZE


    public
        mixed
    POST_MAX_SIZE
    = 'ck'

PROCESSOR


    public
        mixed
    PROCESSOR
    = 'eo'

PROXIMITY


    public
        mixed
    PROXIMITY
    = 'bo'

PROXY_SERVERS


    public
        mixed
    PROXY_SERVERS
    = 'di'

PUBDATE


    public
        mixed
    PUBDATE
    = 'ef'

QUESTION_ANSWERS


    public
        mixed
    QUESTION_ANSWERS
    = 'dw'

queue_base_name


    public
        mixed
    queue_base_name
    = "QueueBundle"

QUEUE_SERVERS


    public
        mixed
    QUEUE_SERVERS
    = "bu"

RECENT_URLS


    public
        mixed
    RECENT_URLS
    = 'ak'

REDO_STATE


    public
        mixed
    REDO_STATE
    = 4

RELEVANCE


    public
        mixed
    RELEVANCE
    = 'an'

REPEAT_TYPE


    public
        mixed
    REPEAT_TYPE
    = 'ea'

REPOSITORY_TYPE


    public
        mixed
    REPOSITORY_TYPE
    = 'de'

RESTRICT_SITES_BY_URL


    public
        mixed
    RESTRICT_SITES_BY_URL
    = 'Z'

ROBOT_INSTANCE


    public
        mixed
    ROBOT_INSTANCE
    = 'bh'

ROBOT_METAS


    public
        mixed
    ROBOT_METAS
    = "ca"

ROBOT_PATHS


    public
        mixed
    ROBOT_PATHS
    = 'n'

robot_table_name

File name of file used to store when various fetchers contained a given QueueServer machine


    public
        mixed
    robot_table_name
    = "RobotTable.txt"

ROBOT_TXT


    public
        mixed
    ROBOT_TXT
    = 'x'

ROBOTS_TXT


    public
        mixed
    ROBOTS_TXT
    = 'D'

save_point


    public
        mixed
    save_point
    = "SavePoint"

SAVED_CRAWL_TIMES


    public
        mixed
    SAVED_CRAWL_TIMES
    = 'j'

schedule_name


    public
        mixed
    schedule_name
    = "FetchSchedule"

schedule_start_name


    public
        mixed
    schedule_start_name
    = "StartCrawlSchedule.txt"

SCHEDULE_TIME


    public
        mixed
    SCHEDULE_TIME
    = 'k'

SCHEDULER

Used to say what kind of queue_server this is


    public
        mixed
    SCHEDULER
    = "Scheduler"

SCORE


    public
        mixed
    SCORE
    = 'X'

SCRAPER_INFO


    public
        mixed
    SCRAPER_INFO
    = 'eq'

SCRAPER_LABEL


    public
        mixed
    SCRAPER_LABEL
    = 'du'

SCRAPERS


    public
        mixed
    SCRAPERS
    = 'dv'

SEEN_URLS


    public
        mixed
    SEEN_URLS
    = 'g'

SEQUENCE_NUMBER


    public
        mixed
    SEQUENCE_NUMBER
    = 'er'

SERVER


    public
        mixed
    SERVER
    = 'bc'

SERVER_VERSION


    public
        mixed
    SERVER_VERSION
    = 'bd'

SHA_HASH


    public
        mixed
    SHA_HASH
    = 'dg'

SITE_INFO


    public
        mixed
    SITE_INFO
    = 'af'

SITES


    public
        mixed
    SITES
    = 'W'

SIZE


    public
        mixed
    SIZE
    = "bw"

SLEEP_DURATION


    public
        mixed
    SLEEP_DURATION
    = "I"

SLEEP_START


    public
        mixed
    SLEEP_START
    = "H"

SOURCE_NAME


    public
        mixed
    SOURCE_NAME
    = 'ci'

START_PARTITION


    public
        mixed
    START_PARTITION
    = 'cp'

statistics_base_name


    public
        mixed
    statistics_base_name
    = "Statistics"

STATUS


    public
        mixed
    STATUS
    = 'a'

STOP_STATE

starts of daemon processes


    public
        mixed
    STOP_STATE
    = -1

SUBDOCS


    public
        mixed
    SUBDOCS
    = 'bj'

SUBDOCTYPE


    public
        mixed
    SUBDOCTYPE
    = 'bk'

SUMMARIZER_OPTION


    public
        mixed
    SUMMARIZER_OPTION
    = 'dm'

SUMMARY


    public
        mixed
    SUMMARY
    = 'ah'

SUMMARY_OFFSET


    public
        mixed
    SUMMARY_OFFSET
    = 'U'

THUMB


    public
        mixed
    THUMB
    = 'u'

THUMB_URL


    public
        mixed
    THUMB_URL
    = 'ec'

TIMESTAMP


    public
        mixed
    TIMESTAMP
    = 'd'

TITLE


    public
        mixed
    TITLE
    = 's'

TO_CRAWL


    public
        mixed
    TO_CRAWL
    = 'y'

TOP_LEVEL_LINKS


    public
        mixed
    TOP_LEVEL_LINKS
    = "J"

TOR_PROXY


    public
        mixed
    TOR_PROXY
    = 'dh'

TOTAL_TIME


    public
        mixed
    TOTAL_TIME
    = "bx"

TYPE


    public
        mixed
    TYPE
    = 'e'

UI_FLAGS


    public
        mixed
    UI_FLAGS
    = 'cr'

URL


    public
        mixed
    URL
    = 'l'

URL_INFO


    public
        mixed
    URL_INFO
    = 'ai'

URL_PARENT


    public
        mixed
    URL_PARENT
    = "ek"

URL_WEIGHT


    public
        mixed
    URL_WEIGHT
    = 'O'

USER_RANKS


    public
        mixed
    USER_RANKS
    = "dc"

VIEW_COUNT


    public
        mixed
    VIEW_COUNT
    = 'en'

WAITING_START_MESSAGE_STATE


    public
        mixed
    WAITING_START_MESSAGE_STATE
    = 3

WARC_ID


    public
        mixed
    WARC_ID
    = 'co'

WEB_CRAWL


    public
        mixed
    WEB_CRAWL
    = 'ax'

WEIGHT


    public
        mixed
    WEIGHT
    = 'm'

WIDTH


    public
        mixed
    WIDTH
    = 'C'

WORD_CLOUD


    public
        mixed
    WORD_CLOUD
    = 'dn'

CrawlConstants in Application

Tags

Table of Contents

Constants

ACTIVE_CLASSIFIERS

ACTIVE_CLASSIFIERS_DATA

ACTIVE_RANKERS

AGENT_LIST

ALLOWED_SITES

ARC_DATA

ARC_DIR

ARC_TYPE

archive_base_name

ARCHIVE_CRAWL

ASCENDING

AUX_DOCS

AVERAGE_COLOR

BASIC_SUMMARIZER

BOTH

BREADTH_FIRST

CACHE_PAGE_PARTITION

CACHE_PAGE_VALIDATION_DATA

CACHE_PAGE_VALIDATORS

CACHE_PAGES

CENTROID_SUMMARIZER

CENTROID_WEIGHTED_SUMMARIZER

CHANNEL

CLD_IN_COMMON

CONTENT_SIZE

CONTINUE_STATE

CRAWL_DELAY

CRAWL_INDEX

CRAWL_ORDER

crawl_status_file

CRAWL_TIME

CRAWL_TYPE

current_machine_info_file

CURRENT_SERVER

DATA

DEBUG

DESCENDING

DESCRIPTION

DESCRIPTION_SCORES

DIRECTION

DISALLOWED_SITES

DNS_TIME

DOC_DEPTH

DOC_ID

DOC_INFO

DOC_LEN

DOC_RANK

DOMAIN_WEIGHTS

double_index_base_name

DUMMY

DURATION

ENCODING

END_ITERATOR

FALLBACK_PROCESSOR

FAVICON_URL

FEED_CRAWL_TIME

feed_index_data_base_name

fetch_archive_iterator

fetch_closed_name

fetch_crawl_info

FETCHER_QUEUE_SERVER_RATIO

FILE_NAME

FILETYPE

GENERATION

GRAPH_BASED_SUMMARIZER

HASH

HASH_SEEN_URLS

HASH_URL

HASH_URL_COUNT

HEADER

HEIGHT

HOST_BUDGETING

HTTP_CODE

IMAGE_LINK

INDEX

index_closed_name

CrawlConstants
in

Application