Text Preprocessing

[source]

Tokenizer

keras.preprocessing.text.Tokenizer(num_words=None, filters='!"#$%&()*+,-./:;<=>?@[\\]^_`{|}~\t\n', lower=True, split=' ', char_level=False, oov_token=None, document_count=0)

文本标记化实用程序类.

此类允许通过将每个文本转换成整数序列(每个整数是字典中标记的索引)或转换成矢量(其中每个标记的系数可以是二进制的)的矢量化语料库,基于单词数,基于tf-idf ...

Arguments

  • num_words :保留的最大单词数,基于单词频率. 仅保留最常见的num_words-1单词.
  • filter :一个字符串,其中每个元素都是一个将从文本中过滤掉的字符. 默认值为所有标点符号,加上制表符和换行符,再减去'字符.
  • 较低 :布尔值. 是否将文本转换为小写.
  • 拆分 :str. 用于单词拆分的分隔符.
  • char_level :如果为True,则每个字符都将被视为标记.
  • oov_token :如果给定,它将被添加到word_index中,并在text_to_sequence调用期间用于替换词汇不完整的单词

默认情况下,将删除所有标点符号,从而将文本转换为以空格分隔的单词序列(单词可能包含'字符). 然后将这些序列分成令牌列表. 然后将它们编入索引或向量化.

0是一个保留索引,不会分配给任何单词.


hashing_trick

keras.preprocessing.text.hashing_trick(text, n, hash_function=None, filters='!"#$%&()*+,-./:;<=>?@[\\]^_`{|}~\t\n', lower=True, split=' ')

将文本转换为固定大小的哈希空间中的索引序列.

Arguments

  • text :输入文本(字符串).
  • n :哈希空间的维数.
  • hash_function :默认为python hash函数,可以是'md5'或任何接受输入字符串并返回int的函数. 请注意,'hash'不是稳定的哈希函数,因此它在不同的运行中不一致,而'md5'是稳定的哈希函数.
  • filter :列出(或串联)要过滤掉的字符,例如标点符号. 默认值: !"#$%&()*+,-./:;<=>?@[\]^_`{|}~\t\n ,包括基本标点符号,制表符和换行符.
  • 较低 :布尔值. 是否将文本设置为小写.
  • 拆分 :str. 用于单词拆分的分隔符.

Returns

整数单词索引列表(不保证唯一性).

0是一个保留索引,不会分配给任何单词.

由于哈希函数可能发生冲突,可能会将两个或多个单词分配给同一索引. 冲突的可能性与散列空间的大小和不同对象的数量有关.


one_hot

keras.preprocessing.text.one_hot(text, n, filters='!"#$%&()*+,-./:;<=>?@[\\]^_`{|}~\t\n', lower=True, split=' ')

一键式将文本编码为大小为n的单词索引列表.

这是使用hash作为哈希函数的hashing_trick函数的包装; 不保证单词到索引的映射的唯一性.

Arguments

  • text :输入文本(字符串).
  • n :整数. 词汇量.
  • filter :列出(或串联)要过滤掉的字符,例如标点符号. 默认值: !"#$%&()*+,-./:;<=>?@[\]^_`{|}~\t\n ,包括基本标点符号,制表符和换行符.
  • 较低 :布尔值. 是否将文本设置为小写.
  • 拆分 :str. 用于单词拆分的分隔符.

Returns

[1,n]中的整数列表. 每个整数编码一个单词(不保证唯一性).


text_to_word_sequence

keras.preprocessing.text.text_to_word_sequence(text, filters='!"#$%&()*+,-./:;<=>?@[\\]^_`{|}~\t\n', lower=True, split=' ')

将文本转换为单词(或标记)序列.

Arguments

  • text :输入文本(字符串).
  • filter :列出(或串联)要过滤掉的字符,例如标点符号. 默认值: !"#$%&()*+,-./:;<=>?@[\]^_`{|}~\t\n ,包括基本标点符号,制表符和换行符.
  • 较低 :布尔值. 是否将输入转换为小写.
  • 拆分 :str. 用于单词拆分的分隔符.

Returns

单词(或标记)列表.