001 算法实战 | 文本转word id list

标签: 算法实战更新于: 2018/11/26 阅读:670 原文发表于：2018-12-02

# coding: utf8

import pandas as pd
import jieba
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences


def text2words(text):
    return "#BEGIN " + " ".join([word.lower() for word in jieba.cut(text)]) + " #END"


train = pd.read_csv("input/train.csv", header=None, sep="\t")
train[0] = train[0].apply(text2words)
tokenizer = Tokenizer(num_words=None)
tokenizer.fit_on_texts(train[0].tolist())
sequences = tokenizer.texts_to_sequences(train[0])
train_features = pad_sequences(sequences, maxlen=15)

001 算法实战 | 文本转word id list

算法实战相关文章

最近热门

最常浏览