【Python机器学习】序列到序列建模——使用序列到序列网络构建一个谈天机器 ...

打印 上一主题 下一主题

主题 1031|帖子 1031|积分 3093

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?立即注册

x
为了寻谈天机器人,下面使用康奈尔电影对话语料库训练一个序列到序列的网络来“适当的”湖大题目或语句。以下谈天机器人示例采用的是Keras blog中的序列到序列的示例。
为训练准备语料库

起首,需要加载语料库并从中生成训练集,训练数据将决定编码器息争码器在训练阶段和生成阶段所支持的字符集。要注意实现代码不支持在训练阶段未包含的字符。使用整个Cornmell Movie Dialog数据集可能需要大量的计算,因为一些序列有高出2000个词条——2000个时间,需要一段时间才能展开。但是大多数对话样本都是基于少于100个字符的。对于本例,可以通过将样本限制为少于100个字符、删除奇怪字符和只答应使用小写字符,对对话语料库举行预处理。通过这些处理,可以限制字符的种类。
下面将遍历语料库文件并生成训练对(技术上来说是三元组形式:输入文本、带有初始词条的目标文本和目标文本)。在阅读语料库时,还将生成一组输入字符和目标字符,然后将使用这些字符对样本举行独热编码。输入字符和目标字符的数目不必完全匹配。但是在生成阶段,不能读取和生成不包含在训练会合的字符。下面的代码给出的结果是输入文本和目标文本(字符串)的两个列表:
  1. from nlpia.loaders import get_data
  2. df=get_data('moviedialog')
  3. #数组保存从语料库文件中读取的输入文本和目标文本
  4. input_texts,target_texts=[],[]
  5. #这个集合保存输入文本和目标文本中出现过的字符
  6. input_vocabulary=set()
  7. output_vocabulary=set()
  8. #目标序列用start和stop词条进行注释,这里定义了表示词条的字符。这些词条不能作为普通序列文本的一部分,而应该仅仅作为初始词条和终止词条而使用
  9. start_token='\t'
  10. stop_token='\n'
  11. #max_training_samples定义了训练使用的行数。它是用户定义的最大值和从文件中加载的总行数中较小的数
  12. max_training_samples=min(25000,len(df)-1)
  13. for input_text,target_text in zip(df.statement,df.reply):
  14.     #target_text需要用起始词条和终止词条进行包装
  15.     target_text=start_token+target_text+stop_token
  16.     input_texts.append(input_text)
  17.     target_texts.append(target_text)
  18.     #编译词汇表——input_text中出现过的唯一字符的集合
  19.     for char in input_text:
  20.         if char not in input_vocabulary:
  21.             input_vocabulary.add(char)
  22.     for char in target_text:
  23.         if char not in output_vocabulary:
  24.             output_vocabulary.add(char)
复制代码
建立字符字典

这里需要将输入文本和目标文本的每个字符转换为表示每个字符的独热向量。为了生成独热向量,需要生成词条字典(用于输入文本和目标文本),其中每个字符都被映射到一个索引。别的,还将生成反向字典(索引映射为字符),在生成阶段将使用该反向字典将生成的索引转换为字符,具体代码:
  1. #将字符集转换为排序后的字符列表,然后使用该列表生成字典
  2. input_vocabulary=sorted(input_vocabulary)
  3. output_vocabulary=sorted(output_vocabulary)
  4. #对于输入数据和目标数据,确定唯一字符的最大数量,用于构建一个独热矩阵
  5. input_vocab_size=len(input_vocabulary)
  6. output_vocab_size=len(output_vocabulary)
  7. #对于输入数据和目标数据,还需确定序列词条的最大数量
  8. max_encoder_seq_length=max([len(txt) for txt in input_texts])
  9. max_decoder_seq_length=max([len(txt) for txt in target_texts])
  10. #循环遍历input_vocabulary和output_vocabulary来创建查找字典,用于生成独热向量
  11. input_token_index=dict([(char,i) for i,char in enumerate(input_vocabulary)])
  12. target_token_index=dict([(char,i) for i,char in enumerate(output_vocabulary)])
  13. #循环变量新创建的字典以创建反向查找表
  14. reverse_input_char_index=dict((i,char) for char,i in input_token_index.items())
  15. reverse_target_char_index=dict((i,char) for char,i in target_token_index.items())
复制代码
生成独热编码训练集

下一步,将输入文本和目标文本转换为独热编码的“张量”。为了做到这一点,需要循环遍历每个输入样本和目标样本以及每个样本的每个字符,并对每个字符举行独热编码。每个字符由一个n*1向量编码(其中n是唯一的输入字符或目标字符的个数),然后针对每个样本将全部向量组合以创建一个矩阵,并将全部样本组合以创建要训练的张量。具体代码:
  1. import numpy as np
  2. encoder_input_data=np.zeros((len(input_texts),max_encoder_seq_length,input_vocab_size),dtype='float32')
  3. #训练的张量初始化形状为(num_samples,max_len_sequence,num_unique_tokens_in_vocab)的零张量
  4. decoder_input_data=np.zeros((len(input_texts),max_decoder_seq_length,output_vocab_size),dtype='float32')
  5. decoder_target_data=np.zeros((len(input_texts),max_decoder_seq_length,output_vocab_size),dtype='float32')
  6. #对训练样本进行寻遍历,输入文本和目标文本需要对应
  7. for i , (input_text,target_text) in enumerate(zip(input_texts,target_texts)):
  8.     #循环遍历每个样本的每个字符
  9.     for t,char in enumerate(input_text):
  10.         encoder_input_data[i,t,input_token_index[char]]=1
  11.     #对解码器的训练数据,这里将创建decoder_input_data和decoder_target_data
  12.     for t,char in enumerate(target_text):
  13.         decoder_input_data[i,t,target_token_index[char]]=1
  14.         if t>0:
  15.             decoder_target_data[i,t-1,target_token_index[char]]=1
复制代码
训练序列到序列谈天机器人

完成全部准备训练集的工作——将预处理的语料库转换为输入样本和目标样本,创建索引查询字典,并将样本转换为独热张量之后,下面就是训练谈天机器人了。
一旦model.fit函数完成了训练,下面就拥有了一个基于序列到序列的完全训练好的谈天机器人:
  1. from keras.api.models import Model
  2. from keras.api.layers import Input,LSTM,Dense
  3. #批处理大小为64个样本,增加批处理大小可以加快训练速度,但也需要更多的内存
  4. batch_size=64
  5. #100个训练周期
  6. epochs=100
  7. #神经元维数设置为256
  8. num_neurons=256
  9. encoder_inputs=Input(shape=(None,input_vocab_size))
  10. encoder=LSTM(num_neurons,return_state=True)
  11. encoder_outputs,state_h,state_c=encoder(encoder_inputs)
  12. encoder_states=[state_h,state_c]
  13. decoder_inputs=Input(shape=(None,output_vocab_size))
  14. decoder_lstm=LSTM(num_neurons,return_sequences=True,return_state=True)
  15. decoder_outputs,_,_=decoder_lstm(decoder_inputs,initial_state=encoder_states)
  16. decoder_dense=Dense(output_vocab_size,activation='softmax')
  17. decoder_outputs=decoder_dense(decoder_outputs)
  18. model=Model([encoder_inputs,decoder_inputs],decoder_outputs)
  19. model.compile(optimizer='rmsprop',loss='categorical_crossentropy',metrics=['acc'])
  20. model.fit([encoder_input_data,decoder_input_data],
  21.           decoder_target_data,
  22.           batch_size=batch_size,
  23.           epochs=epochs,
  24.           validation_split=0.1)
复制代码
但是训练的时间会非常长,100次训练的时间可能达到了10小时以上:

组装序列生成模型

因为没有特定的目标文本和状态输入解码器,以是所拥有的只是输入和一个初始词条,下面开始组装序列生成模型:
  1. encoder_model=Model(encoder_inputs,encoder_states)
  2. thought_input=[
  3.     Input(shape=(num_neurons,)),Input(shape=(num_neurons,))
  4. ]
  5. decoder_outputs,state_h,state_c=decoder_lstm(decoder_inputs,initial=thought_input)
  6. decoder_states=[state_h,state_c]
  7. decoder_outputs=decoder_dense(decoder_outputs)
  8. decoder_model=Model(
  9.     inputs=[decoder_inputs]+thought_input,
  10.     output=[decoder_outputs]+decoder_states
  11. )
复制代码
预测输出序列

decoder_sequence函数是谈天机器人生成回复的核心。它接受独热编码的输入序列,生成思想向量,并使用思想向量通过之前训练好的网络生成符合的回复:
  1. def decode_sequence(input_seq):
  2.     #生成思想向量作为解码器的输入
  3.     thought=encoder_model.predict(input_seq)
  4.    
  5.     #与训练相反,target_seq一开始是一个零张量
  6.     target_seq=np.zeros((1,1,output_vocab_size))
  7.     #解码器的第一个输入词条是初始词条
  8.     target_seq[0,0,target_token_index[stop_token]]=1.0
  9.     stop_condition=False
  10.     generated_sequence=''
  11.     while not stop_condition:
  12.         #将已生成的词条和最新状态传递给解码器,以预测下一个序列
  13.         output_tokens,h,c=decoder_model.predict([target_seq]+thought)
  14.         generated_token_idx=np.argmax(output_tokens[0,-1:])
  15.         generated_char=reverse_target_char_index[generated_token_idx]
  16.         generated_sequence=generated_sequence+generated_char
  17.         if (generated_char==stop_token or len(generated_sequence)>max_decoder_seq_length):
  18.             #将stop_condition设置为True将停止循环
  19.             stop_condition=True
  20.         # 更新目标序列,并使用最后生成的词条作为下一生成步骤的输入
  21.         target_seq=np.zeros((1,1,output_vocab_size))
  22.         target_seq[0,0,generated_token_idx]=1.0
  23.         #更新思想向量状态
  24.         thought=[h,c]
  25.     return generated_sequence
复制代码
生成回复

现在,定义一个辅助函数response(),用于将输入字符串(例如来自用户的语句)转换为谈天机器人的回复。该函数起首将用户输入的文本转换为由独热编码向量组成的序列。然后将这个独热向量的张量传递给前面定义的decode_sequence()函数。它将输入文本编码成思想向量,并将这些思想向量生成文本:
  1. def responce(input_text):
  2.     input_seq=np.zeros((1,max_encoder_seq_length,input_vocab_size),dtype='float32')
  3.     for t,char in enumerate(input_text):
  4.         input_seq[0,t,input_token_index[char]]=1.0
  5.     decode_sentence=decode_sequence(input_seq)
  6.     print('回复:',decode_sentence)
复制代码
与谈天机器人攀谈

上面已经完成了训练和测试谈天机器人的全部须要步骤,下面就可以实验沟通:
  1. responce("what id the internet?")
复制代码


免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

tsx81429

论坛元老
这个人很懒什么都没写!
快速回复 返回顶部 返回列表