Skip to content

jjjkkyz/New-Pointer-Generator-Networks-for-Summarization-Chinese

 
 

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

8 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

zn

指针生成网络,中文数据集下生成摘要, 详情 https://blog.csdn.net/weixin_46133588/article/details/104419213

改动的地方

原论文的指针生成网络,对于正文和摘要的特征抽取是采用单层(双向)的LSTM进行抽取的,我将其变为Bert的embedding的结构。模型的整体框架没有变动,但是工程上的处理进行了微调。(并非使用了Bert)

中文数据: https://github.com/brightmart/nlp_chinese_corpus 250万篇新闻( 原始数据9G,压缩文件3.6G;新闻内容跨度:2014-2016年) Google Drive下载百度云盘下载,密码:k265

tokenizer

新闻数据集的分词代码

new-point-generate-zh

指针生成网络在新闻数据集下的应用

运行

先是tokenizer python main.py --original_data_dir E:\0000_python\point-genge\point-generate\zh\data --tokenized_dir ./tokenized_single E:\0000_python\point-genge\point-generate\zh\datal是我存放新闻数据的地方 这步需要挺多时间的。

然后进入new-point-generate-zh python main.py --token_data xxx/tokenized --use_coverage --pointer_gen --do_train --do_decode xxx_toenized 是存放分词后的文件夹

#效果 rouge-1 39% rouge-2 15% rouge-l 37%

About

基于transformer的指针生成网络

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Python 93.1%
  • Shell 6.9%