-
Notifications
You must be signed in to change notification settings - Fork 0
/
process_res.py
105 lines (94 loc) · 22.9 KB
/
process_res.py
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
#!/usr/bin/env python
# -*- coding: utf-8 -*-
import sys
import os
from time import time
import gl
from string import ascii_lowercase
import codecs
import re
'''
把问题和答案处理为可以标注关系的模式
读取../data/Baike/testing/中的问答对,再读../data/res/kbqa/中的问题和提取的关系,整理为如下格式:
王姓从何而来? 王姓迁徙史迁徙布 王姓早发祥应今河南北部卫辉带并山西、山东、河南省境其繁衍区 汉至晋王姓迅速发展现太原、琅邪两郡望仍原区西晋讲究土族门第王氏列北四士族崔、卢、王、谢种状况直延续隋唐 自西晋耒王姓始自原举南迁相继今江游湖北、江苏、浙江等定居 隋唐五代期王姓进步发展并且向东南沿海或西南区迁徙唐末王潮、王审知两兄弟率兵入闽称闽王氏其布于福建、广东、浙江等 宋代王姓繁衍迁徙新发展三槐王氏迅速崛起世代显贵终发展北宋除皇室外显赫家族宋代王姓遍及全各 王姓秦汉期基本今山西芮城、夏县、蒲县、平陆、河南封、虞城、淮县陕西咸阳山东淄博等姓王裔则由河南卫辉迁至今甘肃水、山东东平、河南新蔡、新野、焦作等两汉期始现新朝皇帝王莽名元城(今河北省名)王姓琅琊王姓西汉谏议夫王吉基祖;太原王姓东汉征士王霸基祖晋阳支(三魏司空王昶基)祁县支(三王允基)魏晋南北朝期五胡乱华少数民族改王姓入主原琅琊王姓裔王导王敦兄弟辅佐司马睿建立东晋称王与(司)马共太原王姓祁县支司马懿专权遭受灭顶灾隋灭陈原仕于南朝琅邪王姓别迁于关、河北、河东等唐末琅邪王姓裔王潮王审知兄弟南迁福建建立闽由王审知誉闽第北宋灭三槐王姓(唐末黎阳〈今河南省浚县〉令王言基祖)少迁居江浙带尤江苏昆山支贤才辈望族元末战乱明末张献忠屠川造口锐减形著名江西填湖广、湖广填四川运同明太祖朱元璋强令山西外迁洪洞槐树集结山西别迁于河南、河北、山东、江苏、浙江、甘肃等于太原王三槐王等原区更广泛布另外闽王姓漂洋海扬帆南洋著名湘潭王姓源于太原王姓沙王源于江南亢王姓海宁王氏即清末者王维所家族王姓南北布平衡江北区约占北汉族口百八点八第姓南区仅占百四点五第四姓全汉族内蒙古王姓比例高广东低王姓今姓氏排行第二位姓拥口近亿约占全汉族口百七点四 ■王姓家谱介绍 修谱 南北朝兴起谱牒量古代姓氏族谱已经亡佚今藏于全各图书馆及手王姓家谱族谱绝部近代重修续修些家谱族谱应归于近现代文献 从何而来 连载网站 晋江文学城
王姓从何而来? 王姓迁徙史迁徙布 王姓早发祥应今河南北部卫辉带并山西、山东、河南省境其繁衍区 汉至晋王姓迅速发展现太原、琅邪两郡望仍原区西晋讲究土族门第王氏列北四士族崔、卢、王、谢种状况直延续隋唐 自西晋耒王姓始自原举南迁相继今江游湖北、江苏、浙江等定居 隋唐五代期王姓进步发展并且向东南沿海或西南区迁徙唐末王潮、王审知两兄弟率兵入闽称闽王氏其布于福建、广东、浙江等 宋代王姓繁衍迁徙新发展三槐王氏迅速崛起世代显贵终发展北宋除皇室外显赫家族宋代王姓遍及全各 王姓秦汉期基本今山西芮城、夏县、蒲县、平陆、河南封、虞城、淮县陕西咸阳山东淄博等姓王裔则由河南卫辉迁至今甘肃水、山东东平、河南新蔡、新野、焦作等两汉期始现新朝皇帝王莽名元城(今河北省名)王姓琅琊王姓西汉谏议夫王吉基祖;太原王姓东汉征士王霸基祖晋阳支(三魏司空王昶基)祁县支(三王允基)魏晋南北朝期五胡乱华少数民族改王姓入主原琅琊王姓裔王导王敦兄弟辅佐司马睿建立东晋称王与(司)马共太原王姓祁县支司马懿专权遭受灭顶灾隋灭陈原仕于南朝琅邪王姓别迁于关、河北、河东等唐末琅邪王姓裔王潮王审知兄弟南迁福建建立闽由王审知誉闽第北宋灭三槐王姓(唐末黎阳〈今河南省浚县〉令王言基祖)少迁居江浙带尤江苏昆山支贤才辈望族元末战乱明末张献忠屠川造口锐减形著名江西填湖广、湖广填四川运同明太祖朱元璋强令山西外迁洪洞槐树集结山西别迁于河南、河北、山东、江苏、浙江、甘肃等于太原王三槐王等原区更广泛布另外闽王姓漂洋海扬帆南洋著名湘潭王姓源于太原王姓沙王源于江南亢王姓海宁王氏即清末者王维所家族王姓南北布平衡江北区约占北汉族口百八点八第姓南区仅占百四点五第四姓全汉族内蒙古王姓比例高广东低王姓今姓氏排行第二位姓拥口近亿约占全汉族口百七点四 ■王姓家谱介绍 修谱 南北朝兴起谱牒量古代姓氏族谱已经亡佚今藏于全各图书馆及手王姓家谱族谱绝部近代重修续修些家谱族谱应归于近现代文献 从何而来 BaiduTAG 文学书籍
王姓从何而来? 王姓迁徙史迁徙布 王姓早发祥应今河南北部卫辉带并山西、山东、河南省境其繁衍区 汉至晋王姓迅速发展现太原、琅邪两郡望仍原区西晋讲究土族门第王氏列北四士族崔、卢、王、谢种状况直延续隋唐 自西晋耒王姓始自原举南迁相继今江游湖北、江苏、浙江等定居 隋唐五代期王姓进步发展并且向东南沿海或西南区迁徙唐末王潮、王审知两兄弟率兵入闽称闽王氏其布于福建、广东、浙江等 宋代王姓繁衍迁徙新发展三槐王氏迅速崛起世代显贵终发展北宋除皇室外显赫家族宋代王姓遍及全各 王姓秦汉期基本今山西芮城、夏县、蒲县、平陆、河南封、虞城、淮县陕西咸阳山东淄博等姓王裔则由河南卫辉迁至今甘肃水、山东东平、河南新蔡、新野、焦作等两汉期始现新朝皇帝王莽名元城(今河北省名)王姓琅琊王姓西汉谏议夫王吉基祖;太原王姓东汉征士王霸基祖晋阳支(三魏司空王昶基)祁县支(三王允基)魏晋南北朝期五胡乱华少数民族改王姓入主原琅琊王姓裔王导王敦兄弟辅佐司马睿建立东晋称王与(司)马共太原王姓祁县支司马懿专权遭受灭顶灾隋灭陈原仕于南朝琅邪王姓别迁于关、河北、河东等唐末琅邪王姓裔王潮王审知兄弟南迁福建建立闽由王审知誉闽第北宋灭三槐王姓(唐末黎阳〈今河南省浚县〉令王言基祖)少迁居江浙带尤江苏昆山支贤才辈望族元末战乱明末张献忠屠川造口锐减形著名江西填湖广、湖广填四川运同明太祖朱元璋强令山西外迁洪洞槐树集结山西别迁于河南、河北、山东、江苏、浙江、甘肃等于太原王三槐王等原区更广泛布另外闽王姓漂洋海扬帆南洋著名湘潭王姓源于太原王姓沙王源于江南亢王姓海宁王氏即清末者王维所家族王姓南北布平衡江北区约占北汉族口百八点八第姓南区仅占百四点五第四姓全汉族内蒙古王姓比例高广东低王姓今姓氏排行第二位姓拥口近亿约占全汉族口百七点四 ■王姓家谱介绍 修谱 南北朝兴起谱牒量古代姓氏族谱已经亡佚今藏于全各图书馆及手王姓家谱族谱绝部近代重修续修些家谱族谱应归于近现代文献 从何而来 BaiduTAG 文学作品
王姓从何而来? 王姓迁徙史迁徙布 王姓早发祥应今河南北部卫辉带并山西、山东、河南省境其繁衍区 汉至晋王姓迅速发展现太原、琅邪两郡望仍原区西晋讲究土族门第王氏列北四士族崔、卢、王、谢种状况直延续隋唐 自西晋耒王姓始自原举南迁相继今江游湖北、江苏、浙江等定居 隋唐五代期王姓进步发展并且向东南沿海或西南区迁徙唐末王潮、王审知两兄弟率兵入闽称闽王氏其布于福建、广东、浙江等 宋代王姓繁衍迁徙新发展三槐王氏迅速崛起世代显贵终发展北宋除皇室外显赫家族宋代王姓遍及全各 王姓秦汉期基本今山西芮城、夏县、蒲县、平陆、河南封、虞城、淮县陕西咸阳山东淄博等姓王裔则由河南卫辉迁至今甘肃水、山东东平、河南新蔡、新野、焦作等两汉期始现新朝皇帝王莽名元城(今河北省名)王姓琅琊王姓西汉谏议夫王吉基祖;太原王姓东汉征士王霸基祖晋阳支(三魏司空王昶基)祁县支(三王允基)魏晋南北朝期五胡乱华少数民族改王姓入主原琅琊王姓裔王导王敦兄弟辅佐司马睿建立东晋称王与(司)马共太原王姓祁县支司马懿专权遭受灭顶灾隋灭陈原仕于南朝琅邪王姓别迁于关、河北、河东等唐末琅邪王姓裔王潮王审知兄弟南迁福建建立闽由王审知誉闽第北宋灭三槐王姓(唐末黎阳〈今河南省浚县〉令王言基祖)少迁居江浙带尤江苏昆山支贤才辈望族元末战乱明末张献忠屠川造口锐减形著名江西填湖广、湖广填四川运同明太祖朱元璋强令山西外迁洪洞槐树集结山西别迁于河南、河北、山东、江苏、浙江、甘肃等于太原王三槐王等原区更广泛布另外闽王姓漂洋海扬帆南洋著名湘潭王姓源于太原王姓沙王源于江南亢王姓海宁王氏即清末者王维所家族王姓南北布平衡江北区约占北汉族口百八点八第姓南区仅占百四点五第四姓全汉族内蒙古王姓比例高广东低王姓今姓氏排行第二位姓拥口近亿约占全汉族口百七点四 ■王姓家谱介绍 修谱 南北朝兴起谱牒量古代姓氏族谱已经亡佚今藏于全各图书馆及手王姓家谱族谱绝部近代重修续修些家谱族谱应归于近现代文献 从何而来 BaiduTAG 小说作品
王姓从何而来? 王姓迁徙史迁徙布 王姓早发祥应今河南北部卫辉带并山西、山东、河南省境其繁衍区 汉至晋王姓迅速发展现太原、琅邪两郡望仍原区西晋讲究土族门第王氏列北四士族崔、卢、王、谢种状况直延续隋唐 自西晋耒王姓始自原举南迁相继今江游湖北、江苏、浙江等定居 隋唐五代期王姓进步发展并且向东南沿海或西南区迁徙唐末王潮、王审知两兄弟率兵入闽称闽王氏其布于福建、广东、浙江等 宋代王姓繁衍迁徙新发展三槐王氏迅速崛起世代显贵终发展北宋除皇室外显赫家族宋代王姓遍及全各 王姓秦汉期基本今山西芮城、夏县、蒲县、平陆、河南封、虞城、淮县陕西咸阳山东淄博等姓王裔则由河南卫辉迁至今甘肃水、山东东平、河南新蔡、新野、焦作等两汉期始现新朝皇帝王莽名元城(今河北省名)王姓琅琊王姓西汉谏议夫王吉基祖;太原王姓东汉征士王霸基祖晋阳支(三魏司空王昶基)祁县支(三王允基)魏晋南北朝期五胡乱华少数民族改王姓入主原琅琊王姓裔王导王敦兄弟辅佐司马睿建立东晋称王与(司)马共太原王姓祁县支司马懿专权遭受灭顶灾隋灭陈原仕于南朝琅邪王姓别迁于关、河北、河东等唐末琅邪王姓裔王潮王审知兄弟南迁福建建立闽由王审知誉闽第北宋灭三槐王姓(唐末黎阳〈今河南省浚县〉令王言基祖)少迁居江浙带尤江苏昆山支贤才辈望族元末战乱明末张献忠屠川造口锐减形著名江西填湖广、湖广填四川运同明太祖朱元璋强令山西外迁洪洞槐树集结山西别迁于河南、河北、山东、江苏、浙江、甘肃等于太原王三槐王等原区更广泛布另外闽王姓漂洋海扬帆南洋著名湘潭王姓源于太原王姓沙王源于江南亢王姓海宁王氏即清末者王维所家族王姓南北布平衡江北区约占北汉族口百八点八第姓南区仅占百四点五第四姓全汉族内蒙古王姓比例高广东低王姓今姓氏排行第二位姓拥口近亿约占全汉族口百七点四 ■王姓家谱介绍 修谱 南北朝兴起谱牒量古代姓氏族谱已经亡佚今藏于全各图书馆及手王姓家谱族谱绝部近代重修续修些家谱族谱应归于近现代文献 从何而来 小说进度 连载
王姓从何而来? 王姓迁徙史迁徙布 王姓早发祥应今河南北部卫辉带并山西、山东、河南省境其繁衍区 汉至晋王姓迅速发展现太原、琅邪两郡望仍原区西晋讲究土族门第王氏列北四士族崔、卢、王、谢种状况直延续隋唐 自西晋耒王姓始自原举南迁相继今江游湖北、江苏、浙江等定居 隋唐五代期王姓进步发展并且向东南沿海或西南区迁徙唐末王潮、王审知两兄弟率兵入闽称闽王氏其布于福建、广东、浙江等 宋代王姓繁衍迁徙新发展三槐王氏迅速崛起世代显贵终发展北宋除皇室外显赫家族宋代王姓遍及全各 王姓秦汉期基本今山西芮城、夏县、蒲县、平陆、河南封、虞城、淮县陕西咸阳山东淄博等姓王裔则由河南卫辉迁至今甘肃水、山东东平、河南新蔡、新野、焦作等两汉期始现新朝皇帝王莽名元城(今河北省名)王姓琅琊王姓西汉谏议夫王吉基祖;太原王姓东汉征士王霸基祖晋阳支(三魏司空王昶基)祁县支(三王允基)魏晋南北朝期五胡乱华少数民族改王姓入主原琅琊王姓裔王导王敦兄弟辅佐司马睿建立东晋称王与(司)马共太原王姓祁县支司马懿专权遭受灭顶灾隋灭陈原仕于南朝琅邪王姓别迁于关、河北、河东等唐末琅邪王姓裔王潮王审知兄弟南迁福建建立闽由王审知誉闽第北宋灭三槐王姓(唐末黎阳〈今河南省浚县〉令王言基祖)少迁居江浙带尤江苏昆山支贤才辈望族元末战乱明末张献忠屠川造口锐减形著名江西填湖广、湖广填四川运同明太祖朱元璋强令山西外迁洪洞槐树集结山西别迁于河南、河北、山东、江苏、浙江、甘肃等于太原王三槐王等原区更广泛布另外闽王姓漂洋海扬帆南洋著名湘潭王姓源于太原王姓沙王源于江南亢王姓海宁王氏即清末者王维所家族王姓南北布平衡江北区约占北汉族口百八点八第姓南区仅占百四点五第四姓全汉族内蒙古王姓比例高广东低王姓今姓氏排行第二位姓拥口近亿约占全汉族口百七点四 ■王姓家谱介绍 修谱 南北朝兴起谱牒量古代姓氏族谱已经亡佚今藏于全各图书馆及手王姓家谱族谱绝部近代重修续修些家谱族谱应归于近现代文献 从何而来 中文名 从何而来
王姓从何而来? 王姓迁徙史迁徙布 王姓早发祥应今河南北部卫辉带并山西、山东、河南省境其繁衍区 汉至晋王姓迅速发展现太原、琅邪两郡望仍原区西晋讲究土族门第王氏列北四士族崔、卢、王、谢种状况直延续隋唐 自西晋耒王姓始自原举南迁相继今江游湖北、江苏、浙江等定居 隋唐五代期王姓进步发展并且向东南沿海或西南区迁徙唐末王潮、王审知两兄弟率兵入闽称闽王氏其布于福建、广东、浙江等 宋代王姓繁衍迁徙新发展三槐王氏迅速崛起世代显贵终发展北宋除皇室外显赫家族宋代王姓遍及全各 王姓秦汉期基本今山西芮城、夏县、蒲县、平陆、河南封、虞城、淮县陕西咸阳山东淄博等姓王裔则由河南卫辉迁至今甘肃水、山东东平、河南新蔡、新野、焦作等两汉期始现新朝皇帝王莽名元城(今河北省名)王姓琅琊王姓西汉谏议夫王吉基祖;太原王姓东汉征士王霸基祖晋阳支(三魏司空王昶基)祁县支(三王允基)魏晋南北朝期五胡乱华少数民族改王姓入主原琅琊王姓裔王导王敦兄弟辅佐司马睿建立东晋称王与(司)马共太原王姓祁县支司马懿专权遭受灭顶灾隋灭陈原仕于南朝琅邪王姓别迁于关、河北、河东等唐末琅邪王姓裔王潮王审知兄弟南迁福建建立闽由王审知誉闽第北宋灭三槐王姓(唐末黎阳〈今河南省浚县〉令王言基祖)少迁居江浙带尤江苏昆山支贤才辈望族元末战乱明末张献忠屠川造口锐减形著名江西填湖广、湖广填四川运同明太祖朱元璋强令山西外迁洪洞槐树集结山西别迁于河南、河北、山东、江苏、浙江、甘肃等于太原王三槐王等原区更广泛布另外闽王姓漂洋海扬帆南洋著名湘潭王姓源于太原王姓沙王源于江南亢王姓海宁王氏即清末者王维所家族王姓南北布平衡江北区约占北汉族口百八点八第姓南区仅占百四点五第四姓全汉族内蒙古王姓比例高广东低王姓今姓氏排行第二位姓拥口近亿约占全汉族口百七点四 ■王姓家谱介绍 修谱 南北朝兴起谱牒量古代姓氏族谱已经亡佚今藏于全各图书馆及手王姓家谱族谱绝部近代重修续修些家谱族谱应归于近现代文献 从何而来 BaiduTAG 小说
王姓从何而来? 王姓迁徙史迁徙布 王姓早发祥应今河南北部卫辉带并山西、山东、河南省境其繁衍区 汉至晋王姓迅速发展现太原、琅邪两郡望仍原区西晋讲究土族门第王氏列北四士族崔、卢、王、谢种状况直延续隋唐 自西晋耒王姓始自原举南迁相继今江游湖北、江苏、浙江等定居 隋唐五代期王姓进步发展并且向东南沿海或西南区迁徙唐末王潮、王审知两兄弟率兵入闽称闽王氏其布于福建、广东、浙江等 宋代王姓繁衍迁徙新发展三槐王氏迅速崛起世代显贵终发展北宋除皇室外显赫家族宋代王姓遍及全各 王姓秦汉期基本今山西芮城、夏县、蒲县、平陆、河南封、虞城、淮县陕西咸阳山东淄博等姓王裔则由河南卫辉迁至今甘肃水、山东东平、河南新蔡、新野、焦作等两汉期始现新朝皇帝王莽名元城(今河北省名)王姓琅琊王姓西汉谏议夫王吉基祖;太原王姓东汉征士王霸基祖晋阳支(三魏司空王昶基)祁县支(三王允基)魏晋南北朝期五胡乱华少数民族改王姓入主原琅琊王姓裔王导王敦兄弟辅佐司马睿建立东晋称王与(司)马共太原王姓祁县支司马懿专权遭受灭顶灾隋灭陈原仕于南朝琅邪王姓别迁于关、河北、河东等唐末琅邪王姓裔王潮王审知兄弟南迁福建建立闽由王审知誉闽第北宋灭三槐王姓(唐末黎阳〈今河南省浚县〉令王言基祖)少迁居江浙带尤江苏昆山支贤才辈望族元末战乱明末张献忠屠川造口锐减形著名江西填湖广、湖广填四川运同明太祖朱元璋强令山西外迁洪洞槐树集结山西别迁于河南、河北、山东、江苏、浙江、甘肃等于太原王三槐王等原区更广泛布另外闽王姓漂洋海扬帆南洋著名湘潭王姓源于太原王姓沙王源于江南亢王姓海宁王氏即清末者王维所家族王姓南北布平衡江北区约占北汉族口百八点八第姓南区仅占百四点五第四姓全汉族内蒙古王姓比例高广东低王姓今姓氏排行第二位姓拥口近亿约占全汉族口百七点四 ■王姓家谱介绍 修谱 南北朝兴起谱牒量古代姓氏族谱已经亡佚今藏于全各图书馆及手王姓家谱族谱绝部近代重修续修些家谱族谱应归于近现代文献 从何而来 作者 pp
==================================================
可以粘贴到excel中,用于标注
'''
reload(sys)
sys.setdefaultencoding('utf8')
class ProcessResMerge:
def __init__(self):
self.question_no = 0
def get_qa_pairs(self, fq_file_name, fa_file_name):
print 'processing file', fq_file_name
fq = codecs.open(fq_file_name, 'r', encoding='utf-8')
fa = codecs.open(fa_file_name, 'r', encoding='utf-8')
fq_document = ''.join([x for x in fq.readlines()])
fq_pairs = fq_document.split('==================================================')
fa_document = ''.join([x for x in fa.readlines()])
fa_pairs = fa_document.split('====================================')
fa_pair_dict = {}
for idx, fa in enumerate(fa_pairs):
tmp = fa.split('\n')
for tt in tmp:
am = re.search('<answer id=(\d+)>\t(.*)', tt)
if am:
fa_pair_dict[am.groups()[0]] = {'answer': tt}
# for test in xrange(1, 1700):
# print fa_pair_dict[str(test)]
fnew = codecs.open(fq_file_name + '-format', 'w', encoding='utf-8')
self.question_no += len(fq_pairs)
for qa in fq_pairs:
triples = qa.split('---------------------------------------------')
if len(triples) == 0 or triples[0] == '':
continue
# print triples[0]
m = re.search('<question id=(\d+)>\t(.*)', triples[0].strip('\n'))
if m:
question_idx = m.groups()[0]
question_txt = m.groups()[1]
try:
# fnew.write(triples[0])
# fnew.write(fa_pair_dict[str(question_idx)]['answer'] + '\n')
triples = triples[1:11]
for triple in triples:
# fnew.write('---------------------------------------------')
# fnew.write(triple)
# pass
threearr = triple.split('\n')
print fa_pair_dict[str(question_idx)]['answer'].split('\t')
answer_txt = fa_pair_dict[str(question_idx)]['answer'].split('\t')[1]
fnew.write(question_txt + '\t' +
answer_txt + '\t' +
threearr[1].split('\t')[1] + '\t' +
threearr[2].split('\t')[1] + '\t' +
threearr[3].split('\t')[1] + '\n')
fnew.write('==================================================\n')
except Exception as e:
print e
print 'no answer found', question_idx
else:
print triples[0]
print 'no'
print 'generating file', fq_file_name + '-format'
if __name__ == '__main__':
prm = ProcessResMerge()
for fidx in xrange(20):
folder_idx = 's_' + str("%04d" % fidx) + '/'
for x in ascii_lowercase:
res_file_name = gl.res_data_file_folder + folder_idx + 'zhidao_xa' + x + '.res-data'
ques_file_name = gl.zhidao_testing_data_folder_name + folder_idx + 'zhidao_xa' + x + '.fact.testing-data'
if not os.path.isfile(res_file_name):
print 'not exist', res_file_name
continue
if not os.path.isfile(ques_file_name):
continue
prm.get_qa_pairs(res_file_name, ques_file_name)
# break