forked from spraakbanken/sparv-docs
-
Notifications
You must be signed in to change notification settings - Fork 0
Commit
This commit does not belong to any branch on this repository, and may belong to a fork outside of the repository.
add korpusimport.md from old korp-doc repo
- Loading branch information
Showing
3 changed files
with
89 additions
and
1 deletion.
There are no files selected for viewing
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
Original file line number | Diff line number | Diff line change |
---|---|---|
@@ -0,0 +1,25 @@ | ||
<!--##Körning av eget material på koala--> | ||
<p>Syftet med det här dokumentet är att förklara hur man kör eget material genom importkedjan om man har tillgång till Språkbankens Subversion-repositorium och ett användarkonto på servern koala.</p> | ||
<p>Det är möjligt att köra eget material genom Språkbankens korpusimportkedja, och att få det annoterat med alla de annoteringar som används för korpusarna i Korp. Resultatet får du i antingen ett tabbseparerat format eller XML.</p> | ||
<p>Följande krav ställs på ditt textmaterial:</p> | ||
<ul> | ||
<li>Filerna måste vara i UTF-8.</li> | ||
<li>Formatet måste vara XML-liknande, med åtminstone en start- och sluttagg som omsluter texten. Det räcker med något så simpelt som <code><text> ... </text></code>.</li> | ||
<li>Varje enskild fil får inte vara för stor. Är de över 20 MB bör de delas upp i mindre filer.</li> | ||
</ul> | ||
<p>Se även <a href="https://spraakbanken.gu.se/swe/forskning/infrastruktur/sparv/indataformat">här</a> för mer information om indataformatet.</p> | ||
<h3 id="tillvägagångssätt">Tillvägagångssätt</h3> | ||
<p>Logga in på koala, och börja med att sätta följande miljövariabel:</p> | ||
<pre><code> export SPARV_MAKEFILES=/export/res/lb/korpus/tools/annotate/makefiles</code></pre> | ||
<p>Förslagsvis skapar du sen en katalog under din hemkatalog, i vilken alla arbetsfiler kommer ligga. Navigera till denna katalog, och hämta sedan hem följande exempel-Makefile ur Subversion:</p> | ||
<pre><code> svn export https://svn.spraakdata.gu.se/sb-arkiv/tools/annotate/makefiles/Makefile.example Makefile</code></pre> | ||
<p>Därefter skapar du en underkatalog i vilken du lägger de XML-filer som utgör ditt textmaterial.</p> | ||
<p>Det sista du måste göra är att redigera filen Makefile för att anpassa den efter ditt material. I oredigerat tillstånd utgår den från att XML-filerna ligger i en katalog med namnet "original", och att all text i dessa filer är omsluten av <code><text> ... </text></code>. Detta ändras lätt genom att ändra värdena för "original_dir" respektive "xml_elements" i makefilen. För en beskrivning av alla inställningsmöjligheter som finns kan du hämta hem följande version av makefilen, innehållande kommentarer till varje rad:</p> | ||
<pre><code> svn export https://svn.spraakdata.gu.se/sb-arkiv/tools/annotate/makefiles/Makefile.template</code></pre> | ||
<p>När du redigerat din Makefile är det färdigt för att köras. För att exportera till XML-format kör du kommandot</p> | ||
<pre><code> make export</code></pre> | ||
<p>vilket i slutändan leder till att du har det färdiga materialet i katalogen "export" (som skapas automatiskt). Vill du hellre använda det tabbseparerade formatet så kör du i stället</p> | ||
<pre><code> make vrt</code></pre> | ||
<p>och dessa vrt-filer hamnar då i katalogen "annotations" tillsammans med alla andra arbetsfiler.</p> | ||
<p>Om du lägger till eller tar bort källfiler efter en körning och vill köra om, så måste du uppdatera registret över filer genom att köra följande:</p> | ||
<pre><code> make add</code></pre> |
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
Original file line number | Diff line number | Diff line change |
---|---|---|
@@ -0,0 +1,63 @@ | ||
<!--##Körning av eget material på koala--> | ||
Syftet med det här dokumentet är att förklara hur man kör eget material genom | ||
importkedjan om man har tillgång till Språkbankens Subversion-repositorium och | ||
ett användarkonto på servern koala. | ||
|
||
Det är möjligt att köra eget material genom Språkbankens korpusimportkedja, och | ||
att få det annoterat med alla de annoteringar som används för korpusarna i Korp. | ||
Resultatet får du i antingen ett tabbseparerat format eller XML. | ||
|
||
Följande krav ställs på ditt textmaterial: | ||
|
||
* Filerna måste vara i UTF-8. | ||
* Formatet måste vara XML-liknande, med åtminstone en start- och sluttagg som | ||
omsluter texten. Det räcker med något så simpelt som `<text> ... </text>`. | ||
* Varje enskild fil får inte vara för stor. Är de över 20 MB bör de delas upp | ||
i mindre filer. | ||
|
||
Se även [här](https://spraakbanken.gu.se/swe/forskning/infrastruktur/sparv/indataformat) | ||
för mer information om indataformatet. | ||
|
||
###Tillvägagångssätt | ||
|
||
Logga in på koala, och börja med att sätta följande miljövariabel: | ||
|
||
export SPARV_MAKEFILES=/export/res/lb/korpus/tools/annotate/makefiles | ||
|
||
Förslagsvis skapar du sen en katalog under din hemkatalog, i vilken alla | ||
arbetsfiler kommer ligga. Navigera till denna katalog, och hämta sedan hem följande | ||
exempel-Makefile ur Subversion: | ||
|
||
svn export https://svn.spraakdata.gu.se/sb-arkiv/tools/annotate/makefiles/Makefile.example Makefile | ||
|
||
Därefter skapar du en underkatalog i vilken du lägger de XML-filer som utgör | ||
ditt textmaterial. | ||
|
||
Det sista du måste göra är att redigera filen Makefile för att anpassa den efter ditt | ||
material. I oredigerat tillstånd utgår den från att XML-filerna ligger i en | ||
katalog med namnet "original", och att all text i dessa filer är omsluten av | ||
`<text> ... </text>`. Detta ändras lätt genom att ändra värdena för "original\_dir" | ||
respektive "xml\_elements" i makefilen. | ||
För en beskrivning av alla inställningsmöjligheter som finns kan du hämta hem | ||
följande version av makefilen, innehållande kommentarer till varje rad: | ||
|
||
svn export https://svn.spraakdata.gu.se/sb-arkiv/tools/annotate/makefiles/Makefile.template | ||
|
||
När du redigerat din Makefile är det färdigt för att köras. För att exportera | ||
till XML-format kör du kommandot | ||
|
||
make export | ||
|
||
vilket i slutändan leder till att du har det färdiga materialet i katalogen "export" (som skapas automatiskt). | ||
Vill du hellre använda det tabbseparerade formatet så kör du i stället | ||
|
||
make vrt | ||
|
||
och dessa vrt-filer hamnar då i katalogen "annotations" tillsammans med alla | ||
andra arbetsfiler. | ||
|
||
Om du lägger till eller tar bort källfiler efter en körning och vill köra om, | ||
så måste du uppdatera registret över filer genom att köra följande: | ||
|
||
make add | ||
|