Skip to content

Commit

Permalink
add korpusimport.md from old korp-doc repo
Browse files Browse the repository at this point in the history
  • Loading branch information
anne17 committed Apr 16, 2018
1 parent 17aca2f commit 24302b8
Show file tree
Hide file tree
Showing 3 changed files with 89 additions and 1 deletion.
2 changes: 1 addition & 1 deletion README.md
Original file line number Diff line number Diff line change
Expand Up @@ -12,7 +12,7 @@ Generate html files (for documentation on Språkbanken's web page):

Include html files in drupal:

{include https://github.com/spraakbanken/sparv-docs/blob/master/html/annotations_eng.html}
{include https://github.com/spraakbanken/sparv-docs/raw/master/html/annotations_eng.html}

Build exercises PDF:

Expand Down
25 changes: 25 additions & 0 deletions html/korpusimport.html
Original file line number Diff line number Diff line change
@@ -0,0 +1,25 @@
<!--##Körning av eget material på koala-->
<p>Syftet med det här dokumentet är att förklara hur man kör eget material genom importkedjan om man har tillgång till Språkbankens Subversion-repositorium och ett användarkonto på servern koala.</p>
<p>Det är möjligt att köra eget material genom Språkbankens korpusimportkedja, och att få det annoterat med alla de annoteringar som används för korpusarna i Korp. Resultatet får du i antingen ett tabbseparerat format eller XML.</p>
<p>Följande krav ställs på ditt textmaterial:</p>
<ul>
<li>Filerna måste vara i UTF-8.</li>
<li>Formatet måste vara XML-liknande, med åtminstone en start- och sluttagg som omsluter texten. Det räcker med något så simpelt som <code>&lt;text&gt; ... &lt;/text&gt;</code>.</li>
<li>Varje enskild fil får inte vara för stor. Är de över 20 MB bör de delas upp i mindre filer.</li>
</ul>
<p>Se även <a href="https://spraakbanken.gu.se/swe/forskning/infrastruktur/sparv/indataformat">här</a> för mer information om indataformatet.</p>
<h3 id="tillvägagångssätt">Tillvägagångssätt</h3>
<p>Logga in på koala, och börja med att sätta följande miljövariabel:</p>
<pre><code> export SPARV_MAKEFILES=/export/res/lb/korpus/tools/annotate/makefiles</code></pre>
<p>Förslagsvis skapar du sen en katalog under din hemkatalog, i vilken alla arbetsfiler kommer ligga. Navigera till denna katalog, och hämta sedan hem följande exempel-Makefile ur Subversion:</p>
<pre><code> svn export https://svn.spraakdata.gu.se/sb-arkiv/tools/annotate/makefiles/Makefile.example Makefile</code></pre>
<p>Därefter skapar du en underkatalog i vilken du lägger de XML-filer som utgör ditt textmaterial.</p>
<p>Det sista du måste göra är att redigera filen Makefile för att anpassa den efter ditt material. I oredigerat tillstånd utgår den från att XML-filerna ligger i en katalog med namnet &quot;original&quot;, och att all text i dessa filer är omsluten av <code>&lt;text&gt; ... &lt;/text&gt;</code>. Detta ändras lätt genom att ändra värdena för &quot;original_dir&quot; respektive &quot;xml_elements&quot; i makefilen. För en beskrivning av alla inställningsmöjligheter som finns kan du hämta hem följande version av makefilen, innehållande kommentarer till varje rad:</p>
<pre><code> svn export https://svn.spraakdata.gu.se/sb-arkiv/tools/annotate/makefiles/Makefile.template</code></pre>
<p>När du redigerat din Makefile är det färdigt för att köras. För att exportera till XML-format kör du kommandot</p>
<pre><code> make export</code></pre>
<p>vilket i slutändan leder till att du har det färdiga materialet i katalogen &quot;export&quot; (som skapas automatiskt). Vill du hellre använda det tabbseparerade formatet så kör du i stället</p>
<pre><code> make vrt</code></pre>
<p>och dessa vrt-filer hamnar då i katalogen &quot;annotations&quot; tillsammans med alla andra arbetsfiler.</p>
<p>Om du lägger till eller tar bort källfiler efter en körning och vill köra om, så måste du uppdatera registret över filer genom att köra följande:</p>
<pre><code> make add</code></pre>
63 changes: 63 additions & 0 deletions korpusimport.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,63 @@
<!--##Körning av eget material på koala-->
Syftet med det här dokumentet är att förklara hur man kör eget material genom
importkedjan om man har tillgång till Språkbankens Subversion-repositorium och
ett användarkonto på servern koala.

Det är möjligt att köra eget material genom Språkbankens korpusimportkedja, och
att få det annoterat med alla de annoteringar som används för korpusarna i Korp.
Resultatet får du i antingen ett tabbseparerat format eller XML.

Följande krav ställs på ditt textmaterial:

* Filerna måste vara i UTF-8.
* Formatet måste vara XML-liknande, med åtminstone en start- och sluttagg som
omsluter texten. Det räcker med något så simpelt som `<text> ... </text>`.
* Varje enskild fil får inte vara för stor. Är de över 20 MB bör de delas upp
i mindre filer.

Se även [här](https://spraakbanken.gu.se/swe/forskning/infrastruktur/sparv/indataformat)
för mer information om indataformatet.

###Tillvägagångssätt

Logga in på koala, och börja med att sätta följande miljövariabel:

export SPARV_MAKEFILES=/export/res/lb/korpus/tools/annotate/makefiles

Förslagsvis skapar du sen en katalog under din hemkatalog, i vilken alla
arbetsfiler kommer ligga. Navigera till denna katalog, och hämta sedan hem följande
exempel-Makefile ur Subversion:

svn export https://svn.spraakdata.gu.se/sb-arkiv/tools/annotate/makefiles/Makefile.example Makefile

Därefter skapar du en underkatalog i vilken du lägger de XML-filer som utgör
ditt textmaterial.

Det sista du måste göra är att redigera filen Makefile för att anpassa den efter ditt
material. I oredigerat tillstånd utgår den från att XML-filerna ligger i en
katalog med namnet "original", och att all text i dessa filer är omsluten av
`<text> ... </text>`. Detta ändras lätt genom att ändra värdena för "original\_dir"
respektive "xml\_elements" i makefilen.
För en beskrivning av alla inställningsmöjligheter som finns kan du hämta hem
följande version av makefilen, innehållande kommentarer till varje rad:

svn export https://svn.spraakdata.gu.se/sb-arkiv/tools/annotate/makefiles/Makefile.template

När du redigerat din Makefile är det färdigt för att köras. För att exportera
till XML-format kör du kommandot

make export

vilket i slutändan leder till att du har det färdiga materialet i katalogen "export" (som skapas automatiskt).
Vill du hellre använda det tabbseparerade formatet så kör du i stället

make vrt

och dessa vrt-filer hamnar då i katalogen "annotations" tillsammans med alla
andra arbetsfiler.

Om du lägger till eller tar bort källfiler efter en körning och vill köra om,
så måste du uppdatera registret över filer genom att köra följande:

make add

0 comments on commit 24302b8

Please sign in to comment.