diff --git a/README.md b/README.md index d10468f..a01b53f 100644 --- a/README.md +++ b/README.md @@ -12,7 +12,7 @@ Generate html files (for documentation on Språkbanken's web page): Include html files in drupal: - {include https://github.com/spraakbanken/sparv-docs/blob/master/html/annotations_eng.html} + {include https://github.com/spraakbanken/sparv-docs/raw/master/html/annotations_eng.html} Build exercises PDF: diff --git a/html/korpusimport.html b/html/korpusimport.html new file mode 100644 index 0000000..e0fb4a5 --- /dev/null +++ b/html/korpusimport.html @@ -0,0 +1,25 @@ + +
Syftet med det här dokumentet är att förklara hur man kör eget material genom importkedjan om man har tillgång till Språkbankens Subversion-repositorium och ett användarkonto på servern koala.
+Det är möjligt att köra eget material genom Språkbankens korpusimportkedja, och att få det annoterat med alla de annoteringar som används för korpusarna i Korp. Resultatet får du i antingen ett tabbseparerat format eller XML.
+Följande krav ställs på ditt textmaterial:
+<text> ... </text>
.Se även här för mer information om indataformatet.
+Logga in på koala, och börja med att sätta följande miljövariabel:
+ export SPARV_MAKEFILES=/export/res/lb/korpus/tools/annotate/makefiles
+Förslagsvis skapar du sen en katalog under din hemkatalog, i vilken alla arbetsfiler kommer ligga. Navigera till denna katalog, och hämta sedan hem följande exempel-Makefile ur Subversion:
+ svn export https://svn.spraakdata.gu.se/sb-arkiv/tools/annotate/makefiles/Makefile.example Makefile
+Därefter skapar du en underkatalog i vilken du lägger de XML-filer som utgör ditt textmaterial.
+Det sista du måste göra är att redigera filen Makefile för att anpassa den efter ditt material. I oredigerat tillstånd utgår den från att XML-filerna ligger i en katalog med namnet "original", och att all text i dessa filer är omsluten av <text> ... </text>
. Detta ändras lätt genom att ändra värdena för "original_dir" respektive "xml_elements" i makefilen. För en beskrivning av alla inställningsmöjligheter som finns kan du hämta hem följande version av makefilen, innehållande kommentarer till varje rad:
svn export https://svn.spraakdata.gu.se/sb-arkiv/tools/annotate/makefiles/Makefile.template
+När du redigerat din Makefile är det färdigt för att köras. För att exportera till XML-format kör du kommandot
+ make export
+vilket i slutändan leder till att du har det färdiga materialet i katalogen "export" (som skapas automatiskt). Vill du hellre använda det tabbseparerade formatet så kör du i stället
+ make vrt
+och dessa vrt-filer hamnar då i katalogen "annotations" tillsammans med alla andra arbetsfiler.
+Om du lägger till eller tar bort källfiler efter en körning och vill köra om, så måste du uppdatera registret över filer genom att köra följande:
+ make add
diff --git a/korpusimport.md b/korpusimport.md
new file mode 100644
index 0000000..8717848
--- /dev/null
+++ b/korpusimport.md
@@ -0,0 +1,63 @@
+
+Syftet med det här dokumentet är att förklara hur man kör eget material genom
+importkedjan om man har tillgång till Språkbankens Subversion-repositorium och
+ett användarkonto på servern koala.
+
+Det är möjligt att köra eget material genom Språkbankens korpusimportkedja, och
+att få det annoterat med alla de annoteringar som används för korpusarna i Korp.
+Resultatet får du i antingen ett tabbseparerat format eller XML.
+
+Följande krav ställs på ditt textmaterial:
+
+* Filerna måste vara i UTF-8.
+* Formatet måste vara XML-liknande, med åtminstone en start- och sluttagg som
+omsluter texten. Det räcker med något så simpelt som `