Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Adăugare de noi surse de știri prin newskeeper.ro #53

Open
okvivi opened this issue Oct 10, 2012 · 2 comments
Open

Adăugare de noi surse de știri prin newskeeper.ro #53

okvivi opened this issue Oct 10, 2012 · 2 comments

Comments

@okvivi
Copy link
Member

okvivi commented Oct 10, 2012

Harta politicii acum crawluiește doar hotnews și mediafax, dar ar fi util și benefic dacă ar indexa toate ziarele.

Putem face asta preluând articolele din newskeeper.ro care indexează 10 surse românești de știri.


From: Adrian Zavelcuta - 6:22 AM (4 hours ago) - to me

Salut,

Sunt doua exporturi

  • unul cu lista ultimelor 100 de articole care e aici: http://newskeeper.ro/hpexport/list . Formatul e json si e relativ simplu: un array ce contine articole cu cheile:
    • originalUrl - url-ul de la siteul de stiri
    • md5 - nu stiu daca ajuta, dar eu il folosesc pentru a identifica url-uri unice
    • insertDate - timestampul cand a fost inserat
    • nkUrl - urlul catre contentul articolului
    • newspaper - situl de unde e luat - deocamdata poate avea 10 valori: ADEVARUL,EVZ,GANDUL,CAPITAL,ZF,WS,JURNALUL,HOTNEWS,LIBERTATEA,RL
  • celalalt export e pentru continutul articolului si are campurile:
    • rawHtml - pagina html cum e pe site
    • si un json object optional 'optionalArticle' care contine doar textul articolului (campul nu apare daca pagina nu poate sa fie parsata):
      • title
      • description
      • content
      • authors (array)

Doua exemple de url-uri:
Lista: http://newskeeper.ro/hpexport/list
Un articol din lista: http://newskeeper.ro/hpexport/item?id=1000

Deocamdata nu sterg articolele mai vechi de o zi, dar o sa fac un scheduler pentru cleaning.

Enjoy :)

@ghost ghost assigned cghiban Nov 17, 2012
@okvivi
Copy link
Member Author

okvivi commented Nov 17, 2012

Cornel a implementat asta, și azi am adăugat scriptul în CRON pentru a rula o dată la fiecare patru ore.

La prima vedere pare okay, dar cineva ar trebui să țină un ochi pe ce se întâmplă pentru a se asigura că totul merge cum trebuie - că știrile sunt indexate corect, că tot conținutul este acolo.

O primă eroare pe care eu am remarcat-o este că NewsKeeper nu pare să includă întreg conținutul din corpul știri.

De exemplu http://www.evz.ro/detalii/stiri/crin-antonescu-dupa-alegeri-usl-va-avea-cea-mai-larga-majoritate-mai-mare-decat-a-fsn-i-101161.html, care pe newskeeper este http://newskeeper.ro/hpexport/item?id=33712 în câmpul de "content" nu include și următorul paragraf:

Crin Antonescu: După alegeri, USL va avea cea mai largă majoritate, mai mare decat a FSN în 1990
Liderul USL Crin Antonescu este foarte încrezător în rezultatele pe care le va obţine Uniunea la alegerile din 9 decembrie. Liberalul crede că USL va avea cea mai largă majoritate care a existat vreodată în Parlament, mai mare chiar decât cea de care beneficia FSN în 1990.

Și pentru că Crin Antonescu nu e menționat în restul articolului, harta nu îl taguiește corect.

Issue-ul ăsta ar trebui rezolvat de NewsKeeper, evedent, nu de noi.

@okvivi
Copy link
Member Author

okvivi commented Nov 17, 2012

Cum am văzut că NewsKeeper afișează și poze din articole, ar fi cool dacă și import-ul din harta politicii ar adăuga poze - așa cum facem deja pentru Mediafax.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

2 participants