Crawler

마켓브릿지 프로젝트 테스트 데이터 크롤러입니다!

1. scrapy 설치

pip install scrapy
pip install bs4

2. scrapy 실행

scrap_for_bridge 경로에서 scrapy crawl <crawler 이름>

crawler 이름
- 카테고리 수집 크롤러 : coupang_cate_crawler
- 상품 정보 수집 크롤러 : prod_detail_crawler

3. output 규격

이미지 저장 경로

- 기본적으로 `../data/{ctgr1}/{ctgr2}/{ctgr3}/{product_name}/{coupang_prod_id}`  경로에 이미지가 저장된다.
    - 쿠팡 상품 번호가 기준선이다.
- 메인 썸네일 이미지는 기본경로 하위의 main_img에 저장된다.
- 상품 상세 설명 이미지는 기본경로 하위의 details에 저장된다.
- 나머지 상품 이미지들은 기본경로에 저장된다.

tsv 파일 저장 데이터

- 기본적으로 이미지 저장시 한 row 마다 한 줄씩 생성된다.

'ctgr1' : 1뎁스 (최상위 카테고리)
'ctgr2' : 2뎁스 (중간 카테고리)
'ctgr3' : 3뎁스 (최하위 카테고리)
'product_name' : 상품명 
'img_type' : main(메인이미지), product(상품이미지), detail(상품상세이미지)
'img_seq_no' : 이미지 저장순서
'dc_rate' : 할인율
'price' : 할인 전 가격
'tags_obj' : 상품마다의 tag 정보 json 형식
'img_file_name' : 이미지 저장된 경로 + 처리된 이미지 파일 이름
'option_info' : 옵션 정보
'img_url' : img url 정보

Name		Name	Last commit message	Last commit date
Latest commit History 6 Commits
scrap_for_bridge		scrap_for_bridge
.DS_Store		.DS_Store
.gitignore		.gitignore
README.md		README.md
scrapy.cfg		scrapy.cfg

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Crawler

마켓브릿지 프로젝트 테스트 데이터 크롤러입니다!

1. scrapy 설치

2. scrapy 실행

3. output 규격

이미지 저장 경로

tsv 파일 저장 데이터

About

Releases

Packages

Languages

TeamObjects/crawler

Folders and files

Latest commit

History

Repository files navigation

Crawler

마켓브릿지 프로젝트 테스트 데이터 크롤러입니다!

1. scrapy 설치

2. scrapy 실행

3. output 규격

이미지 저장 경로

tsv 파일 저장 데이터

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages