Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

SpotLake 주요 이벤트 정리 #157

Open
chris0765 opened this issue Aug 23, 2022 · 22 comments
Open

SpotLake 주요 이벤트 정리 #157

chris0765 opened this issue Aug 23, 2022 · 22 comments
Assignees
Labels

Comments

@chris0765
Copy link
Contributor

chris0765 commented Aug 23, 2022

목표

추후 데이터 분석 중 특이한 패턴이 발견될 경우, 해당 원인을 파악하기 용이하게끔 하기 위한 이슈입니다.
기존에는 여러 이벤트들이 다양한 이슈에 분산되어 있었기에, 이벤트들을 찾는 과정이 복잡했습니다.

  • 2021/11/24
    [kmubigdata] kmubigdata 계정의 spotrank-timestream에서 Collect 시작 시점

  • 2022/04/14 06:00:00 ~ 2022/04/28 08:40:00
    [kmubigdata] SpotPrice 수집 모듈 추가 후 에러가 발생하여 수집이 중단된 기간

  • 2022/04/29
    [kmubigdata] AZ별 SpotPrice 수집으로 인해Changed-Row의 수가 증가한 시점

  • 2022/07/15
    [kmubigdata] Workload 누락 현상 수정 후 수집 시작 시점

  • 2022/08/05 05:20:00
    [kmubigdata] Ondemand Price 수집을 시작한 시점

  • 2022/08/23
    [spotrank] 1차 migration 완료 시점

@kmu-leeky
Copy link
Member

오케이. 잘 정리했다. 확실히 파악에 도움이 되겠다.

@james-sungjae-lee
Copy link
Contributor

이후에 발생하는 SpotLake 서비스 장애, 데이터 유실, 그 외 분석에 영향을 줄 수 있는 이벤트에 대해서도 계속해서 이슈에 남길 예정입니다.

@chris0765
Copy link
Contributor Author

  • 2022/08/23 07:50:00
    [spotrank] Collector 가동

@chris0765
Copy link
Contributor Author

  • 2022/08/24 00:00:00
    [spotrank] Collector credentials 파일명 오류로 데이터 수집 중단된 시점

@chris0765
Copy link
Contributor Author

  • 2022/08/25 00:00:00
    [spotrank] Collector 모듈 재가동

@kmu-leeky
Copy link
Member

이관은 잘 마무리 된듯 하니 close.

@chris0765
Copy link
Contributor Author

  • 2022/09/28 16:20:00 ~ 2022/09/29 03:00:00
    AWS Collector Instance 다운으로 인한 데이터 손실

@kmu-leeky kmu-leeky reopened this Sep 29, 2022
@chris0765
Copy link
Contributor Author

  • 2022/09/30 00:00:00 ~ 2022/09/30 02:50:00
    Collector 복원시 급하게 사용한 Credentials로 인한 24시간 제한으로 수집이 이루어지지 않음

@chris0765
Copy link
Contributor Author

  • 2022/10/28 04:20 ~ 2022/10/31 09:00:00
    Credentials 변경으로 인한 데이터 손실

@chris0765
Copy link
Contributor Author

  • 2023/01/06 00:00:00 ~ 2022/01/06 00:10:00
    credentials 변경으로 인한 데이터 손실

@red0sena
Copy link
Contributor

  • 2023/02/16 20:00:00 ~ 2023/02/16 15:44:00
    • Azure OAuth 로그인 관련 Access token 오류로 인한 IF 데이터 유실
  • 2023/02/16 20:00:00 ~ 2023/02/16 00:00:00
    • Azure OAuth 로그인 관련 Access token 오류로 인한 Savings 데이터 유실

@chris0765
Copy link
Contributor Author

  • 2023/02/20 00:00:00
    2023/02/19에 있었던 워크로드 에러의 영향으로 24시간 쿼리 제한에 걸려 aws 데이터 손실. kmubigdata 백업 데이터로 migration

@chris0765
Copy link
Contributor Author

  • 2023/03/21 10:50:00 ~ 2023/03/21 12:20:00
    collector를 업데이트하면서 latest를 불러오지 못하던 에러 발생. timestream에 changed-row 방식이 아닌 모든 데이터(21916 row)가 업로드되었으며, 이 기간동안의 rawdata는 저장되지 않았음.

@kmu-leeky
Copy link
Member

응 재일아 빠르게 잘봤네. 위의 이벤트는 #415 와 관련이 있는건 아닌거지? raw 데이터 복구는 #416 에서 진행을 하는듯하고, timestream 에 업로드된 모든 데이터는 그냥 둬도 괜찮을것 같지? 그렇다면 다른 추가적인 작업은 없어도 괜찮은거지?

@chris0765
Copy link
Contributor Author

#415 와 관련이 있는 문제였습니다.
timestream에 데이터가 없는 것이 아니라 없어도 되는 데이터가 있는 것이라 timestream의 모든 데이터는 그냥 두어도 괜찮다고 생각합니다. #416 의 복구 작업만 완료된다면 추가적으로 진행할 작업은 없습니다.

@red0sena
Copy link
Contributor

  • 2023/03/27 11:00:00
    Azure 내부적인 에러로 IF 쿼리 실패로 인한 데이터 유실
    {'error': {'code': 'InternalServerError', 'message': 'Please provide below info when asking for support: timestamp = 2023-03-27T02:14:29.1321931Z, correlationId = 1a277676-518e-45aa-95d6-4806fc82fd38.', 'details': [{'code': 'UnexpectedQueryExecutionError', 'message': 'An unexpected query execution error occurred. Please try again later.'}]}}

@red0sena
Copy link
Contributor

red0sena commented Apr 14, 2023

  • 2023/04/14 22:00 ~ 2023/04/18 09:00
    Azure 내부적인 에러로 IF 쿼리 실패로 인한 데이터 유실

쿼리가 가능해지면 수정

Screenshot 2023-04-14 at 10 37 04 PM

@red0sena
Copy link
Contributor

  • 2023/06/11 10:10
  • 2023/06/12 05:20
image

AWS Invaild NextToken으로 데이터 유실

@red0sena
Copy link
Contributor

red0sena commented Sep 16, 2023

2023/09/14 23:00 ~ 2023/10/17 17:00

  • Azure API 에러로 Price데이터 중복수집, 유실로 인한 데이터 유실
  • IF는 쿼리에 문제가 없어 2023/09/16 07:00부터 따로 수집
    정상화되면 수정

@red0sena
Copy link
Contributor

2023/10/17 05:00 ~ 2023/10/19 01:00

  • GCP credential file 이슈로 인한 데이터 유실

@red0sena
Copy link
Contributor

red0sena commented Feb 7, 2024

2024/01/26 04:00 ~ 2024/02/06 14:00

  • GCP billing 이슈로 인한 데이터 유실

@red0sena
Copy link
Contributor

red0sena commented Mar 4, 2024

2024/03/02 04:00 ~ 2024/03/02 04:50

  • AWS API 이슈로 인한 데이터 유실

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
Projects
None yet
Development

No branches or pull requests

4 participants