2025/03/10 2

HTTP 완벽 가이드 스터디 (9)

웹 로봇 : 연속된 웹 트랜잭션들을 자동으로 수행하는 sw 프로그램크롤러, 스파이더, 웜, 봇루프를 피하기 위한 방문한 곳 흔적 추적복잡한 자료구조 필요 → 검색 트리나 해시 테이블대규모 웹 크롤러가 사용하는 방문 url 관리 기법트리와 해시 테이블느슨한 존재 비트맵공간 사용 최소화 → 존재 비트 배열(1과0만 들어있는 배열) 같은 느슨한 자료 구조각 URL은 해시 함수에 의해 고정된 크기의 숫자로 변환된다.배열 안에 대응하는 존재비트(presence bit)를 갖는다.존재 비트가 이미 있다 → 이미 크롤링된 url체크포인트로봇 프로그램의 갑작스러운 중단 대비방문한 url의 목록이 디스크에 저장되었는지 확인파티셔닝하나의 로봇으로는 크롤링 완수 불가능농장(farm) - 분리된 한 대의 컴퓨터인 로봇들각 로..

HTTP 2025.03.10

25 RAG

※ Bhavishya Pandit의 25Types of RAG를 읽고 정리한 글입니다.  https://www.linkedin.com/in/bhavishya-pandit/ Standard RAG참고한 글 https://medium.com/@jalajagr/rag-series-part-2-standard-rag-1c5f979b7a92 RAG Series : Part 2: Standard RAGWhat is Standard RAG?medium.com검색 + LLM문서 청킹실시간 사용을 위한 1~2초 답변 목표외부 데이터 소스 활용 -> 답변 질 향상Corrective RAGhttps://cobusgreyling.medium.com/corrective-rag-crag-5e40467099f8생성된 응답의 에러를..

Tech 2025.03.10