1.使用现象: 使用时如果遇到概念分类抓取不完整,以及某类概念成员股抓取不完整,可能是因为多页数据,只抓取了一页引起的.行业分类也有此类情况.

2.分析说明: 以industry.py中ths_concept_member为例.该方法主要是抓取同花顺概念股成员.比如'证金持股'有200多支股票,'熊去胆氧酸'有20多支股票.但原文只能抓取首页信息.不能翻页抓取其他页信息.

3.尝试改进: 将URL中的{page}放到for循环内,实现翻页功能.代码更新如下.其中#部分是原文,

def ths_concept_member(code= "阿里巴巴概念"): """ 同花顺-板块-概念板块-成份股 http://q.10jqka.com.cn/gn/detail/code/301558/ code: 板块名称或代码 """ if code.isdigit(): symbol=code else: symbol=ths_concept_code()[code] page=1

{symbol}"

#res = requests.get(url, headers=ths_header())
#soup = BeautifulSoup(res.text, "lxml")
try:
    page_num = int(
        soup.find_all("a", attrs={"class": "changePage"})[-1]["page"]
    )
except:
    page_num = 1
df = pd.DataFrame()
# for page in tqdm(range(1, page_num + 1), leave=False):
#     r = requests.get(url, headers=ths_header())
#     temp_df = pd.read_html(r.text)[0]
#     df = pd.concat([df, temp_df], ignore_index=True)
for page in tqdm(range(1, page_num + 1), leave=False):
    url = f"http://q.10jqka.com.cn/gn/detail/field/264648/order/desc/page/{page}/ajax/1/code/{symbol}"
    res = requests.get(url, headers=ths_header())
    soup = BeautifulSoup(res.text, "lxml")
    r = requests.get(url, headers=ths_header())
    temp_df = pd.read_html(r.text)[0]
    df = pd.concat([df, temp_df], ignore_index=True)
df.rename({"涨跌幅(%)": "涨跌幅","涨速(%)": "涨速",
        "换手(%)": "换手","振幅(%)": "振幅",'成交额':'成交额(亿)',
        '流通股':'流通股(亿)','流通市值':'流通市值(亿)',
        },inplace=True,axis=1,)
del df["加自选"]
del df['序号']
del df['涨跌']
df["代码"] = df["代码"].astype(str).str.zfill(6)
df[['成交额(亿)','流通股(亿)','流通市值(亿)']]=df[['成交额(亿)','流通股(亿)',
                    '流通市值(亿)']].apply(lambda s:s.str.strip('亿'))
ignore_cols = ['代码', '名称']
df = trans_num(df, ignore_cols)
return df.drop_duplicates()

4.感谢作者,感谢团队.感谢大家指正.谢谢.

tkfy920 / qstock

爬取数据不完整问题--附解决方式 #7

url = f"http://q.10jqka.com.cn/gn/detail/field/264648/order/desc/page/{page}/ajax/1/code/{symbol}"