模拟浏览器点击辅助论坛,这里使用的是Xpath路径去定位网页文件元素。
然后使用的是edge的浏览器驱动,使用这段代码前还需要下载一个edge 的驱动,与代码文件放在同一目录下,下载链接在这:
Microsoft Edge WebDriver - Microsoft Edge Developer
根据电脑版本下,一般Windows下这个64就行:
模拟点击运行 代码如下:(每一步的原理就不讲了....没爬虫基础可能也看不懂)
ckwx=[]
from selenium.webdriver import Edge
from selenium.webdriver.edge.options import Options as EdgeOptions
driver = webdriver.Edge("msedgedriver")
url = "https://xs.scqylaw.com/"
driver.implicitly_wait(10)
driver.get(url)
sleep(3)
code=driver.find_element(By.XPATH,'//*[@id="lst-ib"]')
code.send_keys('LSTM')
driver.find_element(By.XPATH,'/html/body/div[1]/center/div[3]/form/div[2]/input[1]').click()
#网页转换,将网页转换到所需的地方
win =driver.window_handles
driver.switch_to.window(win[1])
sleep(2)
data:image/s3,"s3://crabby-images/2d2d0/2d2d0d7b0f5bdff08f5ee3fe254c779f6362f9a0" alt="ps脚本将文件载入堆栈_ps载入画笔文件_将文件载入堆栈"
data:image/s3,"s3://crabby-images/3a964/3a9645402201c6ff88b93e19e166381b1c5d9a85" alt="ps载入画笔文件_将文件载入堆栈_ps脚本将文件载入堆栈"
现在参考文献的格式都提取出来了ps脚本将文件载入堆栈,装在了ckwx这个列表中,打印查看:
data:image/s3,"s3://crabby-images/3e7f3/3e7f3b935b4eae4e2a1abf49359449a77a9c582e" alt="将文件载入堆栈_ps载入画笔文件_ps脚本将文件载入堆栈"
写入word文档
用docx这个包就行:(下载命令——pip install python-docx)
import docx
from docx import shared
from docx.enum.text import WD_PARAGRAPH_ALIGNMENT
doc=docx.Document() #创建内存中的word文档对象
doc.styles['Normal'].font.name = 'Times New Roman'
doc.styles['Normal'].font.size = shared.Pt(9)
for i in range(len(ckwx)):
doc.add_paragraph(f"[{i+1}] {ckwx[i]}")
doc.save("参考文献汇总.docx") #保存才能看到结果
最后生成一个word,查看一下效果还不错:
data:image/s3,"s3://crabby-images/6453c/6453cfd4ae8441a4ed9186364f0fd332899538e3" alt="ps脚本将文件载入堆栈_ps载入画笔文件_将文件载入堆栈"
来源:【九爱网址导航www.fuzhukm.com】
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!