ps脚本将文件载入堆栈 Python自动化小技巧12——根据论文题目自动导出参考文献格式
案例背景
在写论文的时候,弄参考文献格式也很麻烦,不可能手打人名题目期刊名称年月日卷号页码这些,我们一般都是使用系统自动导出的格式复制粘贴就行。中国知网可以直接导出论文的格式,但是知网基本只有中文的论文,英文的论文还有很多sci的库里面的论文都没有。
我们一般看英文论文都是国外的期刊库,网站都是各种来源的,想一一导出论文的参考文献格式需要一个一个去找......有的还不一定找得到,而且像science Direct网站导出来还是一个txt文件,都不能直接用.......
有没有办法,只需要论文的题目ps脚本将文件载入堆栈,就能输出参考文献格式呢?
有的,谷歌学术就可以做到,中文英文的论文都能导出参考文献格式,复制论文题目进去,然后点出引用就能复制粘贴了。
但是这个过程是很枯燥的,复制标题,搜索,点击引用,复制粘贴...反复循环。
但是这种重复性的劳动交给Python脚本是很棒,很便捷的。下面来实现它。
代码思路
先获取论文题目,放到一个列表里面。然后使用selenium库去进行模拟点击,得到引用文本,最后写入word就行。
代码实现 获取论文题目1
第一个方法,这里可以使用bat脚本,不需要python环境就能运行的。
首先和你所有的参考文献一个文件夹目录下,新建一个txt文件,写入下面代码:
dir *.* /b> 文本档案.txt
然后保存退出,右键这个文本文件,重命名,修改文件后缀。从 'txt' 改为 ‘bat’ 。这样它就变成了脚本文件。我把它名称命名为‘’目录‘
然后双击运行一下,就会多出一个文本档案的txt文件。里面就有这个文件夹下所有的文件名称。
当然,这是对你文件名称是论文的名称才能使用。如果你论文的名称是乱码那就不行了....可以将每个文件重命名为论文名称然后再使用这个脚本。
获取论文题目2
第二个方法,针对
这个库上面的导出来的txt文本去获取论文名称,我目前看英文论文就是这样用的。
导出的一个论文参考文献会给这样一个txt文件:
我们可以看到第一行是作者们名字,第二行就是论文名称了。
我们遍历所有的下载的这个txt文件(在science Direct下载论文的时候记得顺便把这个引用导出txt文件也下载了,不然后面再找很麻烦),然后取出第二行论文名称,装在一个列表里面就行。
import numpy as np
import pandas as pd
import glob
files=glob.glob('*.txt')
paper_names=[]
for file in files:
with open(file, 'r',encoding='utf-8') as f:
context = f.readlines()
context=[ con.replace('\n','') for con in context]
paper_names.append(context[1])
可以看到我参考文献目录下面的所有论文名称都提取出来了。装在paper_names这个列表中
模拟点击获取参考文献格式
导入selenium库
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.common.by import By
from bs4 import BeautifulSoup
import os
from time import sleep